ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Por Solicitação:$0.04
DeepSeek-OCR 2 é um modelo lançado pela DeepSeek em 27 de janeiro de 2026, utilizando o método inovador DeepEncoder V2, que permite à IA reorganizar dinamicamente partes de uma imagem com base em seu significado, em vez de apenas escanear mecanicamente da esquerda para a direita. Mantendo alta eficiência de compressão de dados, o modelo alcançou avanços significativos em múltiplos benchmarks e métricas de produção. O modelo pode abranger páginas de documentos complexos com apenas 256 a 1120 tokens de visão, alcançando uma pontuação geral de 91.09% na avaliação OmniDocBench v1.5.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Especificações técnicas do DeepSeek-OCR-2

CampoDeepSeek-OCR-2 (publicado)
Data de lançamento / Versão27 de jan. de 2026 — DeepSeek-OCR-2 (repositório público / card no HF).
ParâmetrosModelo de ~3 bilhões (3B) de parâmetros (decodificador DeepSeek 3B MoE + compressor).
ArquiteturaCodificador de visão (DeepEncoder V2 / compressão óptica) → decodificador visão-linguagem de 3B (variantes MoE referenciadas nos materiais da DeepSeek).
EntradaImagens em alta resolução / páginas digitalizadas / PDFs (formatos de imagem: PNG, JPEG, PDFs multipágina via pipelines de conversão).
SaídaTexto simples (UTF-8), metadados estruturados de layout (bounding/flow), JSON K-V opcional para parsing downstream.
Comprimento de contexto (efetivo)Usa sequências comprimidas de tokens visuais — objetivo de design: contextos longos em escala de documento (os limites práticos dependem da taxa de compressão; o pipeline típico produz redução de 10× nos tokens em comparação com a tokenização ingênua).
IdiomasMais de 100 idiomas / sistemas de escrita (cobertura multilíngue reivindicada nas notas do produto).

O que é o DeepSeek-OCR-2

O DeepSeek-OCR-2 é o segundo grande modelo de OCR/compreensão de documentos da DeepSeek AI. Em vez de tratar OCR como mera extração de caracteres, o modelo comprime a informação visual do documento em tokens visuais compactos (um processo que a DeepSeek chama de vision-text compression ou de sua família DeepEncoder) e, em seguida, decodifica esses tokens com um decodificador VLM em estilo mixture-of-experts (MoE) de 3B de parâmetros, que modela conjuntamente a geração de texto e o raciocínio de layout. A abordagem tem como alvo documentos de contexto longo (tabelas, layouts multicoluna, diagramas, sistemas de escrita multilíngues), ao mesmo tempo em que reduz o comprimento da sequência e o custo geral de execução em comparação com a tokenização de cada pixel/patch.

Principais recursos do DeepSeek-OCR-2

  • Ordem de leitura semelhante à humana e percepção de layout — aprende a ordenação lógica do texto (títulos→parágrafos→tabelas) em vez de varrer grades fixas.
  • Compressão visão-texto — comprime a entrada visual em sequências de tokens muito mais curtas (meta típica de compressão de 10×), permitindo contextos de documentos longos para o decodificador.
  • Multilíngue e multiescrita — afirma oferecer suporte a mais de 100 idiomas e diversos sistemas de escrita.
  • Alta taxa de processamento / auto-hospedável — projetado para inferência on-prem (exemplos com A100), com builds locais/GGUF relatados pela comunidade.
  • Ajustável por fine-tuning — o repositório e os guias incluem instruções de fine-tuning para adaptação a domínios específicos (faturas, artigos científicos, formulários).
  • Saída de layout + conteúdo — não apenas texto simples: saídas estruturadas para facilitar pipelines downstream de KIE/NER e RAG.

Desempenho em benchmark do DeepSeek-OCR-2

  • Benchmark Fox / métrica interna: ~97% de acurácia de correspondência exata com compressão de 10× no benchmark Fox (o benchmark da empresa focado em fidelidade documental sob compressão). Esta é uma das principais alegações nos materiais de marketing da DeepSeek.
  • Trade-offs de compressão: embora a acurácia permaneça alta com compressão moderada (≈10×), ela cai com compressão mais agressiva (a Tom’s Hardware resumiu testes mostrando a acurácia caindo para ~60% em 20× em alguns cenários). Isso destaca os trade-offs práticos entre taxa de processamento e fidelidade.
  • Taxa de processamento: ~200 mil páginas/dia em uma única NVIDIA A100 para cargas de trabalho típicas — útil ao avaliar custo/escala em comparação com APIs de OCR em nuvem.

Casos de uso e implantações recomendadas

  • Ingestão e indexação de documentos corporativos: converta grandes acervos de relatórios anuais, PDFs e documentos digitalizados em texto pesquisável + metadados de layout para pipelines de RAG/LLM. (A alegação de taxa de processamento da DeepSeek é atraente em escala.)
  • Extração estruturada de tabelas / relatórios financeiros: o codificador com percepção de layout ajuda a preservar as relações entre células da tabela para extração e reconciliação downstream de KIE. Valide o nível de compressão em relação às necessidades de precisão numérica.
  • Digitalização de arquivos multilíngues: o suporte a mais de 100 idiomas o torna adequado para bibliotecas, arquivos governamentais ou processamento multinacional de documentos.
  • Implantações on-prem sensíveis à privacidade: variantes auto-hospedáveis em HF/GGUF permitem manter os dados internamente em vez de usar provedores em nuvem.
  • Pré-processamento para RAG com LLM: compactar e extrair texto + layout com fidelidade para ingestão em RAG quando o comprimento de contexto é um gargalo.

Como acessar o DeepSeek-OCR-2 via CometAPI

Etapa 1: Cadastre-se para obter uma chave de API

Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro. Entre no seu console do CometAPI. Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token da API na central pessoal, obtenha a chave do token: sk-xxxxx e envie.

cometapi-key

Etapa 2: Envie solicitações para a API DeepSeek-OCR-2

Selecione o endpoint “deepseek-ocr-2” para enviar a solicitação de API e definir o corpo da solicitação. O método de solicitação e o corpo da solicitação são obtidos na documentação da API em nosso site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua pela sua chave CometAPI real da sua conta. A base url é Chat Completions.

Insira sua pergunta ou solicitação no campo content — é a isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recupere e verifique os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

How is DeepSeek-OCR-2 different from traditional OCR APIs?

O DeepSeek-OCR-2 utiliza Visual Causal Flow para determinar a ordem de leitura semântica, permitindo reconstruir tabelas e layouts de várias colunas com mais precisão do que mecanismos de OCR baseados em grade.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Sim, ele é especificamente otimizado para preservar a estrutura de tabelas e a notação matemática em saída estruturada em Markdown ou JSON.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Sim, sua saída estruturada o torna bem adequado para o pré-processamento de documentos em fluxos de trabalho de geração aumentada por recuperação.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

O OCR-2 melhora a compreensão de layout, reduz as taxas de erro de caracteres e apresenta melhor desempenho em documentos complexos em comparação ao OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Sim, ele oferece suporte a mais de 100 idiomas, incluindo sistemas de escrita não latinos e documentos com idiomas mistos.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Ferramentas da comunidade oferecem suporte a fine-tuning, com relatos de melhorias na precisão do OCR em domínios específicos, como finanças e documentos científicos.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Escolha o DeepSeek-OCR-2 quando a fidelidade à estrutura do documento e a precisão do OCR forem mais importantes do que o raciocínio multimodal geral.

Recursos para DeepSeek-OCR2

Explore os principais recursos do DeepSeek-OCR2, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para DeepSeek-OCR2

Explore preços competitivos para DeepSeek-OCR2, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como DeepSeek-OCR2 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Por Solicitação:$0.04
Por Solicitação:$0.05
-20%

Código de exemplo e API para DeepSeek-OCR2

Acesse código de exemplo abrangente e recursos de API para DeepSeek-OCR2 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do DeepSeek-OCR2 em seus projetos.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Mais modelos