Especificações técnicas do DeepSeek-OCR-2
| Campo | DeepSeek-OCR-2 (publicado) |
|---|---|
| Data de lançamento / Versão | 27 de jan. de 2026 — DeepSeek-OCR-2 (repositório público / card no HF). |
| Parâmetros | Modelo de ~3 bilhões (3B) de parâmetros (decodificador DeepSeek 3B MoE + compressor). |
| Arquitetura | Codificador de visão (DeepEncoder V2 / compressão óptica) → decodificador visão-linguagem de 3B (variantes MoE referenciadas nos materiais da DeepSeek). |
| Entrada | Imagens em alta resolução / páginas digitalizadas / PDFs (formatos de imagem: PNG, JPEG, PDFs multipágina via pipelines de conversão). |
| Saída | Texto simples (UTF-8), metadados estruturados de layout (bounding/flow), JSON K-V opcional para parsing downstream. |
| Comprimento de contexto (efetivo) | Usa sequências comprimidas de tokens visuais — objetivo de design: contextos longos em escala de documento (os limites práticos dependem da taxa de compressão; o pipeline típico produz redução de 10× nos tokens em comparação com a tokenização ingênua). |
| Idiomas | Mais de 100 idiomas / sistemas de escrita (cobertura multilíngue reivindicada nas notas do produto). |
O que é o DeepSeek-OCR-2
O DeepSeek-OCR-2 é o segundo grande modelo de OCR/compreensão de documentos da DeepSeek AI. Em vez de tratar OCR como mera extração de caracteres, o modelo comprime a informação visual do documento em tokens visuais compactos (um processo que a DeepSeek chama de vision-text compression ou de sua família DeepEncoder) e, em seguida, decodifica esses tokens com um decodificador VLM em estilo mixture-of-experts (MoE) de 3B de parâmetros, que modela conjuntamente a geração de texto e o raciocínio de layout. A abordagem tem como alvo documentos de contexto longo (tabelas, layouts multicoluna, diagramas, sistemas de escrita multilíngues), ao mesmo tempo em que reduz o comprimento da sequência e o custo geral de execução em comparação com a tokenização de cada pixel/patch.
Principais recursos do DeepSeek-OCR-2
- Ordem de leitura semelhante à humana e percepção de layout — aprende a ordenação lógica do texto (títulos→parágrafos→tabelas) em vez de varrer grades fixas.
- Compressão visão-texto — comprime a entrada visual em sequências de tokens muito mais curtas (meta típica de compressão de 10×), permitindo contextos de documentos longos para o decodificador.
- Multilíngue e multiescrita — afirma oferecer suporte a mais de 100 idiomas e diversos sistemas de escrita.
- Alta taxa de processamento / auto-hospedável — projetado para inferência on-prem (exemplos com A100), com builds locais/GGUF relatados pela comunidade.
- Ajustável por fine-tuning — o repositório e os guias incluem instruções de fine-tuning para adaptação a domínios específicos (faturas, artigos científicos, formulários).
- Saída de layout + conteúdo — não apenas texto simples: saídas estruturadas para facilitar pipelines downstream de KIE/NER e RAG.
Desempenho em benchmark do DeepSeek-OCR-2
- Benchmark Fox / métrica interna: ~97% de acurácia de correspondência exata com compressão de 10× no benchmark Fox (o benchmark da empresa focado em fidelidade documental sob compressão). Esta é uma das principais alegações nos materiais de marketing da DeepSeek.
- Trade-offs de compressão: embora a acurácia permaneça alta com compressão moderada (≈10×), ela cai com compressão mais agressiva (a Tom’s Hardware resumiu testes mostrando a acurácia caindo para ~60% em 20× em alguns cenários). Isso destaca os trade-offs práticos entre taxa de processamento e fidelidade.
- Taxa de processamento: ~200 mil páginas/dia em uma única NVIDIA A100 para cargas de trabalho típicas — útil ao avaliar custo/escala em comparação com APIs de OCR em nuvem.
Casos de uso e implantações recomendadas
- Ingestão e indexação de documentos corporativos: converta grandes acervos de relatórios anuais, PDFs e documentos digitalizados em texto pesquisável + metadados de layout para pipelines de RAG/LLM. (A alegação de taxa de processamento da DeepSeek é atraente em escala.)
- Extração estruturada de tabelas / relatórios financeiros: o codificador com percepção de layout ajuda a preservar as relações entre células da tabela para extração e reconciliação downstream de KIE. Valide o nível de compressão em relação às necessidades de precisão numérica.
- Digitalização de arquivos multilíngues: o suporte a mais de 100 idiomas o torna adequado para bibliotecas, arquivos governamentais ou processamento multinacional de documentos.
- Implantações on-prem sensíveis à privacidade: variantes auto-hospedáveis em HF/GGUF permitem manter os dados internamente em vez de usar provedores em nuvem.
- Pré-processamento para RAG com LLM: compactar e extrair texto + layout com fidelidade para ingestão em RAG quando o comprimento de contexto é um gargalo.
Como acessar o DeepSeek-OCR-2 via CometAPI
Etapa 1: Cadastre-se para obter uma chave de API
Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro. Entre no seu console do CometAPI. Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token da API na central pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API DeepSeek-OCR-2
Selecione o endpoint “deepseek-ocr-2” para enviar a solicitação de API e definir o corpo da solicitação. O método de solicitação e o corpo da solicitação são obtidos na documentação da API em nosso site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua pela sua chave CometAPI real da sua conta. A base url é Chat Completions.
Insira sua pergunta ou solicitação no campo content — é a isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.
Etapa 3: Recupere e verifique os resultados
Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.