Especificaciones técnicas de DeepSeek-OCR-2
| Campo | DeepSeek-OCR-2 (publicado) |
|---|---|
| Fecha de lanzamiento / Versión | 27 de enero de 2026 — DeepSeek-OCR-2 (repositorio público / tarjeta de HF). |
| Parámetros | ~3 mil millones (3B) de parámetros (decodificador MoE DeepSeek 3B + compresor). |
| Arquitectura | Codificador de visión (DeepEncoder V2 / compresión óptica) → decodificador visión‑lenguaje de 3B (variantes MoE referenciadas en los materiales de DeepSeek). |
| Entrada | Imágenes de alta resolución / páginas escaneadas / PDF (formatos de imagen: PNG, JPEG, PDF multipágina mediante pipelines de conversión). |
| Salida | Texto plano (UTF-8), metadatos de maquetación estructurada (delimitación/flujo), JSON K‑V opcional para el análisis posterior. |
| Longitud de contexto (efectiva) | Usa secuencias comprimidas de tokens visuales — objetivo de diseño: contextos largos a escala de documento (los límites prácticos dependen de la relación de compresión; el pipeline típico ofrece una reducción de tokens de 10× frente a una tokenización ingenua). |
| Idiomas | Más de 100 idiomas / escrituras (cobertura multilingüe declarada en las notas del producto). |
Qué es DeepSeek-OCR-2
DeepSeek-OCR-2 es el segundo gran modelo de OCR/comprensión de documentos de DeepSeek AI. En lugar de tratar el OCR como simple extracción de caracteres, el modelo comprime la información visual del documento en tokens visuales compactos (un proceso que DeepSeek denomina compresión visión‑texto o su familia DeepEncoder), y luego decodifica esos tokens con un decodificador VLM de estilo mixture‑of‑experts (MoE) de 3B parámetros que modela conjuntamente la generación de texto y el razonamiento sobre la maquetación. El enfoque apunta a documentos de contexto largo (tablas, maquetaciones multicolumna, diagramas, escrituras multilingües) a la vez que reduce la longitud de la secuencia y el coste global de ejecución en comparación con tokenizar cada píxel/parche.
Características principales de DeepSeek-OCR-2
- Orden de lectura similar al humano y conciencia de la maquetación — aprende el orden lógico del texto (encabezados→párrafos→tablas) en lugar de escanear rejillas fijas.
- Compresión visión‑texto — comprime la entrada visual a secuencias de tokens mucho más cortas (objetivo típico de compresión 10×), habilitando contextos de documentos largos para el decodificador.
- Multilingüe y multi‑escritura — afirma compatibilidad con más de 100 idiomas y escrituras diversas.
- Alto rendimiento / autoalojable — diseñado para inferencia on‑prem (ejemplos con A100) y se reportan compilaciones GGUF/local por la comunidad.
- Ajustable mediante fine‑tuning — el repositorio y las guías incluyen instrucciones de fine‑tuning para adaptación de dominio (facturas, artículos científicos, formularios).
- Salida de maquetación + contenido — no solo texto plano: salidas estructuradas para facilitar pipelines posteriores de KIE/NER y RAG.
Rendimiento en benchmarks de DeepSeek-OCR-2
- Fox benchmark / métrica interna: ~97% de precisión de coincidencia exacta a 10× de compresión en su benchmark Fox (el benchmark de la empresa centrado en la fidelidad del documento bajo compresión). Esta es una de las afirmaciones destacadas en los materiales de marketing de DeepSeek.
- Compromisos de compresión: aunque la precisión se mantiene alta con compresión moderada (≈10×), se degrada con compresión más agresiva (Tom’s Hardware resumió pruebas que muestran que la precisión cae a ~60% a 20× en algunos escenarios). Esto resalta los compromisos prácticos entre rendimiento y fidelidad.
- Rendimiento: ~200k páginas/día en una NVIDIA A100 para cargas típicas — útil al evaluar coste/escala frente a APIs OCR en la nube.
Casos de uso y despliegues recomendados
- Ingesta e indexación de documentos empresariales: convertir grandes corpus de informes anuales, PDF y documentos escaneados en texto buscable + metadatos de maquetación para pipelines de RAG/LLM. (La afirmación de rendimiento de DeepSeek es atractiva para escalar).
- Extracción estructurada de tablas / informes financieros: el codificador con sensibilidad a la maquetación ayuda a preservar las relaciones entre celdas de tablas para la extracción KIE posterior y la conciliación. Validar el nivel de compresión frente a las necesidades de precisión numérica.
- Digitalización de archivos multilingües: la compatibilidad con más de 100 idiomas lo hace adecuado para bibliotecas, archivos gubernamentales o procesamiento de documentos multinacionales.
- Despliegues on‑prem sensibles a la privacidad: las variantes autoalojables HF/GGUF permiten mantener los datos internamente frente a proveedores en la nube.
- Preprocesamiento para RAG con LLM: compresión y extracción fiel de texto + maquetación para la ingestión de RAG donde la longitud de contexto es un cuello de botella.
Cómo acceder a DeepSeek-OCR-2 a través de CometAPI
Paso 1: Regístrate para obtener una clave de API
Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero. Inicia sesión en tu CometAPI console. Obtén la credencial de acceso (API key) de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave del token: sk-xxxxx y envíala.

Paso 2: Envía solicitudes a la API de DeepSeek-OCR-2
Selecciona el endpoint “deepseek-ocr-2” para enviar la solicitud de API y configura el cuerpo de la petición. El método de solicitud y el cuerpo de la petición se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio también proporciona pruebas en Apifox para tu comodidad. Sustituye por tu clave real de CometAPI desde tu cuenta. La URL base es Chat Completions.
Inserta tu pregunta o solicitud en el campo content—esto es a lo que el modelo responderá. Procesa la respuesta de la API para obtener la respuesta generada.
Paso 3: Recupera y verifica los resultados
Procesa la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.