ModelosSoporteEmpresaBlog
500+ API de Modelos de IA, Todo en Una API. Solo en CometAPI
API de Modelos
Desarrollador
Inicio RápidoDocumentaciónPanel de API
Recursos
Modelos de IABlogEmpresaRegistro de cambiosAcerca de
2025 CometAPI. Todos los derechos reservados.Política de PrivacidadTérminos de Servicio
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Por Solicitud:$0.04
DeepSeek-OCR 2 es un modelo lanzado por DeepSeek el 27 de enero de 2026, que utiliza el innovador método DeepEncoder V2, el cual permite que la IA reordene dinámicamente partes de una imagen según su significado, en lugar de limitarse a escanear mecánicamente de izquierda a derecha. Manteniendo una alta eficiencia de compresión de datos, el modelo ha logrado avances significativos en múltiples pruebas comparativas y métricas de producción. El modelo puede cubrir páginas de documentos complejos con solo 256 a 1120 tokens de visión, alcanzando una puntuación general del 91,09% en la evaluación OmniDocBench v1.5
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API

Especificaciones técnicas de DeepSeek-OCR-2

CampoDeepSeek-OCR-2 (publicado)
Fecha de lanzamiento / Versión27 de enero de 2026 — DeepSeek-OCR-2 (repositorio público / tarjeta de HF).
Parámetros~3 mil millones (3B) de parámetros (decodificador MoE DeepSeek 3B + compresor).
ArquitecturaCodificador de visión (DeepEncoder V2 / compresión óptica) → decodificador visión‑lenguaje de 3B (variantes MoE referenciadas en los materiales de DeepSeek).
EntradaImágenes de alta resolución / páginas escaneadas / PDF (formatos de imagen: PNG, JPEG, PDF multipágina mediante pipelines de conversión).
SalidaTexto plano (UTF-8), metadatos de maquetación estructurada (delimitación/flujo), JSON K‑V opcional para el análisis posterior.
Longitud de contexto (efectiva)Usa secuencias comprimidas de tokens visuales — objetivo de diseño: contextos largos a escala de documento (los límites prácticos dependen de la relación de compresión; el pipeline típico ofrece una reducción de tokens de 10× frente a una tokenización ingenua).
IdiomasMás de 100 idiomas / escrituras (cobertura multilingüe declarada en las notas del producto).

Qué es DeepSeek-OCR-2

DeepSeek-OCR-2 es el segundo gran modelo de OCR/comprensión de documentos de DeepSeek AI. En lugar de tratar el OCR como simple extracción de caracteres, el modelo comprime la información visual del documento en tokens visuales compactos (un proceso que DeepSeek denomina compresión visión‑texto o su familia DeepEncoder), y luego decodifica esos tokens con un decodificador VLM de estilo mixture‑of‑experts (MoE) de 3B parámetros que modela conjuntamente la generación de texto y el razonamiento sobre la maquetación. El enfoque apunta a documentos de contexto largo (tablas, maquetaciones multicolumna, diagramas, escrituras multilingües) a la vez que reduce la longitud de la secuencia y el coste global de ejecución en comparación con tokenizar cada píxel/parche.

Características principales de DeepSeek-OCR-2

  • Orden de lectura similar al humano y conciencia de la maquetación — aprende el orden lógico del texto (encabezados→párrafos→tablas) en lugar de escanear rejillas fijas.
  • Compresión visión‑texto — comprime la entrada visual a secuencias de tokens mucho más cortas (objetivo típico de compresión 10×), habilitando contextos de documentos largos para el decodificador.
  • Multilingüe y multi‑escritura — afirma compatibilidad con más de 100 idiomas y escrituras diversas.
  • Alto rendimiento / autoalojable — diseñado para inferencia on‑prem (ejemplos con A100) y se reportan compilaciones GGUF/local por la comunidad.
  • Ajustable mediante fine‑tuning — el repositorio y las guías incluyen instrucciones de fine‑tuning para adaptación de dominio (facturas, artículos científicos, formularios).
  • Salida de maquetación + contenido — no solo texto plano: salidas estructuradas para facilitar pipelines posteriores de KIE/NER y RAG.

Rendimiento en benchmarks de DeepSeek-OCR-2

  • Fox benchmark / métrica interna: ~97% de precisión de coincidencia exacta a 10× de compresión en su benchmark Fox (el benchmark de la empresa centrado en la fidelidad del documento bajo compresión). Esta es una de las afirmaciones destacadas en los materiales de marketing de DeepSeek.
  • Compromisos de compresión: aunque la precisión se mantiene alta con compresión moderada (≈10×), se degrada con compresión más agresiva (Tom’s Hardware resumió pruebas que muestran que la precisión cae a ~60% a 20× en algunos escenarios). Esto resalta los compromisos prácticos entre rendimiento y fidelidad.
  • Rendimiento: ~200k páginas/día en una NVIDIA A100 para cargas típicas — útil al evaluar coste/escala frente a APIs OCR en la nube.

Casos de uso y despliegues recomendados

  • Ingesta e indexación de documentos empresariales: convertir grandes corpus de informes anuales, PDF y documentos escaneados en texto buscable + metadatos de maquetación para pipelines de RAG/LLM. (La afirmación de rendimiento de DeepSeek es atractiva para escalar).
  • Extracción estructurada de tablas / informes financieros: el codificador con sensibilidad a la maquetación ayuda a preservar las relaciones entre celdas de tablas para la extracción KIE posterior y la conciliación. Validar el nivel de compresión frente a las necesidades de precisión numérica.
  • Digitalización de archivos multilingües: la compatibilidad con más de 100 idiomas lo hace adecuado para bibliotecas, archivos gubernamentales o procesamiento de documentos multinacionales.
  • Despliegues on‑prem sensibles a la privacidad: las variantes autoalojables HF/GGUF permiten mantener los datos internamente frente a proveedores en la nube.
  • Preprocesamiento para RAG con LLM: compresión y extracción fiel de texto + maquetación para la ingestión de RAG donde la longitud de contexto es un cuello de botella.

Cómo acceder a DeepSeek-OCR-2 a través de CometAPI

Paso 1: Regístrate para obtener una clave de API

Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero. Inicia sesión en tu CometAPI console. Obtén la credencial de acceso (API key) de la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave del token: sk-xxxxx y envíala.

cometapi-key

Paso 2: Envía solicitudes a la API de DeepSeek-OCR-2

Selecciona el endpoint “deepseek-ocr-2” para enviar la solicitud de API y configura el cuerpo de la petición. El método de solicitud y el cuerpo de la petición se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio también proporciona pruebas en Apifox para tu comodidad. Sustituye por tu clave real de CometAPI desde tu cuenta. La URL base es Chat Completions.

Inserta tu pregunta o solicitud en el campo content—esto es a lo que el modelo responderá. Procesa la respuesta de la API para obtener la respuesta generada.

Paso 3: Recupera y verifica los resultados

Procesa la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida.

Preguntas Frecuentes

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 utiliza Visual Causal Flow para determinar el orden de lectura semántico, lo que le permite reconstruir tablas y diseños multicolumna con mayor precisión que los motores de OCR basados en cuadrícula.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Sí, está específicamente optimizado para preservar la estructura de las tablas y la notación matemática en salida estructurada de Markdown o JSON.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Sí, su salida estructurada lo hace muy adecuado para el preprocesamiento de documentos en flujos de trabajo de generación aumentada por recuperación.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 mejora la comprensión del diseño, reduce las tasas de error de caracteres y ofrece un mejor rendimiento en documentos complejos en comparación con OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Sí, admite más de 100 idiomas, incluidas escrituras no latinas y documentos de idiomas mixtos.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Las herramientas de la comunidad admiten el ajuste fino, con mejoras reportadas en la precisión del OCR específico de dominio, como en finanzas y documentos científicos.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Elija DeepSeek-OCR-2 cuando la fidelidad a la estructura del documento y la precisión del OCR importen más que el razonamiento multimodal general.

Características para DeepSeek-OCR2

Explora las características clave de DeepSeek-OCR2, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para DeepSeek-OCR2

Explora precios competitivos para DeepSeek-OCR2, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo DeepSeek-OCR2 puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Por Solicitud:$0.04
Por Solicitud:$0.05
-20%

Código de ejemplo y API para DeepSeek-OCR2

Accede a código de muestra completo y recursos de API para DeepSeek-OCR2 para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de DeepSeek-OCR2 en tus proyectos.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Más modelos