ModelliSupportoAziendaBlog
500+ API di Modelli AI, Tutto In Una Sola API. Solo In CometAPI
API dei Modelli
Sviluppatore
Avvio RapidoDocumentazioneDashboard API
Risorse
Modelli di Intelligenza ArtificialeBlogAziendaRegistro delle modificheChi siamo
2025 CometAPI. Tutti i diritti riservati.Informativa sulla PrivacyTermini di Servizio
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Per Richiesta:$0.04
DeepSeek-OCR 2 è un modello rilasciato da DeepSeek il 27 gennaio 2026, che utilizza il metodo innovativo DeepEncoder V2, il quale consente all'IA di riordinare dinamicamente parti di un'immagine in base al suo significato, invece di limitarsi a eseguire una scansione meccanica da sinistra a destra. Pur mantenendo un'elevata efficienza di compressione dei dati, il modello ha ottenuto risultati significativi in molteplici benchmark e metriche di produzione. Il modello può rappresentare pagine di documenti complesse impiegando soltanto da 256 a 1120 token visivi, raggiungendo un punteggio complessivo del 91.09% nella valutazione OmniDocBench v1.5.
Nuovo
Uso commerciale
Playground
Panoramica
Caratteristiche
Prezzi
API

Specifiche tecniche di DeepSeek-OCR-2

FieldDeepSeek-OCR-2 (published)
Data di rilascio / Versione27 gen 2026 — DeepSeek-OCR-2 (repo pubblico / scheda HF).
ParametriModello da ~3 miliardi (3B) di parametri (decoder MoE DeepSeek 3B + compressore).
ArchitetturaEncoder visivo (DeepEncoder V2 / compressione ottica) → decoder vision-language da 3B (nelle varianti MoE citate nei materiali DeepSeek).
InputImmagini ad alta risoluzione / pagine scansionate / PDF (formati immagine: PNG, JPEG, PDF multipagina tramite pipeline di conversione).
OutputTesto semplice (UTF-8), metadati di layout strutturati (bounding/flow), JSON K-V opzionale per il parsing downstream.
Lunghezza del contesto (effettiva)Usa sequenze di token visivi compressi — obiettivo di progettazione: contesti lunghi su scala documento (i limiti pratici dipendono dal rapporto di compressione; la pipeline tipica produce una riduzione di token di 10× rispetto alla tokenizzazione naïve).
LingueOltre 100 lingue / scritture (copertura multilingue dichiarata nelle note di prodotto).

Che cos'è DeepSeek-OCR-2

DeepSeek-OCR-2 è il secondo importante modello OCR/comprensione documentale di DeepSeek AI. Invece di trattare l'OCR come una semplice estrazione di caratteri, il modello comprime le informazioni visive del documento in token visivi compatti (un processo che DeepSeek chiama vision-text compression o attribuisce alla sua famiglia DeepEncoder), quindi decodifica questi token con un decoder VLM in stile mixture-of-experts (MoE) da 3B di parametri, che modella insieme la generazione del testo e il ragionamento sul layout. L'approccio è pensato per documenti a lungo contesto (tabelle, layout multicolonna, diagrammi, scritture multilingue) riducendo al contempo la lunghezza della sequenza e il costo complessivo di esecuzione rispetto alla tokenizzazione di ogni pixel/patch.

Caratteristiche principali di DeepSeek-OCR-2

  • Ordine di lettura simile a quello umano e consapevolezza del layout — apprende l'ordinamento logico del testo (titoli→paragrafi→tabelle) invece di scansionare griglie fisse.
  • Vision-text compression — comprime l'input visivo in sequenze di token molto più brevi (obiettivo tipico di compressione 10×), abilitando contesti documentali lunghi per il decoder.
  • Multilingue e multi-script — dichiara il supporto per oltre 100 lingue e diversi sistemi di scrittura.
  • Elevata throughput / self-hostable — progettato per inferenza on-prem (con esempi su A100), con build locali/community GGUF riportate.
  • Fine-tunable — il repo e le guide includono istruzioni per il fine-tuning e l'adattamento a domini specifici (fatture, articoli scientifici, moduli).
  • Output di layout + contenuto — non solo testo semplice: output strutturati per facilitare pipeline downstream di KIE/NER e RAG.

Prestazioni benchmark di DeepSeek-OCR-2

  • Benchmark Fox / metrica interna: accuratezza exact-match di ~97% con compressione 10× sul benchmark Fox (il benchmark dell'azienda focalizzato sulla fedeltà documentale sotto compressione). Questa è una delle principali affermazioni nei materiali marketing di DeepSeek.
  • Compromessi della compressione: Sebbene l'accuratezza rimanga elevata con una compressione moderata (≈10×), peggiora con una compressione più aggressiva (Tom’s Hardware ha riassunto test che mostrano un calo dell'accuratezza fino a ~60% a 20× in alcuni scenari). Questo evidenzia i compromessi pratici tra throughput e fedeltà.
  • Throughput: ~200k pagine/giorno su una singola NVIDIA A100 per carichi di lavoro tipici — utile quando si valutano costo/scalabilità rispetto alle API OCR cloud.

Casi d'uso e deployment consigliati

  • Ingestione e indicizzazione di documenti enterprise: convertire grandi corpus di relazioni annuali, PDF e documenti scansionati in testo ricercabile + metadati di layout per pipeline RAG/LLM. (L'affermazione di throughput di DeepSeek è interessante per la scalabilità.)
  • Estrazione strutturata di tabelle / reporting finanziario: l'encoder consapevole del layout aiuta a preservare le relazioni tra celle della tabella per l'estrazione KIE downstream e la riconciliazione. Convalidare il livello di compressione rispetto alle esigenze di precisione numerica.
  • Digitalizzazione di archivi multilingue: il supporto a oltre 100 lingue lo rende adatto a biblioteche, archivi governativi o elaborazione documentale multinazionale.
  • Deployment on-prem sensibili alla privacy: le varianti self-hostable HF/GGUF consentono di mantenere i dati internamente invece di affidarli a provider cloud.
  • Preprocessing per LLM RAG: compressione ed estrazione di testo + layout fedeli per l'ingestione RAG, dove la lunghezza del contesto rappresenta un collo di bottiglia.

Come accedere a DeepSeek-OCR-2 tramite CometAPI

Passaggio 1: Registrarsi per ottenere una chiave API

Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Accedi alla tua console CometAPI. Ottieni la credenziale di accesso, ossia la chiave API dell'interfaccia. Fai clic su “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e inviala.

cometapi-key

Passaggio 2: Inviare richieste all'API DeepSeek-OCR-2

Seleziona l'endpoint “deepseek-ocr-2” per inviare la richiesta API e imposta il corpo della richiesta. Il metodo della richiesta e il corpo della richiesta si ottengono dalla documentazione API sul nostro sito web. Il nostro sito web fornisce anche test Apifox per tua comodità. Sostituisci con la tua effettiva chiave CometAPI del tuo account. Il base url è Chat Completions.

Inserisci la tua domanda o richiesta nel campo content: è a questo che il modello risponderà. Elabora la risposta API per ottenere la risposta generata.

Passaggio 3: Recuperare e verificare i risultati

Elabora la risposta API per ottenere la risposta generata. Dopo l'elaborazione, l'API risponde con lo stato dell'attività e i dati di output.

FAQ

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 utilizza il Visual Causal Flow per determinare l'ordine di lettura semantico, consentendogli di ricostruire tabelle e layout a più colonne con maggiore accuratezza rispetto ai motori OCR basati su griglia.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Sì, è specificamente ottimizzato per preservare la struttura delle tabelle e la notazione matematica in output Markdown o JSON strutturati.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Sì, il suo output strutturato lo rende particolarmente adatto al pre-processing dei documenti nei flussi di lavoro di retrieval-augmented generation.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 migliora la comprensione del layout, riduce i tassi di errore dei caratteri e offre prestazioni migliori sui documenti complessi rispetto a OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Sì, supporta oltre 100 lingue, inclusi gli alfabeti non latini e i documenti in più lingue.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Gli strumenti della community supportano il fine-tuning, con miglioramenti riportati nell'accuratezza OCR in domini specifici come la finanza e i documenti scientifici.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Scegli DeepSeek-OCR-2 quando la fedeltà alla struttura del documento e l'accuratezza dell'OCR contano più del ragionamento multimodale generale.

Funzionalità per DeepSeek-OCR2

Esplora le caratteristiche principali di DeepSeek-OCR2, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per DeepSeek-OCR2

Esplora i prezzi competitivi per DeepSeek-OCR2, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come DeepSeek-OCR2 può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Per Richiesta:$0.04
Per Richiesta:$0.05
-20%

Codice di esempio e API per DeepSeek-OCR2

Accedi a codice di esempio completo e risorse API per DeepSeek-OCR2 per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di DeepSeek-OCR2 nei tuoi progetti.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Altri modelli