Specifiche tecniche di DeepSeek-OCR-2
| Field | DeepSeek-OCR-2 (published) |
|---|---|
| Data di rilascio / Versione | 27 gen 2026 — DeepSeek-OCR-2 (repo pubblico / scheda HF). |
| Parametri | Modello da ~3 miliardi (3B) di parametri (decoder MoE DeepSeek 3B + compressore). |
| Architettura | Encoder visivo (DeepEncoder V2 / compressione ottica) → decoder vision-language da 3B (nelle varianti MoE citate nei materiali DeepSeek). |
| Input | Immagini ad alta risoluzione / pagine scansionate / PDF (formati immagine: PNG, JPEG, PDF multipagina tramite pipeline di conversione). |
| Output | Testo semplice (UTF-8), metadati di layout strutturati (bounding/flow), JSON K-V opzionale per il parsing downstream. |
| Lunghezza del contesto (effettiva) | Usa sequenze di token visivi compressi — obiettivo di progettazione: contesti lunghi su scala documento (i limiti pratici dipendono dal rapporto di compressione; la pipeline tipica produce una riduzione di token di 10× rispetto alla tokenizzazione naïve). |
| Lingue | Oltre 100 lingue / scritture (copertura multilingue dichiarata nelle note di prodotto). |
Che cos'è DeepSeek-OCR-2
DeepSeek-OCR-2 è il secondo importante modello OCR/comprensione documentale di DeepSeek AI. Invece di trattare l'OCR come una semplice estrazione di caratteri, il modello comprime le informazioni visive del documento in token visivi compatti (un processo che DeepSeek chiama vision-text compression o attribuisce alla sua famiglia DeepEncoder), quindi decodifica questi token con un decoder VLM in stile mixture-of-experts (MoE) da 3B di parametri, che modella insieme la generazione del testo e il ragionamento sul layout. L'approccio è pensato per documenti a lungo contesto (tabelle, layout multicolonna, diagrammi, scritture multilingue) riducendo al contempo la lunghezza della sequenza e il costo complessivo di esecuzione rispetto alla tokenizzazione di ogni pixel/patch.
Caratteristiche principali di DeepSeek-OCR-2
- Ordine di lettura simile a quello umano e consapevolezza del layout — apprende l'ordinamento logico del testo (titoli→paragrafi→tabelle) invece di scansionare griglie fisse.
- Vision-text compression — comprime l'input visivo in sequenze di token molto più brevi (obiettivo tipico di compressione 10×), abilitando contesti documentali lunghi per il decoder.
- Multilingue e multi-script — dichiara il supporto per oltre 100 lingue e diversi sistemi di scrittura.
- Elevata throughput / self-hostable — progettato per inferenza on-prem (con esempi su A100), con build locali/community GGUF riportate.
- Fine-tunable — il repo e le guide includono istruzioni per il fine-tuning e l'adattamento a domini specifici (fatture, articoli scientifici, moduli).
- Output di layout + contenuto — non solo testo semplice: output strutturati per facilitare pipeline downstream di KIE/NER e RAG.
Prestazioni benchmark di DeepSeek-OCR-2
- Benchmark Fox / metrica interna: accuratezza exact-match di ~97% con compressione 10× sul benchmark Fox (il benchmark dell'azienda focalizzato sulla fedeltà documentale sotto compressione). Questa è una delle principali affermazioni nei materiali marketing di DeepSeek.
- Compromessi della compressione: Sebbene l'accuratezza rimanga elevata con una compressione moderata (≈10×), peggiora con una compressione più aggressiva (Tom’s Hardware ha riassunto test che mostrano un calo dell'accuratezza fino a ~60% a 20× in alcuni scenari). Questo evidenzia i compromessi pratici tra throughput e fedeltà.
- Throughput: ~200k pagine/giorno su una singola NVIDIA A100 per carichi di lavoro tipici — utile quando si valutano costo/scalabilità rispetto alle API OCR cloud.
Casi d'uso e deployment consigliati
- Ingestione e indicizzazione di documenti enterprise: convertire grandi corpus di relazioni annuali, PDF e documenti scansionati in testo ricercabile + metadati di layout per pipeline RAG/LLM. (L'affermazione di throughput di DeepSeek è interessante per la scalabilità.)
- Estrazione strutturata di tabelle / reporting finanziario: l'encoder consapevole del layout aiuta a preservare le relazioni tra celle della tabella per l'estrazione KIE downstream e la riconciliazione. Convalidare il livello di compressione rispetto alle esigenze di precisione numerica.
- Digitalizzazione di archivi multilingue: il supporto a oltre 100 lingue lo rende adatto a biblioteche, archivi governativi o elaborazione documentale multinazionale.
- Deployment on-prem sensibili alla privacy: le varianti self-hostable HF/GGUF consentono di mantenere i dati internamente invece di affidarli a provider cloud.
- Preprocessing per LLM RAG: compressione ed estrazione di testo + layout fedeli per l'ingestione RAG, dove la lunghezza del contesto rappresenta un collo di bottiglia.
Come accedere a DeepSeek-OCR-2 tramite CometAPI
Passaggio 1: Registrarsi per ottenere una chiave API
Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Accedi alla tua console CometAPI. Ottieni la credenziale di accesso, ossia la chiave API dell'interfaccia. Fai clic su “Add Token” nella sezione API token del centro personale, ottieni la chiave token: sk-xxxxx e inviala.

Passaggio 2: Inviare richieste all'API DeepSeek-OCR-2
Seleziona l'endpoint “deepseek-ocr-2” per inviare la richiesta API e imposta il corpo della richiesta. Il metodo della richiesta e il corpo della richiesta si ottengono dalla documentazione API sul nostro sito web. Il nostro sito web fornisce anche test Apifox per tua comodità. Sostituisci con la tua effettiva chiave CometAPI del tuo account. Il base url è Chat Completions.
Inserisci la tua domanda o richiesta nel campo content: è a questo che il modello risponderà. Elabora la risposta API per ottenere la risposta generata.
Passaggio 3: Recuperare e verificare i risultati
Elabora la risposta API per ottenere la risposta generata. Dopo l'elaborazione, l'API risponde con lo stato dell'attività e i dati di output.