Technische specificaties van DeepSeek-OCR-2
| Veld | DeepSeek-OCR-2 (gepubliceerd) |
|---|---|
| Releasedatum / Versie | Jan 27, 2026 — DeepSeek-OCR-2 (public repo / HF card). |
| Parameters | ~3 miljard (3B) model (DeepSeek 3B MoE-decoder + compressor). |
| Architectuur | Visie-encoder (DeepEncoder V2 / optische compressie) → 3B visueel-taal-decoder (MoE-varianten zoals vermeld in DeepSeek-materiaal). |
| Invoer | Afbeeldingen met hoge resolutie / gescande pagina's / PDF's (afbeeldingsformaten: PNG, JPEG, multi-page PDF's via conversiepijplijnen). |
| Uitvoer | Platte tekst (UTF-8), gestructureerde lay-outmetadata (bounding/flow), optionele JSON K-V voor downstream-parsing. |
| Contextlengte (effectief) | Gebruikt gecomprimeerde visuele tokensequenties — ontwerpdoel: contexten op documentschaal (praktische limieten hangen af van de compressieverhouding; de typische pijplijn levert 10× tokenreductie t.o.v. naïeve tokenisatie). |
| Talen | 100+ talen/schriften (geclaimde meertalige dekking in productnotities). |
Wat is DeepSeek-OCR-2
DeepSeek-OCR-2 is het tweede grote OCR-/documentbegripsmodel van DeepSeek AI. In plaats van OCR te benaderen als louter tekenextractie, comprimeert het model visuele documentinformatie tot compacte visuele tokens (een proces dat DeepSeek “beeld-tekstcompressie” noemt, of de DeepEncoder-familie), waarna die tokens worden gedecodeerd met een VLM-decoder in Mixture-of-Experts (MoE)-stijl met 3B parameters, die tekstgeneratie en lay-outredenering samen modelleert. De aanpak richt zich op documenten met lange context (tabellen, lay-outs met meerdere kolommen, diagrammen, meertalige schriften) terwijl de sequentielengte en de totale runtime-kosten worden verminderd vergeleken met het tokeniseren van elke pixel/patch.
Belangrijkste functies van DeepSeek-OCR-2
- Menselijke leesvolgorde en lay-outbewustzijn — leert de logische ordening van tekst (koppen→paragrafen→tabellen) in plaats van vaste rasters af te scannen.
- Beeld-tekstcompressie — comprimeert visuele invoer tot veel kortere tokensequenties (typisch doel: 10× compressie), waardoor lange-documentcontexten voor de decoder mogelijk worden.
- Meertalig en multi-script — claimt ondersteuning voor 100+ talen en diverse schriften.
- Hoge doorvoer / zelf-hostbaar — ontworpen voor on-prem inference (A100-voorbeelden), en community GGUF/lokale builds zijn gemeld.
- Te fine-tunen — repo en gidsen bevatten instructies voor domeinaanpassing (facturen, wetenschappelijke artikelen, formulieren).
- Lay-out + inhoudsoutput — niet alleen platte tekst: gestructureerde outputs ter ondersteuning van downstream KIE/NER- en RAG-pipelines.
Benchmarkprestaties van DeepSeek-OCR-2
- Fox benchmark / interne metriek: ~97% nauwkeurigheid met exacte overeenkomst bij 10× compressie op zijn Fox benchmark (de benchmark van het bedrijf gericht op documentfideliteit onder compressie). Dit is een van de kopclaims in de marketingmaterialen van DeepSeek.
- Afwegingen bij compressie: Hoewel de nauwkeurigheid hoog blijft bij gematigde compressie (≈10×), verslechtert deze bij agressievere compressie (Tom’s Hardware vatte tests samen waarin de nauwkeurigheid in sommige scenario's daalde tot ~60% bij 20×). Dit benadrukt de praktische afwegingen tussen doorvoer en getrouwheid.
- Doorvoer: ~200k pagina's/dag op een enkele NVIDIA A100 voor typische werklasten — nuttig bij het evalueren van kosten/schaal versus cloud-OCR-API's.
Gebruikstoepassingen en aanbevolen implementaties
- Inname en indexering van bedrijfsdocumenten: grote corpora jaarverslagen, PDF's en gescande documenten omzetten in doorzoekbare tekst + lay-outmetadata voor RAG/LLM-pipelines. (De doorvoerclaim van DeepSeek is aantrekkelijk voor schaal.)
- Gestructureerde tabel-extractie / financiële rapportage: de lay-outbewuste encoder helpt de relaties tussen tabelcellen te behouden voor downstream KIE-extractie en reconciliatie. Valideer het compressieniveau ten opzichte van de vereisten voor numerieke precisie.
- Meertalige archiefdigitalisering: ondersteuning voor 100+ talen maakt het geschikt voor bibliotheken, overheidsarchieven of multinationale documentverwerking.
- On-prem, privacygevoelige implementaties: zelf-hostbare HF/GGUF-varianten maken het mogelijk om gegevens in-house te houden in plaats van bij cloudproviders.
- Voorbewerking voor LLM-RAG: het comprimeren en extraheren van getrouwe tekst + lay-out voor RAG-inname waar contextlengte een bottleneck is.
Toegang tot DeepSeek-OCR-2 via CometAPI
Stap 1: Meld u aan voor een API-sleutel
Log in op cometapi.com. Als u nog geen gebruiker bent, registreer u dan eerst. Log in op uw CometAPI-console. Haal de API-sleutel voor toegang tot de interface op. Klik bij “Add Token” bij de API-token in het persoonlijk centrum, verkrijg de tokensleutel: sk-xxxxx en dien deze in.

Stap 2: Verzend verzoeken naar de DeepSeek-OCR-2-API
Selecteer het “deepseek-ocr-2”-endpoint om het API-verzoek te verzenden en stel de request body in. De verzoekmethode en request body zijn te vinden in de API-documentatie op onze website. Onze website biedt ook een Apifox-test voor uw gemak. Vervang door uw eigen CometAPI-sleutel uit uw account. Basis-URL is Chat Completions.
Voer uw vraag of verzoek in het content-veld in—dit is waarop het model zal reageren. Verwerk de API-respons om het gegenereerde antwoord te verkrijgen.
Stap 3: Resultaten ophalen en verifiëren
Verwerk de API-respons om het gegenereerde antwoord te verkrijgen. Na verwerking antwoordt de API met de taakstatus en uitvoergegevens.