Tekniske specifikationer for DeepSeek-OCR-2
| Felt | DeepSeek-OCR-2 (publiceret) |
|---|---|
| Udgivelsesdato / Version | 27. januar 2026 — DeepSeek-OCR-2 (offentligt repo / HF card). |
| Parametre | ~3 milliarder (3B) model (DeepSeek 3B MoE-dekoder + kompressor). |
| Arkitektur | Vision-enkoder (DeepEncoder V2 / optisk kompression) → 3B vision-sprog-dekoder (MoE-varianter refereret i DeepSeek-materialer). |
| Input | Billeder i høj opløsning / scannede sider / PDF'er (billedformater: PNG, JPEG, flersidede PDF'er via konverteringspipelines). |
| Output | Ren tekst (UTF-8), strukturerede layoutmetadata (bounding/flow), valgfri JSON K-V til efterfølgende parsing. |
| Kontekstlængde (effektiv) | Bruger komprimerede visuelle tokensekvenser — designmål: lange, dokumentskala-kontekster (praktiske grænser afhænger af kompressionsforholdet; en typisk pipeline giver 10× reduktion i tokens vs. naiv tokenisering). |
| Sprog | 100+ sprog / skriftsystemer (påstået flersproget dækning i produktnoter). |
Hvad er DeepSeek-OCR-2
DeepSeek-OCR-2 er den anden større OCR-/dokumentforståelsesmodel fra DeepSeek AI. I stedet for at behandle OCR som ren tegnekstraktion komprimerer modellen visuel dokumentinformation til kompakte visuelle tokens (en proces, som DeepSeek kalder vision-text compression eller DeepEncoder-familien), og dekoder derefter disse tokens med en VLM-dekoder i Mixture-of-Experts (MoE)-stil med 3B parametre, der modellerer tekstgenerering og layoutforståelse samlet. Tilgangen retter sig mod dokumenter med lang kontekst (tabeller, flerkolonners layouts, diagrammer, flersprogede skriftsystemer), samtidig med at sekvenslængden og den samlede kørselstid reduceres sammenlignet med at tokenisere hver pixel/patch.
Hovedfunktioner i DeepSeek-OCR-2
- Menneskelignende læserækkefølge & layoutbevidsthed — lærer den logiske rækkefølge af tekst (overskrifter→afsnit→tabeller) i stedet for at scanne faste gittere.
- Vision-text-kompression — komprimerer visuel input til meget kortere tokensekvenser (10× typisk kompressionsmål), hvilket muliggør langdokument-kontekster for dekoderen.
- Flersproget & multi-script — hævder understøttelse af 100+ sprog og diverse skriftsystemer.
- Høj gennemstrømning / selvhostbar — designet til on-prem-inferens (A100-eksempler), og fællesskabet har rapporteret GGUF-/lokale builds.
- Finjusterbar — repo og guider inkluderer finjusteringsinstruktioner til domæneadaptation (fakturaer, videnskabelige artikler, formularer).
- Layout + indholdsoutput — ikke kun ren tekst: strukturerede outputs for at lette downstream KIE/NER og RAG-pipelines.
Benchmark-ydelse for DeepSeek-OCR-2
- Fox-benchmark / intern metrisk: ~97% exact-match-nøjagtighed ved 10× kompression på deres Fox-benchmark (virksomhedens benchmark fokuseret på dokumentfidelitet under kompression). Dette er et af hovedbudskaberne i DeepSeeks markedsføringsmateriale.
- Kompressions-kompromiser: Mens nøjagtigheden forbliver høj ved moderat kompression (≈10×), forringes den ved mere aggressiv kompression (Tom’s Hardware opsummerede tests, der viser, at nøjagtigheden falder til ~60% ved 20× i nogle scenarier). Dette fremhæver de praktiske afvejninger mellem throughput og troskab.
- Gennemstrømning: ~200k sider/dag på en enkelt NVIDIA A100 for typiske arbejdsbelastninger — nyttigt ved vurdering af pris/skala vs. cloud-OCR-API'er.
Anvendelsesområder og anbefalede implementeringer
- Indlæsning og indeksering af virksomhedsdokumenter: konverter store korpora af årsrapporter, PDF'er og scannede dokumenter til søgbar tekst + layoutmetadata til RAG/LLM-pipelines. (DeepSeeks gennemstrømningspåstand er attraktiv i stor skala.)
- Struktureret tabeludtræk / finansiel rapportering: den layout-bevidste enkoder hjælper med at bevare tabelcellers relationer til downstream KIE-udtræk og afstemning. Valider kompressionsniveau mod behov for numerisk præcision.
- Flersproget arkivdigitalisering: understøttelse af 100+ sprog gør den egnet til biblioteker, offentlige arkiver eller multinationale dokumentprocesser.
- On-prem, privatlivsfølsomme implementeringer: selvhostbare HF/GGUF-varianter muliggør at holde data in-house frem for hos cloududbydere.
- Forbehandling til LLM RAG: komprimere og udtrække troværdig tekst + layout til RAG-indtag, hvor kontekstlængde er en flaskehals.
Sådan får du adgang til DeepSeek-OCR-2 via CometAPI
Trin 1: Tilmeld dig for at få en API-nøgle
Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, skal du registrere dig først. Log ind på din CometAPI-konsol. Hent adgangslegitimationen API-nøglen til grænsefladen. Klik på “Add Token” ved API-tokenet i det personlige center, få tokennøglen: sk-xxxxx og indsend.

Trin 2: Send forespørgsler til DeepSeek-OCR-2 API'et
Vælg “deepseek-ocr-2”-endpointet for at sende API-forespørgslen og angiv request body. Anmodningsmetode og request body fås fra API-dokumentationen på vores website. Vores website tilbyder også Apifox-test for nemheds skyld. Erstat med din faktiske CometAPI-nøgle fra din konto. Basis-URL er Chat Completions.
Indsæt dit spørgsmål eller din anmodning i content-feltet—det er det, modellen vil svare på. Behandl API-svaret for at få det genererede svar.
Trin 3: Hent og verificér resultater
Behandl API-svaret for at få det genererede svar. Efter behandlingen returnerer API'et opgavens status og outputdata.