Tekniske spesifikasjoner for DeepSeek-OCR-2
| Felt | DeepSeek-OCR-2 (publisert) |
|---|---|
| Utgivelsesdato / versjon | 27. jan. 2026 — DeepSeek-OCR-2 (offentlig repo / HF-kort). |
| Parametere | ~3 milliarder (3B) modell (DeepSeek 3B MoE-dekoder + kompressor). |
| Arkitektur | Visuell enkoder (DeepEncoder V2 / optisk komprimering) → 3B visjon-språk-dekoder (MoE-varianter referert i DeepSeeks materiell). |
| Inndata | Høyoppløselige bilder / skannede sider / PDF-er (bildeformater: PNG, JPEG, PDF med flere sider via konverteringspipeliner). |
| Utdata | Ren tekst (UTF-8), strukturert layout-metadata (rammer/flyt), valgfri JSON nøkkel-verdi for nedstrøms parsing. |
| Kontekstlengde (effektiv) | Bruker komprimerte visuelle token-sekvenser — designmål: lange kontekster på dokumentskala (praktiske grenser avhenger av kompresjonsgrad; typisk pipeline gir 10× reduksjon i antall token kontra naiv tokenisering). |
| Språk | 100+ språk / skriftsystemer (påstått flerspråklig dekning i produktnotater). |
Hva er DeepSeek-OCR-2
DeepSeek-OCR-2 er den andre store OCR-/dokumentforståelsesmodellen fra DeepSeek AI. I stedet for å behandle OCR som ren tegnuttrekking, komprimerer modellen visuell dokumentinformasjon til kompakte visuelle token (en prosess DeepSeek kaller vision-text compression eller DeepEncoder-familien), og dekoder deretter disse tokenene med en VLM-dekoder i mixture-of-experts (MoE)-stil med 3B parametere som modellerer tekstgenerering og layoutresonnement sammen. Tilnærmingen retter seg mot dokumenter med lang kontekst (tabeller, flerspalteoppsett, diagrammer, flerspråklige skriftsystemer) samtidig som den reduserer sekvenslengden og den totale kjøretidskostnaden sammenlignet med å tokenisere hver piksel/patch.
Hovedfunksjoner i DeepSeek-OCR-2
- Menneskelignende leserekkefølge og layoutbevissthet — lærer logisk rekkefølge på tekst (overskrifter→avsnitt→tabeller) i stedet for å skanne faste rutenett.
- Vision-text compression — komprimerer visuell input til mye kortere token-sekvenser (10× typisk kompresjonsmål), som muliggjør lange dokumentkontekster for dekoderen.
- Flerspråklig og støtte for flere skriftsystemer — hevder støtte for 100+ språk og ulike skriftsystemer.
- Høy gjennomstrømning / selvhostbar — designet for lokal inferens (A100-eksempler), og det er rapportert om fellesskapsbygde GGUF/lokale bygg.
- Finjusterbar — repo og veiledninger inkluderer instruksjoner for finjustering for domenetilpasning (fakturaer, vitenskapelige artikler, skjemaer).
- Layout + innholdsutdata — ikke bare ren tekst: strukturerte utdata for å legge til rette for nedstrøms KIE/NER- og RAG-pipelines.
Benchmark-ytelse for DeepSeek-OCR-2
- Fox-benchmark / intern metrikk: ~97 % eksakt-samsvar-nøyaktighet ved 10× kompresjon på deres Fox-benchmark (selskapets benchmark med fokus på dokumenttrofasthet under komprimering). Dette er en av hovedpåstandene i DeepSeeks markedsføringsmateriale.
- Kompresjonsavveininger: Selv om nøyaktigheten forblir høy ved moderat kompresjon (≈10×), forringes den med mer aggressiv kompresjon (Tom’s Hardware oppsummerte tester som viser at nøyaktigheten faller til ~60 % ved 20× i noen scenarier). Dette fremhever de praktiske avveiningene mellom gjennomstrømning og trofasthet.
- Gjennomstrømning: ~200 000 sider/dag på én NVIDIA A100 for typiske arbeidslaster — nyttig når man vurderer kostnad/skala mot skyleverte OCR-API-er.
Bruksområder og anbefalte utrullinger
- Inntak og indeksering av bedriftsdokumenter: konverter store korpus av årsrapporter, PDF-er og skannede dokumenter til søkbar tekst + layoutmetadata for RAG/LLM-pipelines. (DeepSeeks gjennomstrømningspåstand er attraktiv for skala.)
- Strukturert tabelluttrekk / finansiell rapportering: den layoutbevisste enkoderen bidrar til å bevare relasjonene mellom tabellceller for nedstrøms KIE-uttrekk og avstemming. Valider kompresjonsnivå mot behov for numerisk presisjon.
- Flerspråklig arkivdigitalisering: støtte for 100+ språk gjør den egnet for biblioteker, offentlige arkiver eller multinasjonal dokumentbehandling.
- Lokal, personvernfølsom utrulling: selvhostbare HF/GGUF-varianter gjør det mulig å holde data internt fremfor hos skyleverandører.
- Forbehandling for LLM RAG: komprimering og uttrekk av trofast tekst + layout for RAG-inntak der kontekstlengde er en flaskehals.
Slik får du tilgang til DeepSeek-OCR-2 via CometAPI
Trinn 1: Registrer deg for API-nøkkel
Logg inn på cometapi.com. Hvis du ikke er bruker ennå, registrer deg først. Logg inn i din CometAPI-konsoll. Hent tilgangslegitimasjonen API-nøkkel for grensesnittet. Klikk “Add Token” ved API-token i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.

Trinn 2: Send forespørsler til DeepSeek-OCR-2-API-et
Velg endepunktet “deepseek-ocr-2” for å sende API-forespørselen og angi forespørselens body. Forespørselsmetode og body hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for din bekvemmelighet. Erstatt med din faktiske CometAPI-nøkkel fra kontoen din. Base-URL-en er Chat Completions.
Sett inn spørsmålet eller forespørselen din i content-feltet—dette er det modellen vil svare på . Behandle API-responsen for å få det genererte svaret.
Trinn 3: Hent og verifiser resultater
Behandle API-responsen for å få det genererte svaret. Etter behandling svarer API-et med oppgavestatus og utdata.