ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Per forespørsel:$0.04
DeepSeek-OCR 2 er en modell lansert av DeepSeek 27. januar 2026, som bruker den innovative DeepEncoder V2-metoden, som gjør det mulig for AI å dynamisk omorganisere deler av et bilde basert på betydningen, i stedet for bare å skanne mekanisk fra venstre mot høyre. Samtidig som den opprettholder høy effektivitet i datakomprimering, har modellen oppnådd betydelige gjennombrudd i flere referansemålinger og produksjonsmetrikker. Modellen kan dekke komplekse dokumentsider med kun 256 til 1120 vision tokens, og oppnår en samlet score på 91.09% i OmniDocBench v1.5-evalueringen.
Ny
Kommersiell bruk
Playground
Oversikt
Funksjoner
Priser
API

Tekniske spesifikasjoner for DeepSeek-OCR-2

FeltDeepSeek-OCR-2 (publisert)
Utgivelsesdato / versjon27. jan. 2026 — DeepSeek-OCR-2 (offentlig repo / HF-kort).
Parametere~3 milliarder (3B) modell (DeepSeek 3B MoE-dekoder + kompressor).
ArkitekturVisuell enkoder (DeepEncoder V2 / optisk komprimering) → 3B visjon-språk-dekoder (MoE-varianter referert i DeepSeeks materiell).
InndataHøyoppløselige bilder / skannede sider / PDF-er (bildeformater: PNG, JPEG, PDF med flere sider via konverteringspipeliner).
UtdataRen tekst (UTF-8), strukturert layout-metadata (rammer/flyt), valgfri JSON nøkkel-verdi for nedstrøms parsing.
Kontekstlengde (effektiv)Bruker komprimerte visuelle token-sekvenser — designmål: lange kontekster på dokumentskala (praktiske grenser avhenger av kompresjonsgrad; typisk pipeline gir 10× reduksjon i antall token kontra naiv tokenisering).
Språk100+ språk / skriftsystemer (påstått flerspråklig dekning i produktnotater).

Hva er DeepSeek-OCR-2

DeepSeek-OCR-2 er den andre store OCR-/dokumentforståelsesmodellen fra DeepSeek AI. I stedet for å behandle OCR som ren tegnuttrekking, komprimerer modellen visuell dokumentinformasjon til kompakte visuelle token (en prosess DeepSeek kaller vision-text compression eller DeepEncoder-familien), og dekoder deretter disse tokenene med en VLM-dekoder i mixture-of-experts (MoE)-stil med 3B parametere som modellerer tekstgenerering og layoutresonnement sammen. Tilnærmingen retter seg mot dokumenter med lang kontekst (tabeller, flerspalteoppsett, diagrammer, flerspråklige skriftsystemer) samtidig som den reduserer sekvenslengden og den totale kjøretidskostnaden sammenlignet med å tokenisere hver piksel/patch.

Hovedfunksjoner i DeepSeek-OCR-2

  • Menneskelignende leserekkefølge og layoutbevissthet — lærer logisk rekkefølge på tekst (overskrifter→avsnitt→tabeller) i stedet for å skanne faste rutenett.
  • Vision-text compression — komprimerer visuell input til mye kortere token-sekvenser (10× typisk kompresjonsmål), som muliggjør lange dokumentkontekster for dekoderen.
  • Flerspråklig og støtte for flere skriftsystemer — hevder støtte for 100+ språk og ulike skriftsystemer.
  • Høy gjennomstrømning / selvhostbar — designet for lokal inferens (A100-eksempler), og det er rapportert om fellesskapsbygde GGUF/lokale bygg.
  • Finjusterbar — repo og veiledninger inkluderer instruksjoner for finjustering for domenetilpasning (fakturaer, vitenskapelige artikler, skjemaer).
  • Layout + innholdsutdata — ikke bare ren tekst: strukturerte utdata for å legge til rette for nedstrøms KIE/NER- og RAG-pipelines.

Benchmark-ytelse for DeepSeek-OCR-2

  • Fox-benchmark / intern metrikk: ~97 % eksakt-samsvar-nøyaktighet ved 10× kompresjon på deres Fox-benchmark (selskapets benchmark med fokus på dokumenttrofasthet under komprimering). Dette er en av hovedpåstandene i DeepSeeks markedsføringsmateriale.
  • Kompresjonsavveininger: Selv om nøyaktigheten forblir høy ved moderat kompresjon (≈10×), forringes den med mer aggressiv kompresjon (Tom’s Hardware oppsummerte tester som viser at nøyaktigheten faller til ~60 % ved 20× i noen scenarier). Dette fremhever de praktiske avveiningene mellom gjennomstrømning og trofasthet.
  • Gjennomstrømning: ~200 000 sider/dag på én NVIDIA A100 for typiske arbeidslaster — nyttig når man vurderer kostnad/skala mot skyleverte OCR-API-er.

Bruksområder og anbefalte utrullinger

  • Inntak og indeksering av bedriftsdokumenter: konverter store korpus av årsrapporter, PDF-er og skannede dokumenter til søkbar tekst + layoutmetadata for RAG/LLM-pipelines. (DeepSeeks gjennomstrømningspåstand er attraktiv for skala.)
  • Strukturert tabelluttrekk / finansiell rapportering: den layoutbevisste enkoderen bidrar til å bevare relasjonene mellom tabellceller for nedstrøms KIE-uttrekk og avstemming. Valider kompresjonsnivå mot behov for numerisk presisjon.
  • Flerspråklig arkivdigitalisering: støtte for 100+ språk gjør den egnet for biblioteker, offentlige arkiver eller multinasjonal dokumentbehandling.
  • Lokal, personvernfølsom utrulling: selvhostbare HF/GGUF-varianter gjør det mulig å holde data internt fremfor hos skyleverandører.
  • Forbehandling for LLM RAG: komprimering og uttrekk av trofast tekst + layout for RAG-inntak der kontekstlengde er en flaskehals.

Slik får du tilgang til DeepSeek-OCR-2 via CometAPI

Trinn 1: Registrer deg for API-nøkkel

Logg inn på cometapi.com. Hvis du ikke er bruker ennå, registrer deg først. Logg inn i din CometAPI-konsoll. Hent tilgangslegitimasjonen API-nøkkel for grensesnittet. Klikk “Add Token” ved API-token i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.

CometAPI-nøkkel

Trinn 2: Send forespørsler til DeepSeek-OCR-2-API-et

Velg endepunktet “deepseek-ocr-2” for å sende API-forespørselen og angi forespørselens body. Forespørselsmetode og body hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for din bekvemmelighet. Erstatt med din faktiske CometAPI-nøkkel fra kontoen din. Base-URL-en er Chat Completions.

Sett inn spørsmålet eller forespørselen din i content-feltet—dette er det modellen vil svare på . Behandle API-responsen for å få det genererte svaret.

Trinn 3: Hent og verifiser resultater

Behandle API-responsen for å få det genererte svaret. Etter behandling svarer API-et med oppgavestatus og utdata.

FAQ

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 bruker Visual Causal Flow for å bestemme semantisk leserekkefølge, noe som gjør at den kan rekonstruere tabeller og flerspaltede oppsett mer nøyaktig enn rutenettbaserte OCR-motorer.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Ja, den er spesifikt optimalisert for å bevare tabellstruktur og matematisk notasjon i strukturert Markdown- eller JSON-utdata.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Ja, den strukturerte utdataen gjør den godt egnet for dokumentforbehandling i arbeidsflyter for retrieval-augmented generation.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 forbedrer layoutforståelse, reduserer tegnfeilrater og yter bedre på komplekse dokumenter sammenlignet med OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Ja, den støtter over 100 språk, inkludert ikke-latinske skriftsystemer og dokumenter med blandede språk.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Fellesskapsverktøy støtter finjustering, med rapporterte forbedringer i domenespesifikk OCR-nøyaktighet, som innen finans og vitenskapelige dokumenter.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Velg DeepSeek-OCR-2 når dokumentstrukturens trofasthet og OCR-nøyaktighet er viktigere enn generell multimodal resonnering.

Funksjoner for DeepSeek-OCR2

Utforsk nøkkelfunksjonene til DeepSeek-OCR2, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for DeepSeek-OCR2

Utforsk konkurransedyktige priser for DeepSeek-OCR2, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan DeepSeek-OCR2 kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Per forespørsel:$0.04
Per forespørsel:$0.05
-20%

Eksempelkode og API for DeepSeek-OCR2

Få tilgang til omfattende eksempelkode og API-ressurser for DeepSeek-OCR2 for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til DeepSeek-OCR2 i prosjektene dine.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Flere modeller