ModeleWsparciePrzedsiębiorstwoBlog
Ponad 500 API modeli AI, wszystko w jednym API. Tylko w CometAPI
API modeli
Deweloper
Szybki startDokumentacjaPanel API
Zasoby
Modele Sztucznej InteligencjiBlogPrzedsiębiorstwoDziennik zmianO nas
2025 CometAPI. Wszelkie prawa zastrzeżone.Polityka PrywatnościWarunki korzystania z usługi
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Na żądanie:$0.04
DeepSeek-OCR 2 to model wydany przez DeepSeek 27 stycznia 2026 r., wykorzystujący innowacyjną metodę DeepEncoder V2, która pozwala AI dynamicznie przestawiać części obrazu na podstawie jego znaczenia, zamiast jedynie mechanicznie skanować od lewej do prawej. Przy zachowaniu wysokiej efektywności kompresji danych model osiągnął znaczące przełomy w wielu benchmarkach i metrykach produkcyjnych. Model potrafi przetwarzać złożone strony dokumentów przy użyciu zaledwie 256–1120 tokenów wizualnych, uzyskując ogólny wynik 91.09% w ewaluacji OmniDocBench v1.5.
Nowy
Użycie komercyjne
Playground
Przegląd
Funkcje
Cennik
API

Specyfikacja techniczna DeepSeek-OCR-2

PoleDeepSeek-OCR-2 (opublikowane)
Data wydania / Wersja27 stycznia 2026 — DeepSeek-OCR-2 (public repo / HF card).
Parametry~3 miliardy (3B) parametrów modelu (dekoder DeepSeek 3B MoE + kompresor).
ArchitekturaKoder wizyjny (DeepEncoder V2 / kompresja optyczna) → 3B dekoder językowo-wizyjny (warianty MoE przywoływane w materiałach DeepSeek).
WejścieObrazy w wysokiej rozdzielczości / zeskanowane strony / PDF-y (formaty obrazów: PNG, JPEG, wielostronicowe PDF-y przez potoki konwersji).
WyjścieZwykły tekst (UTF-8), ustrukturyzowane metadane układu (bounding/flow), opcjonalne JSON K-V do dalszego parsowania.
Długość kontekstu (efektywna)Używa skompresowanych sekwencji wizualnych tokenów — cel projektowy: długie, dokumentowe konteksty (praktyczne limity zależą od współczynnika kompresji; typowy pipeline daje 10× redukcję tokenów względem naiwnej tokenizacji).
Języki100+ języków / pism (deklarowane wielojęzyczne pokrycie w notatkach produktowych).

Czym jest DeepSeek-OCR-2

DeepSeek-OCR-2 to drugi główny model OCR/rozumienia dokumentów od DeepSeek AI. Zamiast traktować OCR jako zwykłe wydobywanie znaków, model kompresuje wizualne informacje dokumentu do zwartych wizualnych tokenów (proces, który DeepSeek nazywa kompresją wizyjno-tekstową albo rodziną DeepEncoder), a następnie dekoduje te tokeny dekoderem VLM w stylu mixture-of-experts (MoE) z 3B parametrami, który jednocześnie modeluje generowanie tekstu i rozumienie układu. Podejście celuje w dokumenty o długim kontekście (tabele, układy wielokolumnowe, diagramy, wielojęzyczne pisma), ograniczając długość sekwencji i całkowity koszt wykonania w porównaniu z tokenizacją każdego piksela/płytki.

Główne cechy DeepSeek-OCR-2

  • Ludzki porządek czytania i świadomość układu — uczy się logicznego porządku tekstu (nagłówki→akapity→tabele) zamiast skanować stałe siatki.
  • Kompresja wizja-tekst — kompresuje wejście wizualne do znacznie krótszych sekwencji tokenów (typowo 10×), umożliwiając dekoderowi pracę z długimi dokumentami.
  • Wielojęzyczność i wiele systemów pisma — deklarowane wsparcie dla 100+ języków i różnych pism.
  • Wysoka przepustowość / samohostowanie — zaprojektowany do inferencji on-prem (przykłady na A100), zgłaszane społecznościowe buildy GGUF/lokalne.
  • Możliwość dostrajania — repozytorium i poradniki zawierają instrukcje fine-tuningu do adaptacji domenowej (faktury, publikacje naukowe, formularze).
  • Wyjście: układ + treść — nie tylko czysty tekst: ustrukturyzowane wyniki ułatwiają dalsze potoki KIE/NER i RAG.

Wydajność w benchmarkach DeepSeek-OCR-2

  • Fox benchmark / metryka wewnętrzna: ~97% dokładności exact-match przy 10× kompresji na benchmarku Fox (benchmark firmy skupiony na wierności dokumentów pod kompresją). To jedna z głównych deklaracji w materiałach marketingowych DeepSeek.
  • Kompromisy kompresji: Chociaż dokładność pozostaje wysoka przy umiarkowanej kompresji (≈10×), pogarsza się przy bardziej agresywnej (podsumowanie Tom’s Hardware wskazuje spadek dokładności do ~60% przy 20× w niektórych scenariuszach). Podkreśla to praktyczne kompromisy między przepustowością a wiernością.
  • Przepustowość: ~200k stron/dzień na pojedynczej NVIDIA A100 dla typowych obciążeń — istotne przy ocenie kosztu/skali versus chmurowe API OCR.

Zastosowania i zalecane wdrożenia

  • Ingest i indeksowanie dokumentów w przedsiębiorstwie: konwersja dużych korpusów raportów rocznych, PDF-ów i skanów do przeszukiwalnego tekstu + metadanych układu do potoków RAG/LLM. (Deklarowana przepustowość DeepSeek jest atrakcyjna przy skali.)
  • Ekstrakcja tabel / raportowanie finansowe: koder świadomy układu pomaga zachować relacje komórek tabel do dalszej ekstrakcji KIE i uzgadniania. Zweryfikuj poziom kompresji względem wymagań precyzji numerycznej.
  • Cyfryzacja archiwów wielojęzycznych: wsparcie dla 100+ języków czyni go odpowiednim dla bibliotek, archiwów rządowych lub przetwarzania dokumentów w środowiskach międzynarodowych.
  • Wdrożenia on-prem, wrażliwe na prywatność: samohostowalne warianty HF/GGUF umożliwiają utrzymanie danych w organizacji zamiast u dostawców chmurowych.
  • Wstępne przetwarzanie dla LLM RAG: kompresja i ekstrakcja wiernego tekstu + układu do zasilania RAG tam, gdzie długość kontekstu jest wąskim gardłem.

Jak uzyskać dostęp do DeepSeek-OCR-2 przez CometAPI

Krok 1: Zarejestruj klucz API

Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojej konsoli CometAPI. Pobierz klucz API dostępu do interfejsu. Kliknij “Add Token” w sekcji tokenów API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i zatwierdź.

cometapi-key

Krok 2: Wyślij żądania do DeepSeek-OCR-2 API

Wybierz endpoint “deepseek-ocr-2”, aby wysłać żądanie API i ustaw treść żądania. Metoda żądania i treść żądania są dostępne w dokumentacji API na naszej stronie. Nasza strona udostępnia także test Apifox dla wygody. Zastąp je swoim rzeczywistym kluczem CometAPI z konta. Bazowy URL to Chat Completions.

Wstaw swoje pytanie lub prośbę do pola content — na to model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

Krok 3: Pobierz i zweryfikuj wyniki

Przetwórz odpowiedź API, aby uzyskać wygenerowany wynik. Po przetworzeniu API odpowiada statusem zadania i danymi wyjściowymi.

Najczęściej zadawane pytania

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 wykorzystuje Visual Causal Flow do określania semantycznej kolejności czytania, co pozwala mu dokładniej odtwarzać tabele i układy wielokolumnowe niż oparte na siatce silniki OCR.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Tak, jest specjalnie zoptymalizowany, aby zachować strukturę tabel i notację matematyczną w strukturyzowanym wyjściu Markdown lub JSON.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Tak, jego strukturyzowane wyjście sprawia, że dobrze nadaje się do wstępnego przetwarzania dokumentów w przepływach pracy generowania wspomaganego wyszukiwaniem.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 poprawia rozumienie układu, zmniejsza współczynnik błędów znaków i działa lepiej na złożonych dokumentach w porównaniu z OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Tak, obsługuje ponad 100 języków, w tym pisma niełacińskie oraz dokumenty wielojęzyczne.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Narzędzia społeczności wspierają dostrajanie, a zgłaszane są poprawy dokładności OCR w określonych domenach, takich jak finanse i dokumenty naukowe.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Wybierz DeepSeek-OCR-2, gdy wierność struktury dokumentu i dokładność OCR są ważniejsze niż ogólne wnioskowanie multimodalne.

Funkcje dla DeepSeek-OCR2

Poznaj kluczowe funkcje DeepSeek-OCR2, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla DeepSeek-OCR2

Poznaj konkurencyjne ceny dla DeepSeek-OCR2, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak DeepSeek-OCR2 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Na żądanie:$0.04
Na żądanie:$0.05
-20%

Przykładowy kod i API dla DeepSeek-OCR2

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla DeepSeek-OCR2, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał DeepSeek-OCR2 w Twoich projektach.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Więcej modeli