Specyfikacja techniczna DeepSeek-OCR-2
| Pole | DeepSeek-OCR-2 (opublikowane) |
|---|---|
| Data wydania / Wersja | 27 stycznia 2026 — DeepSeek-OCR-2 (public repo / HF card). |
| Parametry | ~3 miliardy (3B) parametrów modelu (dekoder DeepSeek 3B MoE + kompresor). |
| Architektura | Koder wizyjny (DeepEncoder V2 / kompresja optyczna) → 3B dekoder językowo-wizyjny (warianty MoE przywoływane w materiałach DeepSeek). |
| Wejście | Obrazy w wysokiej rozdzielczości / zeskanowane strony / PDF-y (formaty obrazów: PNG, JPEG, wielostronicowe PDF-y przez potoki konwersji). |
| Wyjście | Zwykły tekst (UTF-8), ustrukturyzowane metadane układu (bounding/flow), opcjonalne JSON K-V do dalszego parsowania. |
| Długość kontekstu (efektywna) | Używa skompresowanych sekwencji wizualnych tokenów — cel projektowy: długie, dokumentowe konteksty (praktyczne limity zależą od współczynnika kompresji; typowy pipeline daje 10× redukcję tokenów względem naiwnej tokenizacji). |
| Języki | 100+ języków / pism (deklarowane wielojęzyczne pokrycie w notatkach produktowych). |
Czym jest DeepSeek-OCR-2
DeepSeek-OCR-2 to drugi główny model OCR/rozumienia dokumentów od DeepSeek AI. Zamiast traktować OCR jako zwykłe wydobywanie znaków, model kompresuje wizualne informacje dokumentu do zwartych wizualnych tokenów (proces, który DeepSeek nazywa kompresją wizyjno-tekstową albo rodziną DeepEncoder), a następnie dekoduje te tokeny dekoderem VLM w stylu mixture-of-experts (MoE) z 3B parametrami, który jednocześnie modeluje generowanie tekstu i rozumienie układu. Podejście celuje w dokumenty o długim kontekście (tabele, układy wielokolumnowe, diagramy, wielojęzyczne pisma), ograniczając długość sekwencji i całkowity koszt wykonania w porównaniu z tokenizacją każdego piksela/płytki.
Główne cechy DeepSeek-OCR-2
- Ludzki porządek czytania i świadomość układu — uczy się logicznego porządku tekstu (nagłówki→akapity→tabele) zamiast skanować stałe siatki.
- Kompresja wizja-tekst — kompresuje wejście wizualne do znacznie krótszych sekwencji tokenów (typowo 10×), umożliwiając dekoderowi pracę z długimi dokumentami.
- Wielojęzyczność i wiele systemów pisma — deklarowane wsparcie dla 100+ języków i różnych pism.
- Wysoka przepustowość / samohostowanie — zaprojektowany do inferencji on-prem (przykłady na A100), zgłaszane społecznościowe buildy GGUF/lokalne.
- Możliwość dostrajania — repozytorium i poradniki zawierają instrukcje fine-tuningu do adaptacji domenowej (faktury, publikacje naukowe, formularze).
- Wyjście: układ + treść — nie tylko czysty tekst: ustrukturyzowane wyniki ułatwiają dalsze potoki KIE/NER i RAG.
Wydajność w benchmarkach DeepSeek-OCR-2
- Fox benchmark / metryka wewnętrzna: ~97% dokładności exact-match przy 10× kompresji na benchmarku Fox (benchmark firmy skupiony na wierności dokumentów pod kompresją). To jedna z głównych deklaracji w materiałach marketingowych DeepSeek.
- Kompromisy kompresji: Chociaż dokładność pozostaje wysoka przy umiarkowanej kompresji (≈10×), pogarsza się przy bardziej agresywnej (podsumowanie Tom’s Hardware wskazuje spadek dokładności do ~60% przy 20× w niektórych scenariuszach). Podkreśla to praktyczne kompromisy między przepustowością a wiernością.
- Przepustowość: ~200k stron/dzień na pojedynczej NVIDIA A100 dla typowych obciążeń — istotne przy ocenie kosztu/skali versus chmurowe API OCR.
Zastosowania i zalecane wdrożenia
- Ingest i indeksowanie dokumentów w przedsiębiorstwie: konwersja dużych korpusów raportów rocznych, PDF-ów i skanów do przeszukiwalnego tekstu + metadanych układu do potoków RAG/LLM. (Deklarowana przepustowość DeepSeek jest atrakcyjna przy skali.)
- Ekstrakcja tabel / raportowanie finansowe: koder świadomy układu pomaga zachować relacje komórek tabel do dalszej ekstrakcji KIE i uzgadniania. Zweryfikuj poziom kompresji względem wymagań precyzji numerycznej.
- Cyfryzacja archiwów wielojęzycznych: wsparcie dla 100+ języków czyni go odpowiednim dla bibliotek, archiwów rządowych lub przetwarzania dokumentów w środowiskach międzynarodowych.
- Wdrożenia on-prem, wrażliwe na prywatność: samohostowalne warianty HF/GGUF umożliwiają utrzymanie danych w organizacji zamiast u dostawców chmurowych.
- Wstępne przetwarzanie dla LLM RAG: kompresja i ekstrakcja wiernego tekstu + układu do zasilania RAG tam, gdzie długość kontekstu jest wąskim gardłem.
Jak uzyskać dostęp do DeepSeek-OCR-2 przez CometAPI
Krok 1: Zarejestruj klucz API
Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw. Zaloguj się do swojej konsoli CometAPI. Pobierz klucz API dostępu do interfejsu. Kliknij “Add Token” w sekcji tokenów API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i zatwierdź.

Krok 2: Wyślij żądania do DeepSeek-OCR-2 API
Wybierz endpoint “deepseek-ocr-2”, aby wysłać żądanie API i ustaw treść żądania. Metoda żądania i treść żądania są dostępne w dokumentacji API na naszej stronie. Nasza strona udostępnia także test Apifox dla wygody. Zastąp je swoim rzeczywistym kluczem CometAPI z konta. Bazowy URL to Chat Completions.
Wstaw swoje pytanie lub prośbę do pola content — na to model odpowie. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
Krok 3: Pobierz i zweryfikuj wyniki
Przetwórz odpowiedź API, aby uzyskać wygenerowany wynik. Po przetworzeniu API odpowiada statusem zadania i danymi wyjściowymi.