DeepSeek-OCR-2 техникалық сипаттамалары
| Өріс | DeepSeek-OCR-2 (жарияланған) |
|---|---|
| Шығарылған күні / Нұсқасы | 2026 ж. 27 қаңтар — DeepSeek-OCR-2 (ашық репозиторий / HF картасы). |
| Параметрлер | ~3 миллиард (3B) модель (DeepSeek 3B MoE декодері + компрессор). |
| Архитектура | Көру энкодері (DeepEncoder V2 / оптикалық қысу) → 3B көру-тіл декодері (DeepSeek материалдарында аталған MoE нұсқалары). |
| Кіріс | Жоғары ажыратымдылықтағы кескіндер / сканерленген беттер / PDF файлдар (кескін форматтары: PNG, JPEG, көпбетті PDF файлдары түрлендіру құбырлары арқылы). |
| Шығыс | Қарапайым мәтін (UTF-8), құрылымдалған макет метадеректері (шекаралар/ағын), кейінгі талдау үшін қосымша JSON K-V. |
| Мәнмәтін ұзындығы (тиімді) | Қысылған визуалды токен тізбектерін пайдаланады — жобалық мақсат: ұзын, құжат көлеміндегі мәнмәтіндер (практикалық шектер қысу коэффициентіне байланысты; типтік құбыр аңғал токенизациямен салыстырғанда 10× токен қысқартуды береді). |
| Тілдер | 100+ тіл / жазу жүйесі (өнім ескертпелерінде мәлімделген көптілді қамту). |
DeepSeek-OCR-2 дегеніміз не
DeepSeek-OCR-2 — DeepSeek AI компаниясының OCR/құжатты түсінуге арналған екінші ірі моделі. OCR-ды жай ғана таңбаларды шығарып алу ретінде қарастырудың орнына, модель визуалды құжат ақпаратын ықшам визуалды токендерге қысады (DeepSeek бұл процесті vision-text compression немесе өзінің DeepEncoder тобы деп атайды), содан кейін сол токендерді мәтін генерациясы мен макет пайымдауын бірге модельдейтін 3B параметрлі mixture-of-experts (MoE) стиліндегі VLM декодерімен декодтайды. Бұл тәсіл ұзын мәнмәтінді құжаттарға (кестелер, көпбағанды макеттер, диаграммалар, көптілді жазулар) бағытталған және әрбір пиксельді/патчты токенизациялаумен салыстырғанда тізбек ұзындығын және жалпы орындалу шығынын азайтады.
DeepSeek-OCR-2 негізгі мүмкіндіктері
- Адамға ұқсас оқу реті және макетті сезіну — бекітілген торларды сканерлеудің орнына мәтіннің логикалық ретін (тақырыптар→абзацтар→кестелер) үйренеді.
- Vision-text compression — визуалды кірісті әлдеқайда қысқа токен тізбектеріне қысады (әдеттегі қысу мақсаты 10×), бұл декодер үшін ұзын құжаттық мәнмәтіндерді мүмкін етеді.
- Көптілді және көпжазулы — 100+ тіл мен әртүрлі жазу жүйелерін қолдайтынын мәлімдейді.
- Жоғары өткізу қабілеті / өз серверіңізде орналастыруға болады — on-prem инференске арналған (A100 мысалдары), сондай-ақ қауымдастық жасаған GGUF/жергілікті жинақтар туралы хабарланған.
- Қосымша баптауға болады — репозиторий мен нұсқаулықтарда доменге бейімдеу үшін fine-tuning нұсқаулары бар (шот-фактуралар, ғылыми мақалалар, формалар).
- Макет + мазмұн шығысы — тек қарапайым мәтін емес: кейінгі KIE/NER және RAG құбырларын жеңілдететін құрылымдалған шығыстар.
DeepSeek-OCR-2 бенчмарк өнімділігі
- Fox benchmark / ішкі метрика: 10× қысуда ~97% exact-match accuracy Fox benchmark бойынша (компанияның қысу кезіндегі құжат дәлдігіне бағытталған бенчмаркі). Бұл DeepSeek маркетингтік материалдарындағы негізгі мәлімдемелердің бірі.
- Қысу ымыралары: Орташа қысуда (≈10×) дәлдік жоғары болып қалса да, агрессивтірек қысуда төмендейді (Tom’s Hardware кейбір сценарийлерде дәлдіктің 20× кезінде ~60% дейін түскенін көрсеткен сынақтарды қорытындылады). Бұл өткізу қабілеті мен дәлдік арасындағы практикалық ымыраларды көрсетеді.
- Өткізу қабілеті: Әдеттегі жүктемелерде бір NVIDIA A100 құрылғысында тәулігіне ~200k бет — шығын/масштабты бұлттық OCR API-лерімен салыстыру кезінде пайдалы.
Қолдану жағдайлары және ұсынылатын орналастырулар
- Кәсіпорын құжаттарын жүктеу және индекстеу: жылдық есептердің, PDF файлдардың және сканерленген құжаттардың үлкен корпустарын іздеуге болатын мәтінге + RAG/LLM құбырларына арналған макет метадеректеріне түрлендіру. (Масштаб үшін DeepSeek өткізу қабілеті туралы мәлімдемесі тартымды.)
- Құрылымдалған кесте шығару / қаржылық есептілік: макетті сезінетін энкодер кейінгі KIE шығару және салыстырып тексеру үшін кесте ұяшықтарының байланыстарын сақтауға көмектеседі. Сандық дәлдік қажеттеріне қарай қысу деңгейін тексеріңіз.
- Көптілді мұрағаттарды цифрландыру: 100+ тілді қолдау оны кітапханаларға, мемлекеттік мұрағаттарға немесе көпұлтты құжат өңдеуге қолайлы етеді.
- On-prem, құпиялылыққа сезімтал орналастырулар: өз серверіңізде орналастырылатын HF/GGUF нұсқалары деректерді бұлттық провайдерлердің орнына ішкі ортада сақтауға мүмкіндік береді.
- LLM RAG үшін алдын ала өңдеу: мәнмәтін ұзындығы шектеу болған кезде RAG-қа енгізу үшін сенімді мәтін мен макетті қысу және шығару.
CometAPI арқылы DeepSeek-OCR-2-ге қалай қол жеткізуге болады
1-қадам: API кілтін алу үшін тіркелу
cometapi.com сайтына кіріңіз. Егер сіз әлі біздің пайдаланушымыз болмасаңыз, алдымен тіркеліңіз. CometAPI консоліне кіріңіз. Интерфейстің рұқсат дерегі болып табылатын API кілтін алыңыз. Жеке орталықтағы API token бөлімінде “Add Token” түймесін басып, token key мәнін алыңыз: sk-xxxxx және жіберіңіз.

2-қадам: DeepSeek-OCR-2 API-іне сұраулар жіберу
API сұрауын жіберу және сұрау денесін орнату үшін “deepseek-ocr-2” endpoint-ын таңдаңыз. Сұрау әдісі мен сұрау денесін біздің сайттағы API құжаттамасынан алуға болады. Ыңғайлылығыңыз үшін біздің сайтта Apifox тесті де ұсынылған. Тіркелгіңіздегі нақты CometAPI кілтімен ауыстырыңыз. base url — Chat Completions.
Сұрағыңызды немесе өтінішіңізді content өрісіне енгізіңіз — модель дәл соған жауап береді. Жасалған жауапты алу үшін API жауабын өңдеңіз.
3-қадам: Нәтижелерді алу және тексеру
Жасалған жауапты алу үшін API жауабын өңдеңіз. Өңдеуден кейін API тапсырма күйі мен шығыс деректерін қайтарады.