Технические характеристики DeepSeek-OCR-2
| Поле | DeepSeek-OCR-2 (опубликовано) |
|---|---|
| Дата выпуска / Версия | 27 янв. 2026 — DeepSeek-OCR-2 (публичный репозиторий / карточка HF). |
| Параметры | ~3 миллиарда (3B) параметров модели (декодер DeepSeek 3B MoE + компрессор). |
| Архитектура | Визуальный энкодер (DeepEncoder V2 / оптическая компрессия) → 3B декодер vision-language (варианты MoE, упоминаемые в материалах DeepSeek). |
| Вход | Изображения высокого разрешения / отсканированные страницы / PDF-файлы (форматы изображений: PNG, JPEG, многостраничные PDF через конвейеры преобразования). |
| Выход | Обычный текст (UTF-8), структурированные метаданные макета (границы/поток), опционально JSON K-V для последующего парсинга. |
| Длина контекста (эффективная) | Использует сжатые последовательности визуальных токенов — цель архитектуры: длинные контексты масштаба документов (практические пределы зависят от коэффициента сжатия; типичный конвейер дает снижение числа токенов в 10× по сравнению с наивной токенизацией). |
| Языки | 100+ языков / письменностей (заявленное многоязычное покрытие в примечаниях к продукту). |
Что такое DeepSeek-OCR-2
DeepSeek-OCR-2 — вторая крупная OCR/модель понимания документов от DeepSeek AI. Вместо того чтобы рассматривать OCR как простое извлечение символов, модель сжимает визуальную информацию документа в компактные визуальные токены (процесс, который DeepSeek называет vision-text compression или семейством DeepEncoder), а затем декодирует эти токены с помощью декодера VLM в стиле mixture-of-experts (MoE) с 3 миллиардами параметров, который совместно моделирует генерацию текста и рассуждение о макете. Такой подход ориентирован на документы с длинным контекстом (таблицы, многоколоночные макеты, диаграммы, многоязычные письменности), одновременно уменьшая длину последовательности и общую стоимость выполнения по сравнению с токенизацией каждого пикселя/патча.
Основные особенности DeepSeek-OCR-2
- Порядок чтения, близкий к человеческому, и понимание макета — изучает логический порядок текста (заголовки→абзацы→таблицы), а не сканирует фиксированные сетки.
- Vision-text compression — сжимает визуальный вход в гораздо более короткие последовательности токенов (типичная целевая степень сжатия 10×), что позволяет декодеру работать с длинным контекстом документов.
- Многоязычность и поддержка разных письменностей — заявлена поддержка 100+ языков и различных письменностей.
- Высокая пропускная способность / возможность самостоятельного хостинга — рассчитана на локальный инференс (примеры с A100), также сообществом сообщается о GGUF/локальных сборках.
- Возможность дообучения — репозиторий и руководства включают инструкции по fine-tuning для адаптации к предметной области (счета, научные статьи, формы).
- Вывод макета + содержимого — не только обычный текст: структурированные выходные данные для упрощения последующих конвейеров KIE/NER и RAG.
Результаты DeepSeek-OCR-2 в бенчмарках
- Бенчмарк Fox / внутренняя метрика: ~97% точности exact-match при сжатии 10× на бенчмарке Fox (собственный бенчмарк компании, ориентированный на точность документов при сжатии). Это одно из ключевых заявлений в маркетинговых материалах DeepSeek.
- Компромиссы сжатия: Хотя точность остается высокой при умеренном сжатии (≈10×), при более агрессивном сжатии она снижается (Tom’s Hardware обобщил тесты, показавшие падение точности до ~60% при 20× в некоторых сценариях). Это подчеркивает практический компромисс между пропускной способностью и точностью.
- Пропускная способность: ~200 тыс. страниц/день на одном NVIDIA A100 для типичных рабочих нагрузок — полезно при оценке затрат/масштаба по сравнению с облачными OCR API.
Сценарии использования и рекомендуемые варианты развертывания
- Корпоративная загрузка и индексирование документов: преобразование больших корпусов годовых отчетов, PDF и отсканированных документов в текст с возможностью поиска + метаданные макета для конвейеров RAG/LLM. (Заявление DeepSeek о пропускной способности привлекательно для масштабирования.)
- Извлечение структурированных таблиц / финансовая отчетность: энкодер с учетом макета помогает сохранять связи между ячейками таблиц для последующего извлечения KIE и сверки. Проверяйте уровень сжатия с учетом требований к числовой точности.
- Оцифровка многоязычных архивов: поддержка 100+ языков делает модель подходящей для библиотек, государственных архивов или многонациональной обработки документов.
- Локальные развертывания для конфиденциальных данных: self-hostable варианты HF/GGUF позволяют хранить данные внутри организации вместо использования облачных провайдеров.
- Предобработка для LLM RAG: сжатие и извлечение точного текста + макета для загрузки в RAG, где длина контекста является узким местом.
Как получить доступ к DeepSeek-OCR-2 через CometAPI
Шаг 1: Зарегистрируйтесь и получите API-ключ
Войдите на cometapi.com. Если вы еще не являетесь нашим пользователем, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учетные данные доступа — API-ключ интерфейса. Нажмите “Add Token” в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте его.

Шаг 2: Отправьте запросы к API DeepSeek-OCR-2
Выберите endpoint “deepseek-ocr-2”, чтобы отправить API-запрос, и задайте тело запроса. Метод запроса и тело запроса можно получить из API-документации на нашем сайте. На нашем сайте также доступен тест Apifox для вашего удобства. Замените на ваш фактический ключ CometAPI из вашей учетной записи. Базовый URL: Chat Completions.
Вставьте ваш вопрос или запрос в поле content — именно на это модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.
Шаг 3: Получите и проверьте результаты
Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API возвращает статус задачи и выходные данные.