DeepSeek-OCR-2 の技術仕様
| 項目 | DeepSeek-OCR-2(公開版) |
|---|---|
| リリース日 / バージョン | 2026年1月27日 — DeepSeek-OCR-2(公開リポ / HF カード)。 |
| パラメータ | ~3 billion (3B) モデル(DeepSeek 3B MoE デコーダ + コンプレッサ)。 |
| アーキテクチャ | ビジョンエンコーダ(DeepEncoder V2 / 光学的圧縮) → 3B 視覚-言語デコーダ(MoE バリアントは DeepSeek の資料で言及)。 |
| 入力 | 高解像度画像/スキャンページ/PDF(画像形式: PNG、JPEG、変換パイプライン経由のマルチページ PDF)。 |
| 出力 | プレーンテキスト(UTF-8)、構造化レイアウトメタデータ(バウンディング/フロー)、下流パース向けオプションの JSON キー-バリュー(K-V)。 |
| コンテキスト長(実効) | 圧縮された視覚トークン列を使用 — 設計目標: 文書スケールの長コンテキスト(実用上の上限は圧縮率に依存。一般的なパイプラインでは単純なトークナイズに比べトークン数を 10× 削減)。 |
| 言語 | 100+ 言語/スクリプト(製品ノートでは多言語対応を謳う)。 |
DeepSeek-OCR-2 とは
DeepSeek-OCR-2 は DeepSeek AI による第2の主要な OCR/ドキュメント理解モデルです。単なる文字抽出として OCR を扱うのではなく、文書の視覚情報をコンパクトな視覚トークンへ圧縮(DeepSeek が vision-text compression または DeepEncoder ファミリーと呼ぶプロセス)し、そのトークンを 3B パラメータの Mixture-of-Experts(MoE)スタイルの VLM デコーダでデコードして、テキスト生成とレイアウト推論を同時にモデル化します。この手法は、すべてのピクセル/パッチをトークン化する場合と比べてシーケンス長と実行コストを削減しつつ、長コンテキストのドキュメント(表、複数カラムのレイアウト、図、複数言語のスクリプト)を対象としています。
DeepSeek-OCR-2 の主な特徴
- 人間に近い読順とレイアウト認識 — 固定グリッドの走査ではなく、見出し→段落→表といった論理的な順序を学習。
- 視覚-テキスト圧縮 — 視覚入力をはるかに短いトークン列へ圧縮(一般的な圧縮目標は 10×)し、デコーダで長文書コンテキストを扱えるようにする。
- 多言語・多スクリプト — 100+ 言語と多様なスクリプトに対応を謳う。
- 高スループット/自己ホスティング可能 — オンプレミス推論向けに設計(A100 の例)、コミュニティによる GGUF/ローカルビルドの報告あり。
- 微調整可能 — リポジトリとガイドに、ドメイン適応(請求書、学術論文、フォーム)向けのファインチューニング手順を含む。
- レイアウト + コンテンツ出力 — 単なるプレーンテキストにとどまらず、下流の KIE/NER や RAG パイプラインを支援する構造化出力。
DeepSeek-OCR-2 のベンチマーク性能
- Fox ベンチマーク/内部指標: 自社の Fox ベンチマーク(圧縮下での文書忠実度に焦点)で 10× 圧縮時に約 97% の完全一致精度。これは DeepSeek のマーケティング資料における主要な主張のひとつ。
- 圧縮のトレードオフ: 中程度の圧縮(≈10×)では高精度を維持する一方、より攻撃的な圧縮では精度が低下(Tom’s Hardware の要約テストでは、あるシナリオで 20× 時に約 60% まで低下)。これはスループットと忠実度の実務上のトレードオフを示す。
- スループット: 一般的なワークロードで単一の NVIDIA A100 につき ~200k pages/day — クラウド OCR API と比較したコスト/スケール評価に有用。
ユースケースと推奨デプロイ
- エンタープライズ文書の取り込みと索引作成: 年次報告書、PDF、スキャン文書の大規模コーパスを、RAG/LLM パイプライン向けの検索可能なテキスト + レイアウトメタデータに変換。(スケール面で DeepSeek のスループット主張は魅力的。)
- 構造化表の抽出/財務レポーティング: レイアウト認識エンコーダにより、下流の KIE 抽出や照合に向け、表セルの関係を保持。数値精度要件に対して圧縮レベルを検証すること。
- 多言語アーカイブのデジタイズ: 100+ 言語対応により、図書館、政府アーカイブ、または多国籍の文書処理に適する。
- オンプレミス/プライバシー重視の導入: 自己ホスティング可能な HF/GGUF 版により、クラウドプロバイダではなく社内でデータを保持可能。
- LLM RAG の前処理: コンテキスト長がボトルネックとなる場面で、RAG 取り込み用に忠実なテキスト + レイアウトを圧縮・抽出。
CometAPI 経由で DeepSeek-OCR-2 にアクセスする方法
ステップ 1: API キーを取得
cometapi.com にログインしてください。まだユーザーでない場合は、まず登録してください。CometAPI コンソールにサインインします。インターフェースのアクセス認証である API キーを取得します。個人センターの API トークンで「Add Token」をクリックし、トークンキー: sk-xxxxx を取得して送信します。

ステップ 2: DeepSeek-OCR-2 API にリクエストを送信
“deepseek-ocr-2” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトの API ドキュメントから取得できます。当社サイトでは利便性のため Apifox テストも提供しています。アカウントの実際の CometAPI キーに置き換えてください。base url is Chat Completions。
content フィールドに質問またはリクエストを挿入します—モデルが応答するのはこの内容です。API レスポンスを処理して生成結果を取得します。
ステップ 3: 結果の取得と検証
API レスポンスを処理して生成された回答を取得します。処理後、API はタスクのステータスと出力データを返します。