モデルサポートエンタープライズブログ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
リソース
AIモデルブログエンタープライズ変更履歴概要
2025 CometAPI. 全著作権所有。プライバシーポリシー利用規約
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

リクエストごと:$0.04
DeepSeek-OCR 2は、DeepSeekが2026年1月27日にリリースしたモデルで、革新的なDeepEncoder V2手法を採用しており、AIが画像の意味に基づいて部分を動的に再配置できるようにし、単純に左から右へ機械的に走査するだけではありません。高いデータ圧縮効率を維持しつつ、同モデルは複数のベンチマークおよび実運用指標で顕著なブレークスルーを達成しています。このモデルは、わずか256~1120のビジョントークンのみで複雑なドキュメントページをカバーでき、OmniDocBench v1.5の評価で総合スコア91.09%を達成しました。
新着
商用利用
Playground
概要
機能
料金プラン
API

DeepSeek-OCR-2 の技術仕様

項目DeepSeek-OCR-2(公開版)
リリース日 / バージョン2026年1月27日 — DeepSeek-OCR-2(公開リポ / HF カード)。
パラメータ~3 billion (3B) モデル(DeepSeek 3B MoE デコーダ + コンプレッサ)。
アーキテクチャビジョンエンコーダ(DeepEncoder V2 / 光学的圧縮) → 3B 視覚-言語デコーダ(MoE バリアントは DeepSeek の資料で言及)。
入力高解像度画像/スキャンページ/PDF(画像形式: PNG、JPEG、変換パイプライン経由のマルチページ PDF)。
出力プレーンテキスト(UTF-8)、構造化レイアウトメタデータ(バウンディング/フロー)、下流パース向けオプションの JSON キー-バリュー(K-V)。
コンテキスト長(実効)圧縮された視覚トークン列を使用 — 設計目標: 文書スケールの長コンテキスト(実用上の上限は圧縮率に依存。一般的なパイプラインでは単純なトークナイズに比べトークン数を 10× 削減)。
言語100+ 言語/スクリプト(製品ノートでは多言語対応を謳う)。

DeepSeek-OCR-2 とは

DeepSeek-OCR-2 は DeepSeek AI による第2の主要な OCR/ドキュメント理解モデルです。単なる文字抽出として OCR を扱うのではなく、文書の視覚情報をコンパクトな視覚トークンへ圧縮(DeepSeek が vision-text compression または DeepEncoder ファミリーと呼ぶプロセス)し、そのトークンを 3B パラメータの Mixture-of-Experts(MoE)スタイルの VLM デコーダでデコードして、テキスト生成とレイアウト推論を同時にモデル化します。この手法は、すべてのピクセル/パッチをトークン化する場合と比べてシーケンス長と実行コストを削減しつつ、長コンテキストのドキュメント(表、複数カラムのレイアウト、図、複数言語のスクリプト)を対象としています。

DeepSeek-OCR-2 の主な特徴

  • 人間に近い読順とレイアウト認識 — 固定グリッドの走査ではなく、見出し→段落→表といった論理的な順序を学習。
  • 視覚-テキスト圧縮 — 視覚入力をはるかに短いトークン列へ圧縮(一般的な圧縮目標は 10×)し、デコーダで長文書コンテキストを扱えるようにする。
  • 多言語・多スクリプト — 100+ 言語と多様なスクリプトに対応を謳う。
  • 高スループット/自己ホスティング可能 — オンプレミス推論向けに設計(A100 の例)、コミュニティによる GGUF/ローカルビルドの報告あり。
  • 微調整可能 — リポジトリとガイドに、ドメイン適応(請求書、学術論文、フォーム)向けのファインチューニング手順を含む。
  • レイアウト + コンテンツ出力 — 単なるプレーンテキストにとどまらず、下流の KIE/NER や RAG パイプラインを支援する構造化出力。

DeepSeek-OCR-2 のベンチマーク性能

  • Fox ベンチマーク/内部指標: 自社の Fox ベンチマーク(圧縮下での文書忠実度に焦点)で 10× 圧縮時に約 97% の完全一致精度。これは DeepSeek のマーケティング資料における主要な主張のひとつ。
  • 圧縮のトレードオフ: 中程度の圧縮(≈10×)では高精度を維持する一方、より攻撃的な圧縮では精度が低下(Tom’s Hardware の要約テストでは、あるシナリオで 20× 時に約 60% まで低下)。これはスループットと忠実度の実務上のトレードオフを示す。
  • スループット: 一般的なワークロードで単一の NVIDIA A100 につき ~200k pages/day — クラウド OCR API と比較したコスト/スケール評価に有用。

ユースケースと推奨デプロイ

  • エンタープライズ文書の取り込みと索引作成: 年次報告書、PDF、スキャン文書の大規模コーパスを、RAG/LLM パイプライン向けの検索可能なテキスト + レイアウトメタデータに変換。(スケール面で DeepSeek のスループット主張は魅力的。)
  • 構造化表の抽出/財務レポーティング: レイアウト認識エンコーダにより、下流の KIE 抽出や照合に向け、表セルの関係を保持。数値精度要件に対して圧縮レベルを検証すること。
  • 多言語アーカイブのデジタイズ: 100+ 言語対応により、図書館、政府アーカイブ、または多国籍の文書処理に適する。
  • オンプレミス/プライバシー重視の導入: 自己ホスティング可能な HF/GGUF 版により、クラウドプロバイダではなく社内でデータを保持可能。
  • LLM RAG の前処理: コンテキスト長がボトルネックとなる場面で、RAG 取り込み用に忠実なテキスト + レイアウトを圧縮・抽出。

CometAPI 経由で DeepSeek-OCR-2 にアクセスする方法

ステップ 1: API キーを取得

cometapi.com にログインしてください。まだユーザーでない場合は、まず登録してください。CometAPI コンソールにサインインします。インターフェースのアクセス認証である API キーを取得します。個人センターの API トークンで「Add Token」をクリックし、トークンキー: sk-xxxxx を取得して送信します。

cometapi-key

ステップ 2: DeepSeek-OCR-2 API にリクエストを送信

“deepseek-ocr-2” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトの API ドキュメントから取得できます。当社サイトでは利便性のため Apifox テストも提供しています。アカウントの実際の CometAPI キーに置き換えてください。base url is Chat Completions。

content フィールドに質問またはリクエストを挿入します—モデルが応答するのはこの内容です。API レスポンスを処理して生成結果を取得します。

ステップ 3: 結果の取得と検証

API レスポンスを処理して生成された回答を取得します。処理後、API はタスクのステータスと出力データを返します。

よくある質問

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 は、意味的な読順を決定するために Visual Causal Flow を用い、グリッドベースの OCR エンジンよりも高精度に表や複数カラムのレイアウトを再構成できます。

Can DeepSeek-OCR-2 handle complex tables and formulas?

はい、構造化された Markdown または JSON の出力において、表構造と数式表記を保持するよう特別に最適化されています。

Is DeepSeek-OCR-2 suitable for RAG pipelines?

はい、その構造化出力により、検索拡張生成のワークフローにおける文書の前処理に適しています。

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 はレイアウト理解を向上させ、文字エラー率を低減し、複雑な文書において OCR-1 よりも優れた性能を発揮します。

Does DeepSeek-OCR-2 support multilingual OCR?

はい、非ラテン文字のスクリプトや多言語混在の文書を含む、100 を超える言語に対応しています。

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

コミュニティのツール群が微調整をサポートしており、金融や科学文書などのドメイン特化型 OCR の精度向上が報告されています。

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

文書構造の忠実性や OCR 精度が汎用的なマルチモーダル推論より重要な場合は、DeepSeek-OCR-2 を選択してください。

DeepSeek-OCR2の機能

DeepSeek-OCR2のパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

DeepSeek-OCR2の料金

DeepSeek-OCR2の競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。DeepSeek-OCR2がコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
リクエストごと:$0.04
リクエストごと:$0.05
-20%

DeepSeek-OCR2のサンプルコードとAPI

DeepSeek-OCR2の包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでDeepSeek-OCR2の潜在能力を最大限に活用できるよう支援します。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

その他のモデル