DeepSeek-OCR-2 的技術規格
| 欄位 | DeepSeek-OCR-2(已發布) |
|---|---|
| 發佈日期 / 版本 | 2026 年 1 月 27 日 — DeepSeek-OCR-2(公開倉庫 / HF 卡片)。 |
| 參數 | 約 30 億(3B)參數的模型(DeepSeek 3B MoE 解碼器 + 壓縮器)。 |
| 架構 | 視覺編碼器(DeepEncoder V2 / 光學壓縮)→ 3B 視覺-語言解碼器(MoE 變體如 DeepSeek 材料所述)。 |
| 輸入 | 高解析度影像/掃描頁面/PDF(影像格式:PNG、JPEG;多頁 PDF 經由轉換流程處理)。 |
| 輸出 | 純文字(UTF-8)、結構化版面中繼資料(邊界/文字流)、可選 JSON 鍵值對以供下游解析。 |
| 有效上下文長度 | 使用壓縮的視覺標記序列——設計目標:長篇、文件級上下文(實際上限取決於壓縮比;典型流程相較於朴素標記化可實現約 10× 標記減少)。 |
| 語言 | 100+ 種語言/文字系統(產品說明中聲稱的多語種覆蓋)。 |
什麼是 DeepSeek-OCR-2
DeepSeek-OCR-2 是 DeepSeek AI 推出的第二代 OCR/文件理解模型。它並非將 OCR 視為純文字字符抽取,而是先將文件的視覺資訊壓縮為緊湊的視覺標記(DeepSeek 將此過程稱為視覺-文本壓縮或其 DeepEncoder 系列),然後使用具 3B 參數的 Mixture-of-Experts(MoE)風格 VLM 解碼器對這些標記進行解碼,同時建模文字生成與版面推理。相較於對每個像素/圖塊進行標記化,這種方法面向長上下文文件(表格、多欄版面、圖表、多語文字系統),並降低序列長度與整體運行成本。
DeepSeek-OCR-2 的主要特性
- 類人閱讀順序與版面感知——學習文字的邏輯順序(標題→段落→表格),而非掃描固定網格。
- 視覺-文本壓縮——將視覺輸入壓縮為更短的標記序列(典型目標約 10× 壓縮),使解碼器能處理長文件上下文。
- 多語言與多文字系統——聲稱支援 100+ 種語言與多樣文字系統。
- 高吞吐/可自託管——為本地部署推理而設計(如 A100 範例),並有社群 GGUF/本地構建回報。
- 可微調——程式庫與指南提供針對發票、科學論文、表單等領域適配的微調教學。
- 版面 + 內容輸出——不僅是純文字:提供結構化輸出,便利下游 KIE/NER 與 RAG 流水線。
DeepSeek-OCR-2 的基準表現
- **Fox 基準/內部指標:**在其 Fox 基準上,以 10× 壓縮達到約 97% 的完全匹配準確率——這是 DeepSeek 行銷材料中的亮點聲明之一。
- **壓縮權衡:**在中等壓縮(≈10×)下準確率仍維持較高,但在更激進的壓縮下會下降(Tom’s Hardware 摘要測試指出,在某些情境下 20× 壓縮時準確率降至約 60%)。這凸顯了吞吐與保真度之間的實務權衡。
- **吞吐量:**單張 NVIDIA A100 在典型工作負載下約可處理 20 萬頁/日——在評估成本/規模與雲端 OCR API 的取捨時具參考價值。
使用情境與部署建議
- **企業文件導入與索引建立:**將大量年報、PDF 與掃描文件轉換為可搜尋文字與版面中繼資料,以供 RAG/LLM 流水線使用。(DeepSeek 的吞吐表現對大規模場景具吸引力。)
- **結構化表格擷取/財務報告:**版面感知編碼器有助於保留表格儲存格關係,以便下游 KIE 擷取與校對。請依數值精度需求驗證壓縮等級。
- **多語檔案數位化:**支援 100+ 語言,適用於圖書館、政府檔案或跨國文件處理。
- **本地、隱私敏感部署:**可自託管的 HF/GGUF 變體使資料可留在內部,不必委由雲端服務。
- **LLM RAG 前處理:**在上下文長度受限時,將忠實的文字與版面資訊壓縮/擷取供 RAG 納管。
如何透過 CometAPI 存取 DeepSeek-OCR-2
步驟 1:註冊取得 API 金鑰
登入 cometapi.com。若您尚未成為我們的使用者,請先註冊。登入您的 CometAPI 控制台。取得介面的存取憑證 API 金鑰。在個人中心的 API token 處點擊「Add Token」,取得 token 金鑰:sk-xxxxx 並提交。

步驟 2:向 DeepSeek-OCR-2 API 發送請求
選擇“deepseek-ocr-2”端點以發送 API 請求並設定請求體。請求方法與請求體可於我們的網站 API 文件獲取。我們的網站也提供 Apifox 測試以供您便捷使用。請替換為您帳戶中的實際 CometAPI 金鑰。基礎 URL 為 Chat Completions。
將您的問題或請求插入 content 欄位——模型將回應此內容。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。