DeepSeek-OCR-2 的技术规格
| 字段 | DeepSeek-OCR-2(已发布) |
|---|---|
| 发布日期 / 版本 | 2026 年 1 月 27 日 — DeepSeek-OCR-2(公开仓库 / HF 卡片)。 |
| 参数量 | 约 30 亿(3B)模型(DeepSeek 3B MoE 解码器 + 压缩器)。 |
| 架构 | 视觉编码器(DeepEncoder V2 / 光学压缩)→ 3B 视觉语言解码器(DeepSeek 材料中提及的 MoE 变体)。 |
| 输入 | 高分辨率图像 / 扫描页面 / PDF(图像格式:PNG、JPEG;多页 PDF 通过转换流水线处理)。 |
| 输出 | 纯文本(UTF-8)、结构化布局元数据(边界框/流向)、可选 JSON 键值对,供下游解析使用。 |
| 上下文长度(有效) | 使用压缩后的视觉 token 序列——设计目标是支持长文档级上下文(实际限制取决于压缩比;典型流水线相比朴素 token 化可实现 10× token 缩减)。 |
| 语言 | 100+ 种语言 / 文字系统(产品说明中声称具备多语言覆盖能力)。 |
什么是 DeepSeek-OCR-2
DeepSeek-OCR-2 是 DeepSeek AI 推出的第二代主要 OCR/文档理解模型。它并非将 OCR 视为单纯的字符提取,而是先将视觉文档信息压缩为紧凑的视觉 token(DeepSeek 将这一过程称为 vision-text compression,或归属其 DeepEncoder 系列),然后使用一个 30 亿参数的混合专家(MoE)风格 VLM 解码器对这些 token 进行解码,同时建模文本生成与版面推理。该方法面向长上下文文档(表格、多栏布局、图表、多语言文字系统),并且相比对每个像素/patch 进行 token 化,能够减少序列长度和整体运行成本。
DeepSeek-OCR-2 的主要特性
- 类人阅读顺序与版面感知 — 学习文本的逻辑顺序(标题→段落→表格),而不是按固定网格扫描。
- 视觉-文本压缩 — 将视觉输入压缩为更短的 token 序列(典型压缩目标为 10×),使解码器能够处理长文档上下文。
- 多语言与多文字系统 — 声称支持 100+ 种语言和多种文字系统。
- 高吞吐 / 可自托管 — 设计支持本地部署推理(如 A100 示例),社区也已有 GGUF/本地构建版本的报告。
- 可微调 — 仓库和指南中包含面向领域适配(发票、科研论文、表单)的微调说明。
- 版面 + 内容输出 — 不仅输出纯文本,还提供结构化输出,以便下游 KIE/NER 和 RAG 流水线使用。
DeepSeek-OCR-2 的基准性能
- Fox 基准 / 内部指标: 在其 Fox 基准上,10× 压缩时精确匹配准确率约为 97%(该公司基准重点关注压缩条件下的文档保真度)。这是 DeepSeek 营销材料中的核心宣称之一。
- 压缩权衡: 在中等压缩(约 10×)下准确率仍然较高,但在更激进的压缩下会下降(Tom’s Hardware 总结的测试显示,在某些场景下,准确率在 20× 压缩时降至 约 60%)。这凸显了吞吐量与保真度之间的实际权衡。
- 吞吐量: 对于典型工作负载,单张 NVIDIA A100 每天可处理 约 20 万页——这在评估成本/规模与云 OCR API 的对比时很有参考价值。
使用场景与推荐部署方式
- 企业文档摄取与索引: 将大量年报、PDF 和扫描文档转换为可检索文本 + 布局元数据,用于 RAG/LLM 流水线。(DeepSeek 的吞吐量声明对于大规模场景很有吸引力。)
- 结构化表格提取 / 财务报告处理: 具备版面感知的编码器有助于保留表格单元格关系,便于下游 KIE 提取与核对。应根据数值精度需求验证压缩等级。
- 多语言档案数字化: 支持 100+ 种语言,使其适用于图书馆、政府档案或跨国文档处理。
- 本地部署、重视隐私的场景: 可自托管的 HF/GGUF 变体使数据能够保留在内部,而不是交给云服务商。
- 用于 LLM RAG 的预处理: 在上下文长度成为瓶颈时,为 RAG 摄取压缩并提取高保真文本与布局信息。
如何通过 CometAPI 访问 DeepSeek-OCR-2
第 1 步:注册 API Key
登录 cometapi.com。如果您还不是我们的用户,请先注册。登录您的 CometAPI 控制台。获取接口访问凭证 API key。在个人中心的 API token 页面点击“Add Token”,获取 token key:sk-xxxxx 并提交。

第 2 步:向 DeepSeek-OCR-2 API 发送请求
选择“deepseek-ocr-2”端点发送 API 请求,并设置请求体。请求方法和请求体可从我们网站的 API 文档获取。我们的网站还提供 Apifox 测试,方便您使用。请替换为您账户中的实际 CometAPI key。base url 为 Chat Completions。
将您的问题或请求插入 content 字段——模型将对此作出响应。处理 API 响应以获取生成的答案。
第 3 步:获取并验证结果
处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态和输出数据。