技术规格
| 项目 | DeepSeek-V4-Pro |
|---|---|
| 提供方 | DeepSeek |
| API 模型名称 | deepseek-v4-pro |
| 基础 URL | https://api.deepseek.com 和 https://api.deepseek.com/anthropic |
| 输入类型 | 文本 |
| 输出类型 | 文本、工具调用、推理输出 |
| 上下文长度 | 1,000,000 tokens |
| 最大输出 | 384,000 tokens |
| 推理模式 | 非思考、思考(默认) |
| Agent/编码默认设置 | reasoning_effort 可设为 high;复杂 Agent 请求可能使用 max |
| 支持的特性 | JSON Output, Tool Calls, Chat Prefix Completion (beta), FIM Completion (beta in non-thinking mode) |
| 本地/开源权重发布 | 总参数 1.6T,激活参数 49B,FP4 + FP8 混合精度 |
| 许可证(模型卡) | MIT |
| 参考模型卡 | Hugging Face 上的 DeepSeek-V4-Pro 预览 |
什么是 DeepSeek-V4-Pro?
DeepSeek-V4-Pro 是 DeepSeek 的 V4 预览家族中更强的一员。官方模型卡将其描述为一款 1.6T 参数的 MoE 模型,激活参数为 49B,提供一百万 token 的上下文窗口,面向长周期知识工作、代码生成与 Agent 任务。API 文档通过标准的 DeepSeek 聊天补全接口公开,且同时支持 OpenAI 与 Anthropic SDK 风格。
主要特性
- 百万 token 上下文:DeepSeek 文档记录了 1M-token 的上下文长度,适用于超大文档集、代码仓库以及多步 Agent 会话。
- 两种推理模式:API 支持非思考与思考模式;默认启用思考模式。文档指出,诸如 Claude Code 或 OpenCode 等复杂的 Agent 请求可能会自动使用
max努力。 - 支持工具调用:DeepSeek 的思考模式支持工具调用,这对需要搜索、文件操作或外部函数的 Agent 十分重要。
- 长上下文效率:模型卡称 V4 采用由 Compressed Sparse Attention 与 Heavily Compressed Attention 组成的混合注意力设计,相较于 V3.2 降低了长上下文计算与 KV 缓存成本。 citeturn980363view2
- 编码与推理重点:DeepSeek 表示 V4-Pro-Max 推理模式在编程基准上有所进步,并在推理与 Agent 任务上大幅缩小了与领先闭源模型的差距。 citeturn980363view2
- SDK 灵活性:既可通过兼容 OpenAI 的标准聊天补全,也可通过 DeepSeek 的 Anthropic 兼容端点,满足面向工具的工作流需求。
基准表现
官方 DeepSeek 模型卡报告了基础模型系列以及 V4-Pro-Max 对比集的如下评测结果。在基础模型表中,V4-Pro 在多项知识与长上下文基准上优于 V3.2-Base,包括 MMLU-Pro(73.5 vs. 65.5)、FACTS Parametric(62.6 vs. 27.1)与 LongBench-V2(51.5 vs. 40.2)。
| 基准 | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
同一模型卡还显示,V4-Pro-Max 在选定任务上依然与顶级前沿模型保持竞争力。例如,它在 MMLU-Pro 上取得 87.5、在 SimpleQA-Verified 上取得 57.9、在 GPQA Diamond 上取得 90.1、在 Terminal Bench 2.0 上取得 67.9。
DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2
| 模型 | 最佳适配 | 上下文 | 备注 |
|---|---|---|---|
| DeepSeek-V4-Pro | 重度推理、编码、Agent、超大文档 | 1M | V4 系列中最大模型,激活参数 49B,整体能力最强。 citeturn980363view2turn980363view0 |
| DeepSeek-V4-Flash | 更快、更轻的一般用途 | 1M | 更小的 284B/13B 模型,仍支持思考与工具调用。 citeturn980363view2turn980363view0 |
| DeepSeek-V3.2 | 上一代长上下文基线 | 早期 API 文档为 128K;V4 采用不同的 1M 上下文设计 | 可作为效率提升的参考点;V4-Pro 的模型卡报告相较 V3.2 在长上下文 FLOPs 与 KV 缓存上有显著降低。 citeturn321011view1turn980363view2 |
最佳使用场景
- 以代码仓为尺度的编程助手与重构工具
- 长文档分析与综合
- 需要多轮推理的工具型 Agent
- 受益于长记忆与结构化输出的技术支持工作流
- 模型卡显示表现突出的中文与多语种知识任务
如何访问和使用 Deepseek v4 pro API
步骤 1:申请 API Key
登录 cometapi.com。若尚未成为我们的用户,请先注册。登录您的 CometAPI console。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌 key:sk-xxxxx 并提交。
步骤 2:向 Deepseek v4 pro API 发送请求
选择“deepseek-v4-pro”端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档中获取。我们的网站也提供 Apifox 测试以便使用。将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI key。在哪里调用: Anthropic Messages 格式和 Chat 格式。
将您的问题或请求插入到 content 字段中——模型将对此作出响应。处理 API 响应以获取生成的答案。
步骤 3:检索并验证结果
处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。可通过标准参数启用流式、提示缓存或长上下文处理等功能。