TR
在本地运行 DeepSeek V4 的务实路径,是将官方开源权重配合 vLLM 等高性能推理栈,再通过本地 OpenAI 兼容端点对外提供服务。DeepSeek 当前公开材料描述了 V4 家族中的两款模型:DeepSeek-V4-Pro(1.6T 总参数 / 49B 激活)与 DeepSeek-V4-Flash(284B 总参数 / 13B 激活),二者均支持 100 万 token 上下文与三种推理模式。vLLM 目前的本地部署示例分别面向 **8× B200/B300(Pro)**与 4× B200/B300(Flash)。如果您没有类似规格的硬件,选择托管式方案(例如 CometAPI)通常更实际。
DeepSeek AI 于 2026 年 4 月 24 日发布了 DeepSeek-V4 预览版,包含两款强力的 MoE(Mixture-of-Experts)模型:DeepSeek-V4-Pro(1.6T 总参数,49B 激活)与 DeepSeek-V4-Flash(284B 总参数,13B 激活)。两者均原生支持 100 万 token 上下文窗口——这对于长文档分析、Agent 工作流、超大代码库的编程,以及大规模 RAG(检索增强生成)而言,是一项颠覆性能力。
V4 在超过 32 万亿 token 之上训练,并采用了诸如混合 Compressed Sparse Attention(CSA)+ Heavily Compressed Attention(HCA)、流形约束超连接(mHC)与高效内存处理等架构创新。相较 V3.2,在 100 万上下文下,V4 的单 token 推理 FLOPs 可降至 27%,KV 缓存占用可降至 10%。在保持开源权重(MIT 许可)与极具性价比 API 的同时,其性能可与顶级闭源模型相匹敌。
将这些模型在本地运行,能带来无可比拟的隐私、除硬件外零持续 API 成本、离线能力与完全可定制性。然而,其规模也带来了挑战:V4-Pro 的完整权重下载超过 800GB,而推理对硬件要求同样不低,或需要激进量化。
DeepSeek V4 真的能在本地运行吗?
可以,但此处的“本地”与在笔记本上跑 7B 模型完全不是一回事。DeepSeek 自身资料与 vLLM 的支持帖子都指向大型多 GPU 系统:V4-Pro 是 1.6T 参数、49B 激活,而 V4-Flash 是 284B 总参数 / 13B 激活。vLLM 官方部署示例为 V4-Pro 准备了 8× B200/B300,为 V4-Flash 准备了 4× B200/B300。这是 DeepSeek V4 属于企业级本地部署、而非桌面随意尝试的最明确信号。
这种规模有其原因。DeepSeek 表示 V4 支持 100 万 token 上下文窗口,且技术报告称 V4-Pro 在 1M 上下文下仅需 V3.2 单 token 推理 FLOPs 的 27%,KV 缓存仅为 10%。vLLM 进一步说明,使用 bf16 KV cache 时,DeepSeek V4 在 1M 上下文下每条序列使用 9.62 GiB KV 缓存,约为对应 DeepSeek-V3.2 方案估算的 83.9 GiB 的 1/8.7。换言之,V4 相较前代有显著效率优势,但 100 万 token 仍然是一个巨大的系统工程问题。
架构对比表:DeepSeek V4 vs V3 与竞品
| 模型 | 总参数 | 激活参数 | 上下文长度 | KV 缓存效率(1M) | 约合下载量 | 推理侧重点 |
|---|---|---|---|---|---|---|
| DeepSeek-V3.2 | 671B | ~37B | 128K | 基线 | ~数百 GB | 均衡 |
| DeepSeek-V4-Flash | 284B | 13B | 1M | ~V3 的 7-10% | ~160GB | 速度与效率 |
| DeepSeek-V4-Pro | 1.6T | 49B | 1M | ~V3 的 10% | ~865GB | 最高能力 |
| Llama 4 70B(稠密) | 70B | 70B | 128K-1M+ | 更高 | 更小 | 面向消费者 |
| GPT-5.5(估计,闭源) | ~2T? | N/A | 高 | 专有 | N/A | 仅云端 |
V4 的 MoE 设计每个 token 仅激活部分参数,使实际计算量接近 13B–49B 稠密模型,同时享受更大网络带来的知识广度。
应该用哪个 Deepseek V4 模型?
对于多数本地部署,DeepSeek-V4-Flash 是更好的起点。V4-Flash 在简单的 Agent 任务上,其推理已非常接近 Pro,同时更快、更经济。
当您更看重绝对能力而非效率时使用 DeepSeek-V4-Pro。Pro 在困难推理、编程与 Agentic 任务上更强。基准数据已说明这一点:官方对比中,V4-Pro-Base 的 MMLU 为 90.1,HumanEval 为 76.8,LongBench-V2 为 51.5;V4-Flash-Base 分别为 88.7、69.5 与 44.7。两者都足够强;需要最佳结果时,Pro 会更进一步。
| 指标 | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| 总参数 | 671B | 284B | 1.6T |
| 激活参数 | 37B | 13B | 49B |
| AGIEval(EM) | 80.1 | 82.6 | 83.1 |
| MMLU-Pro(EM) | 65.5 | 68.3 | 73.5 |
| HumanEval(Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2(EM) | 40.2 | 44.7 | 51.5 |
对产品规划而言,读表即可。Flash 并非阉割版玩具,而是低成本、严肃的长上下文助手;当问题更难、更有状态、或更接近生产级知识工作流时,优先测试 Pro。
推荐本地栈
1) 用 vLLM 进行类生产级服务
当前最强的官方选择是 vLLM。vLLM 团队称其已支持 DeepSeek V4 家族,并给出了两款模型的单机启动命令。其文章将 V4 定位为面向 100 万 token 长上下文任务的模型家族,并介绍了混合 KV 缓存、内核融合与解耦式服务的实现。
对于 V4-Pro,vLLM 示例面向 8× B200 或 8× B300;对于 V4-Flash,示例面向 4× B200 或 4× B300。命令中还使用了 --kv-cache-dtype fp8、--block-size 256、--enable-expert-parallel,以及 DeepSeek 特有的解析参数,比如 --tokenizer-mode deepseek_v4、--tool-call-parser deepseek_v4 与 --reasoning-parser deepseek_v4。这套组合强烈暗示了 DeepSeek 对严肃自托管的期望姿态。
# DeepSeek-V4-Flash on a supported multi-GPU hostdocker run --gpus all \ --ipc=host -p 8000:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Flash \ --trust-remote-code \ --kv-cache-dtype fp8 \ --block-size 256 \ --enable-expert-parallel \ --data-parallel-size 4 \ --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \ --attention_config.use_fp4_indexer_cache=True \ --tokenizer-mode deepseek_v4 \ --tool-call-parser deepseek_v4 \ --enable-auto-tool-choice \ --reasoning-parser deepseek_v4
切换到 V4-Pro 时,保持相同模式,将模型改为 deepseek-ai/DeepSeek-V4-Pro,并按 vLLM 帖中的 Pro 示例调整数据并行配置。这是无需重造服务栈、本地开始测试的最简方式。
2) DeepSeek 仓库的推理辅助
Deepseek V4 不包含 Jinja 格式的聊天模板。它提供了专门的 encoding 文件夹,包含将 OpenAI 风格消息转换为模型输入串并解析输出的 Python 脚本与测试用例。页面同时提示查看 inference 文件夹以获取本地部署细节,包括权重转换与交互式聊天演示。如果您希望自建前端或严格控制提示格式,这将很有用。
3) 作为务实备选的 CometAPI
如果您没有 B200/B300 级别硬件,托管路线更理智。CometAPI 称其提供一把 API Key 通用、可访问 500+ AI 模型,且定价比官方厂商价 便宜 20–40%。其网站也提供了 DeepSeek V4 专页,包括 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash,并附有 OpenAI 兼容的集成示例。
步步为营:如何在本地运行 DeepSeek V4
1. 先决条件
- OS:建议 Linux(Ubuntu 22.04/24.04),以获得最佳 CUDA/ROCm 支持。Windows 可用 WSL2 或原生;macOS(Metal,最大模型受限)。
- 驱动:NVIDIA CUDA 12.4+(或更新);AMD GPU 使用 ROCm。
- Python 3.11+、Git,以及足够磁盘空间。
- Hugging Face 账号(如需访问门控模型):huggingface-cli login。
2. 最简方式:Ollama 或 LM Studio(对初学者友好)
Ollama 提供最简单的 CLI 与 WebUI 体验。截止 2026 年 4 月底,完整 V4 支持可能需要自定义 Modelfile 或社区标签,但 V4-Flash 的量化版本正快速涌现。
安装 Ollama(Linux/macOS):
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
运行兼容模型(从更小的开始或检查 V4 标签):
ollama pull deepseek-v4-flash:q4_0 # Example quantized tag; check ollama.com/library or community
ollama run deepseek-v4-flash:q4_0
若需自定义:创建 Modelfile(text):
FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768 # Start conservative; increase as hardware allows up to 1M with sufficient RAM/VRAM
然后执行:ollama create my-v4-flash -f Modelfile。
LM Studio:GUI 替代。下载自 lmstudio.ai,搜索/浏览 HF 上的 DeepSeek-V4 GGUF 量化版本(TheBloke 风格或官方),载入并对话。适合用可视化上下文滑块与 GPU 卸载进行实验。
Open WebUI:叠加在 Ollama 之上的 ChatGPT 风格界面(Bash):
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
3. 进阶:Hugging Face + vLLM 或 SGLang(高性能)
若追求最高速度与 1M 上下文支持,使用 vLLM(优秀的 MoE 与 PagedAttention 支持):
Step 1: 准备环境
先安装当前 vLLM 栈,并确保 CUDA、驱动与 GPU 拓扑匹配目标模型。recommending temperature = 1.0 and top_p = 1.0 for local deployment, and for Think Max it recommends a context window of at least 384K tokens. 这是构建聊天应用、编程助手或 Agent 工作流的有用起点。
安装:
Bash
pip install -U "vllm>=0.9.0" # Check latest for V4 compatibility
下载模型(大文件建议用 CLI):
Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
使用 vLLM 服务(双卡 Flash 示例):
Step 2: 启动模型服务
容器运行后,将模型以 OpenAI 兼容的本地端点暴露。这便于复用现有应用代码,并可在不改架构的情况下更换后端。
使用 vLLM 服务(双卡 Flash 示例):
Python
from vllm import LLM, SamplingParams
llm = LLM(
model="deepseek-ai/DeepSeek-V4-Flash",
tensor_parallel_size=2, # Adjust to your GPU count
max_model_len=1048576, # 1M context (hardware permitting)
dtype="auto", # or "fp8" / "bfloat16"
quantization="gptq" if using quantized weights else None,
gpu_memory_utilization=0.9
)
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)
outputs = llm.generate(["Explain the architecture of DeepSeek V4 in detail."], sampling_params)
for output in outputs:
print(output.outputs[0].text)
服务模式(OpenAI 兼容 API):
Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--port 8000
然后通过设置 base_url="http://localhost:8000/v1" 使用 OpenAI 客户端进行调用。
SGLang 作为长上下文潜在更优的替代:
Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000
Step 3: 从 Python 查询本地端点
from openai import OpenAI
# Adjust the base URL if your vLLM server is bound differently.
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "You are a precise, technical assistant."},
{"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."},
],
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
性能预期与优化建议
- Tokens/秒:在 RTX 4090 上运行 Q4 Flash:8K–32K 上下文时 15–40+ t/s(实现相关)。在 128K+ 会因注意力与 KV 下降,但 V4 的优化会有所帮助。多 GPU 在张量/流水并行下具备良好扩展性。
- 优化方向:
- 使用 FlashAttention-3 或 vLLM 的 PagedAttention。
- 推测式解码可带来 1.5–2× 加速。
- 上下文剪枝或压缩技术。
- 使用
nvidia-smi监控;利用gpu_memory_utilization。 - 对于 CPU:llama.cpp 配合
--n-gpu-layers -1(尽可能全部卸载到 GPU),或纯 CPU 配合大内存。
可用 llama-bench 或简单计时脚本对本地进行基准测试。实际吞吐取决于提示长度、生成长度与硬件。
本地 V4 部署的挑战与局限
- 资源密集:即便 Flash,在长上下文下也需要不错的硬件才能获得舒适速度。
- 量化权衡:更低比特会影响复杂任务的推理质量——请用 SWE-Bench、MMLU 或您领域的评测进行验证。
- 软件成熟度:作为 2026 年 4 月的预览版,所有后端的充分优化支持仍在推进中。请关注 vLLM、llama.cpp 与 HF 的 GitHub issues。
- 下载/存储:TB 级模型需要更快的网络与存储。
- 功耗与散热:高端平台耗电显著。
对多数用户而言,混合方案更务实:本地处理小任务,1M 上下文的重推理交给云端。
当本地不够用:与 CometAPI 的无缝集成
对很多团队来说,最明智的选择是不要强行本地化。虽然本地部署在隐私与控制上有优势,但要扩展到生产、应对峰值负载,或在不进行大规模硬件投入的情况下获得完整的非量化性能,往往更适合使用可靠的 API。
CometAPI 提供统一的、OpenAI 兼容的 DeepSeek 模型网关——包括最新的 Deeppseek V4 系列——及数十个其他头部 LLM(Claude、GPT、Llama、Qwen、Grok 等)。
API 胜过本地部署的场景
当前 Deepseek V4 模型可通过 OpenAI 风格与 Anthropic 风格端点访问,基础 URL 保持稳定,模型名可更换。文档还称 deepseek-chat 与 deepseek-reasoner 将在过渡期内逐步弃用,并映射为 V4-Flash 的行为。
这很重要,因为本地部署具有运维成本。若工作负载对数据属地不敏感,或团队更看重“价值实现速度”,API 通常更理性。V4-Flash 在缓存未命中时为每 1M 输入 token 收费 $0.14,缓存命中时每 1M 输入 token 收费 $0.0028,输出每 1M token 收费 $0.28。同期页面称 V4-Pro 在 2026 年 5 月 31 日前有 75% 折扣:缓存未命中每 1M 输入 token $0.435,输出每 1M token $0.87。
Deepseek 的最佳替代:CometAPI 的定位
当目标并非只调用一次 DeepSeek V4,而是构建可快速切换模型的技术栈时,CometAPI 很有价值。CometAPI 称其提供“一把 Key 用 500+ 模型”、OpenAI 兼容 API、使用分析,并且价格低于官方厂商。它也被定位为避免供应商锁定、在多家供应商间管理成本的手段。
因此,对于需要在 V4-Pro 与 V4-Flash 间做评估,或在同一应用中对比 DeepSeek 与其他前沿模型的团队,CometAPI 是强推荐。应用仅需保持稳定的 OpenAI 风格客户端,只切换 model 值与 base URL 即可。CometAPI 的 V4 指南正是这种模式。
使用 CometAPI 快速开始 DeepSeek V4:
- 使用 OpenAI SDK:
- 在 CometAPI.com 注册/登录。
- 在控制台生成 API Key。
下面是相同集成模式的托管版本:
from openai import OpenAIclient = OpenAI( base_url="https://api.cometapi.com", api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create( model="deepseek-v4-pro", messages=[ {"role": "system", "content": "You are a senior coding assistant."}, {"role": "user", "content": "Review this architecture for bottlenecks."} ], stream=False, extra_body={ "thinking": {"type": "enabled"}, "reasoning_effort": "high" })print(response.choices[0].message.content)
其价值在于运维,而非口号:它去除了基础设施工作,让客户端代码更可移植,并为团队提供一个统一位置来测试成本、时延与质量。CometAPI 还称其可跟踪支出、时延与调用量,这些在原型转生产后非常有用。
何时选择本地、官方 API,或 CometAPI
| 部署路径 | 最佳场景 | 为什么合理 | 权衡 |
|---|---|---|---|
| 本地多 GPU | 私有工作负载、科研、离线实验 | 完整控制、开源权重、官方推理工作流、MIT 许可 | 高 GPU 要求与更多运维工作 |
| 官方 DeepSeek API | 最快的直接访问 | 稳定基础 URL,OpenAI/Anthropic 兼容,无需自建与运维 | 依赖供应商与基于 token 的成本 |
| CometAPI | 多模型产品团队 | 一把 Key、OpenAI 兼容路由、更低价格主张、使用分析 | 技术栈中引入一层抽象 |
当控制力重于便利性,选择本地;当速度与简易重于所有权,选择 API;当希望在可移植与成本控制间折中、又不想每换模型就重搭集成时,选择 CometAPI。
常见问题(FAQ)
DeepSeek V4 能在笔记本上运行吗?
不符合大多数“本地推理教程”所暗示的现实意义。官方资料指向多 GPU/多节点部署,模型规模远超普通消费级内存预算。笔记本适合通过 API 访问,但不适合有意义地自托管 V4-Pro,甚至舒适地运行 V4-Flash。
哪个更好:V4-Pro 还是 V4-Flash?
V4-Pro 在推理、编程与研究上更强;V4-Flash 在速度、吞吐与成本上更优,适合作为默认。官方发布与基准表印证了同一结论。
本地部署是否必须使用 CometAPI?
不必。它是可选的生产层。DeepSeek 自有 API 可直接使用,也可以通过官方推理路径自托管。当您需要统一代码路径涵盖多家供应商、进行成本跟踪、并更轻松地在模型家族间切换时,CometAPI 才显得有吸引力。
结论
DeepSeek V4 并非“又一款模型发布”,而是长上下文、面向 Agent 的系统,提供开源权重、官方 API 访问,并清晰区分高端推理型号与低成本吞吐型号。最新官方信息改变了决策树:本地部署可行,但更适合拥有严肃 GPU 基础设施的团队;API 可立即使用;当可移植与成本纪律比自持推理栈更重要时,CometAPI 是合理推荐。
若工作负载复杂且硬件到位,先用 V4-Pro;若侧重体量与吞吐,先用 V4-Flash;若目标是快速上线并保持模型选择弹性,走 API 路线,保持代码可移植。这是当前最稳妥的生产策略。
可执行的下一步:
- 评估硬件,先用 Ollama 或 LM Studio 跑量化版 V4-Flash。
- 按上述代码示例进行实验,并基于您的工作负载进行基准测试。
- 在发布后关注 GGUF 量化与社区优化的成熟度。
- 对生产或重负载场景,集成 CometAPI,以在无需管理硬件的情况下,以可靠、具成本效益的方式访问完整 V4-Pro/Flash。
