如何在本地运行 DeepSeek V4

CometAPI
AnnaApr 30, 2026
如何在本地运行 DeepSeek V4

TR

在本地运行 DeepSeek V4 的务实路径,是将官方开源权重配合 vLLM 等高性能推理栈,再通过本地 OpenAI 兼容端点对外提供服务。DeepSeek 当前公开材料描述了 V4 家族中的两款模型:DeepSeek-V4-Pro1.6T 总参数 / 49B 激活)与 DeepSeek-V4-Flash284B 总参数 / 13B 激活),二者均支持 100 万 token 上下文与三种推理模式。vLLM 目前的本地部署示例分别面向 **8× B200/B300(Pro)**与 4× B200/B300(Flash)。如果您没有类似规格的硬件,选择托管式方案(例如 CometAPI)通常更实际。

DeepSeek AI 于 2026 年 4 月 24 日发布了 DeepSeek-V4 预览版,包含两款强力的 MoE(Mixture-of-Experts)模型:DeepSeek-V4-Pro(1.6T 总参数,49B 激活)与 DeepSeek-V4-Flash(284B 总参数,13B 激活)。两者均原生支持 100 万 token 上下文窗口——这对于长文档分析、Agent 工作流、超大代码库的编程,以及大规模 RAG(检索增强生成)而言,是一项颠覆性能力。

V4 在超过 32 万亿 token 之上训练,并采用了诸如混合 Compressed Sparse Attention(CSA)+ Heavily Compressed Attention(HCA)、流形约束超连接(mHC)与高效内存处理等架构创新。相较 V3.2,在 100 万上下文下,V4 的单 token 推理 FLOPs 可降至 27%,KV 缓存占用可降至 10%。在保持开源权重(MIT 许可)与极具性价比 API 的同时,其性能可与顶级闭源模型相匹敌。

将这些模型在本地运行,能带来无可比拟的隐私、除硬件外零持续 API 成本、离线能力与完全可定制性。然而,其规模也带来了挑战:V4-Pro 的完整权重下载超过 800GB,而推理对硬件要求同样不低,或需要激进量化。

DeepSeek V4 真的能在本地运行吗?

可以,但此处的“本地”与在笔记本上跑 7B 模型完全不是一回事。DeepSeek 自身资料与 vLLM 的支持帖子都指向大型多 GPU 系统:V4-Pro1.6T 参数49B 激活,而 V4-Flash284B 总参数 / 13B 激活。vLLM 官方部署示例为 V4-Pro 准备了 8× B200/B300,为 V4-Flash 准备了 4× B200/B300。这是 DeepSeek V4 属于企业级本地部署、而非桌面随意尝试的最明确信号。

这种规模有其原因。DeepSeek 表示 V4 支持 100 万 token 上下文窗口,且技术报告称 V4-Pro 在 1M 上下文下仅需 V3.2 单 token 推理 FLOPs 的 27%KV 缓存仅为 10%。vLLM 进一步说明,使用 bf16 KV cache 时,DeepSeek V4 在 1M 上下文下每条序列使用 9.62 GiB KV 缓存,约为对应 DeepSeek-V3.2 方案估算的 83.9 GiB1/8.7。换言之,V4 相较前代有显著效率优势,但 100 万 token 仍然是一个巨大的系统工程问题。

架构对比表:DeepSeek V4 vs V3 与竞品

模型总参数激活参数上下文长度KV 缓存效率(1M)约合下载量推理侧重点
DeepSeek-V3.2671B~37B128K基线~数百 GB均衡
DeepSeek-V4-Flash284B13B1M~V3 的 7-10%~160GB速度与效率
DeepSeek-V4-Pro1.6T49B1M~V3 的 10%~865GB最高能力
Llama 4 70B(稠密)70B70B128K-1M+更高更小面向消费者
GPT-5.5(估计,闭源)~2T?N/A专有N/A仅云端

V4 的 MoE 设计每个 token 仅激活部分参数,使实际计算量接近 13B–49B 稠密模型,同时享受更大网络带来的知识广度。

应该用哪个 Deepseek V4 模型?

对于多数本地部署,DeepSeek-V4-Flash 是更好的起点。V4-Flash 在简单的 Agent 任务上,其推理已非常接近 Pro,同时更快、更经济。

当您更看重绝对能力而非效率时使用 DeepSeek-V4-Pro。Pro 在困难推理、编程与 Agentic 任务上更强。基准数据已说明这一点:官方对比中,V4-Pro-Base 的 MMLU 为 90.1,HumanEval 为 76.8,LongBench-V2 为 51.5;V4-Flash-Base 分别为 88.7、69.5 与 44.7。两者都足够强;需要最佳结果时,Pro 会更进一步。

指标DeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
总参数671B284B1.6T
激活参数37B13B49B
AGIEval(EM)80.182.683.1
MMLU-Pro(EM)65.568.373.5
HumanEval(Pass@1)62.869.576.8
LongBench-V2(EM)40.244.751.5

对产品规划而言,读表即可。Flash 并非阉割版玩具,而是低成本、严肃的长上下文助手;当问题更难、更有状态、或更接近生产级知识工作流时,优先测试 Pro。

推荐本地栈

1) 用 vLLM 进行类生产级服务

当前最强的官方选择是 vLLM。vLLM 团队称其已支持 DeepSeek V4 家族,并给出了两款模型的单机启动命令。其文章将 V4 定位为面向 100 万 token 长上下文任务的模型家族,并介绍了混合 KV 缓存、内核融合与解耦式服务的实现。

对于 V4-Pro,vLLM 示例面向 8× B200 或 8× B300;对于 V4-Flash,示例面向 4× B200 或 4× B300。命令中还使用了 --kv-cache-dtype fp8--block-size 256--enable-expert-parallel,以及 DeepSeek 特有的解析参数,比如 --tokenizer-mode deepseek_v4--tool-call-parser deepseek_v4--reasoning-parser deepseek_v4。这套组合强烈暗示了 DeepSeek 对严肃自托管的期望姿态。

# DeepSeek-V4-Flash on a supported multi-GPU hostdocker run --gpus all \  --ipc=host -p 8000:8000 \  -v ~/.cache/huggingface:/root/.cache/huggingface \  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Flash \  --trust-remote-code \  --kv-cache-dtype fp8 \  --block-size 256 \  --enable-expert-parallel \  --data-parallel-size 4 \  --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \  --attention_config.use_fp4_indexer_cache=True \  --tokenizer-mode deepseek_v4 \  --tool-call-parser deepseek_v4 \  --enable-auto-tool-choice \  --reasoning-parser deepseek_v4

切换到 V4-Pro 时,保持相同模式,将模型改为 deepseek-ai/DeepSeek-V4-Pro,并按 vLLM 帖中的 Pro 示例调整数据并行配置。这是无需重造服务栈、本地开始测试的最简方式。

2) DeepSeek 仓库的推理辅助

Deepseek V4 不包含 Jinja 格式的聊天模板。它提供了专门的 encoding 文件夹,包含将 OpenAI 风格消息转换为模型输入串并解析输出的 Python 脚本与测试用例。页面同时提示查看 inference 文件夹以获取本地部署细节,包括权重转换与交互式聊天演示。如果您希望自建前端或严格控制提示格式,这将很有用。

3) 作为务实备选的 CometAPI

如果您没有 B200/B300 级别硬件,托管路线更理智。CometAPI 称其提供一把 API Key 通用、可访问 500+ AI 模型,且定价比官方厂商价 便宜 20–40%。其网站也提供了 DeepSeek V4 专页,包括 DeepSeek-V4-ProDeepSeek-V4-Flash,并附有 OpenAI 兼容的集成示例。

步步为营:如何在本地运行 DeepSeek V4

1. 先决条件

  • OS:建议 Linux(Ubuntu 22.04/24.04),以获得最佳 CUDA/ROCm 支持。Windows 可用 WSL2 或原生;macOS(Metal,最大模型受限)。
  • 驱动:NVIDIA CUDA 12.4+(或更新);AMD GPU 使用 ROCm。
  • Python 3.11+、Git,以及足够磁盘空间。
  • Hugging Face 账号(如需访问门控模型):huggingface-cli login。

2. 最简方式:Ollama 或 LM Studio(对初学者友好)

Ollama 提供最简单的 CLI 与 WebUI 体验。截止 2026 年 4 月底,完整 V4 支持可能需要自定义 Modelfile 或社区标签,但 V4-Flash 的量化版本正快速涌现。

安装 Ollama(Linux/macOS):

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

运行兼容模型(从更小的开始或检查 V4 标签):

ollama pull deepseek-v4-flash:q4_0   # Example quantized tag; check ollama.com/library or community
ollama run deepseek-v4-flash:q4_0

若需自定义:创建 Modelfile(text):

FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768  # Start conservative; increase as hardware allows up to 1M with sufficient RAM/VRAM

然后执行:ollama create my-v4-flash -f Modelfile。

LM Studio:GUI 替代。下载自 lmstudio.ai,搜索/浏览 HF 上的 DeepSeek-V4 GGUF 量化版本(TheBloke 风格或官方),载入并对话。适合用可视化上下文滑块与 GPU 卸载进行实验。

Open WebUI:叠加在 Ollama 之上的 ChatGPT 风格界面(Bash):

docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问 http://localhost:8080。

3. 进阶:Hugging Face + vLLM 或 SGLang(高性能)

若追求最高速度与 1M 上下文支持,使用 vLLM(优秀的 MoE 与 PagedAttention 支持):

Step 1: 准备环境

先安装当前 vLLM 栈,并确保 CUDA、驱动与 GPU 拓扑匹配目标模型。recommending temperature = 1.0 and top_p = 1.0 for local deployment, and for Think Max it recommends a context window of at least 384K tokens. 这是构建聊天应用、编程助手或 Agent 工作流的有用起点。

安装

Bash
pip install -U "vllm>=0.9.0"  # Check latest for V4 compatibility

下载模型(大文件建议用 CLI):

Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

使用 vLLM 服务(双卡 Flash 示例):

Step 2: 启动模型服务

容器运行后,将模型以 OpenAI 兼容的本地端点暴露。这便于复用现有应用代码,并可在不改架构的情况下更换后端。

使用 vLLM 服务(双卡 Flash 示例):

Python
from vllm import LLM, SamplingParams

llm = LLM(
    model="deepseek-ai/DeepSeek-V4-Flash",
    tensor_parallel_size=2,      # Adjust to your GPU count
    max_model_len=1048576,       # 1M context (hardware permitting)
    dtype="auto",                # or "fp8" / "bfloat16"
    quantization="gptq" if using quantized weights else None,
    gpu_memory_utilization=0.9
)

sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)

outputs = llm.generate(["Explain the architecture of DeepSeek V4 in detail."], sampling_params)
for output in outputs:
    print(output.outputs[0].text)

服务模式(OpenAI 兼容 API):

Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --port 8000

然后通过设置 base_url="http://localhost:8000/v1" 使用 OpenAI 客户端进行调用。

SGLang 作为长上下文潜在更优的替代:

Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000

Step 3: 从 Python 查询本地端点

from openai import OpenAI
# Adjust the base URL if your vLLM server is bound differently.

client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)

response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "You are a precise, technical assistant."},
{"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."},
],
temperature=1.0,
top_p=1.0,
)

print(response.choices[0].message.content)

性能预期与优化建议

  • Tokens/秒:在 RTX 4090 上运行 Q4 Flash:8K–32K 上下文时 15–40+ t/s(实现相关)。在 128K+ 会因注意力与 KV 下降,但 V4 的优化会有所帮助。多 GPU 在张量/流水并行下具备良好扩展性。
  • 优化方向
  • 使用 FlashAttention-3 或 vLLM 的 PagedAttention。
  • 推测式解码可带来 1.5–2× 加速。
  • 上下文剪枝或压缩技术。
  • 使用 nvidia-smi 监控;利用 gpu_memory_utilization
  • 对于 CPU:llama.cpp 配合 --n-gpu-layers -1(尽可能全部卸载到 GPU),或纯 CPU 配合大内存。

可用 llama-bench 或简单计时脚本对本地进行基准测试。实际吞吐取决于提示长度、生成长度与硬件。

本地 V4 部署的挑战与局限

  • 资源密集:即便 Flash,在长上下文下也需要不错的硬件才能获得舒适速度。
  • 量化权衡:更低比特会影响复杂任务的推理质量——请用 SWE-Bench、MMLU 或您领域的评测进行验证。
  • 软件成熟度:作为 2026 年 4 月的预览版,所有后端的充分优化支持仍在推进中。请关注 vLLM、llama.cpp 与 HF 的 GitHub issues。
  • 下载/存储:TB 级模型需要更快的网络与存储。
  • 功耗与散热:高端平台耗电显著。

对多数用户而言,混合方案更务实:本地处理小任务,1M 上下文的重推理交给云端。

当本地不够用:与 CometAPI 的无缝集成

对很多团队来说,最明智的选择是不要强行本地化。虽然本地部署在隐私与控制上有优势,但要扩展到生产、应对峰值负载,或在不进行大规模硬件投入的情况下获得完整的非量化性能,往往更适合使用可靠的 API。

CometAPI 提供统一的、OpenAI 兼容的 DeepSeek 模型网关——包括最新的 Deeppseek V4 系列——及数十个其他头部 LLM(Claude、GPT、Llama、Qwen、Grok 等)。

API 胜过本地部署的场景

当前 Deepseek V4 模型可通过 OpenAI 风格与 Anthropic 风格端点访问,基础 URL 保持稳定,模型名可更换。文档还称 deepseek-chatdeepseek-reasoner 将在过渡期内逐步弃用,并映射为 V4-Flash 的行为。

这很重要,因为本地部署具有运维成本。若工作负载对数据属地不敏感,或团队更看重“价值实现速度”,API 通常更理性。V4-Flash 在缓存未命中时为每 1M 输入 token 收费 $0.14,缓存命中时每 1M 输入 token 收费 $0.0028,输出每 1M token 收费 $0.28。同期页面称 V4-Pro 在 2026 年 5 月 31 日前有 75% 折扣:缓存未命中每 1M 输入 token $0.435,输出每 1M token $0.87。

Deepseek 的最佳替代:CometAPI 的定位

当目标并非只调用一次 DeepSeek V4,而是构建可快速切换模型的技术栈时,CometAPI 很有价值。CometAPI 称其提供“一把 Key 用 500+ 模型”、OpenAI 兼容 API、使用分析,并且价格低于官方厂商。它也被定位为避免供应商锁定、在多家供应商间管理成本的手段。

因此,对于需要在 V4-Pro 与 V4-Flash 间做评估,或在同一应用中对比 DeepSeek 与其他前沿模型的团队,CometAPI 是强推荐。应用仅需保持稳定的 OpenAI 风格客户端,只切换 model 值与 base URL 即可。CometAPI 的 V4 指南正是这种模式。

使用 CometAPI 快速开始 DeepSeek V4

  • 使用 OpenAI SDK:
  • CometAPI.com 注册/登录。
  • 在控制台生成 API Key。

下面是相同集成模式的托管版本:

from openai import OpenAIclient = OpenAI(    base_url="https://api.cometapi.com",    api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create(    model="deepseek-v4-pro",    messages=[        {"role": "system", "content": "You are a senior coding assistant."},        {"role": "user", "content": "Review this architecture for bottlenecks."}    ],    stream=False,    extra_body={        "thinking": {"type": "enabled"},        "reasoning_effort": "high"    })print(response.choices[0].message.content)

其价值在于运维,而非口号:它去除了基础设施工作,让客户端代码更可移植,并为团队提供一个统一位置来测试成本、时延与质量。CometAPI 还称其可跟踪支出、时延与调用量,这些在原型转生产后非常有用。

何时选择本地、官方 API,或 CometAPI

部署路径最佳场景为什么合理权衡
本地多 GPU私有工作负载、科研、离线实验完整控制、开源权重、官方推理工作流、MIT 许可高 GPU 要求与更多运维工作
官方 DeepSeek API最快的直接访问稳定基础 URL,OpenAI/Anthropic 兼容,无需自建与运维依赖供应商与基于 token 的成本
CometAPI多模型产品团队一把 Key、OpenAI 兼容路由、更低价格主张、使用分析技术栈中引入一层抽象

当控制力重于便利性,选择本地;当速度与简易重于所有权,选择 API;当希望在可移植与成本控制间折中、又不想每换模型就重搭集成时,选择 CometAPI。

常见问题(FAQ)

DeepSeek V4 能在笔记本上运行吗?

不符合大多数“本地推理教程”所暗示的现实意义。官方资料指向多 GPU/多节点部署,模型规模远超普通消费级内存预算。笔记本适合通过 API 访问,但不适合有意义地自托管 V4-Pro,甚至舒适地运行 V4-Flash。

哪个更好:V4-Pro 还是 V4-Flash?

V4-Pro 在推理、编程与研究上更强;V4-Flash 在速度、吞吐与成本上更优,适合作为默认。官方发布与基准表印证了同一结论。

本地部署是否必须使用 CometAPI?

不必。它是可选的生产层。DeepSeek 自有 API 可直接使用,也可以通过官方推理路径自托管。当您需要统一代码路径涵盖多家供应商、进行成本跟踪、并更轻松地在模型家族间切换时,CometAPI 才显得有吸引力。

结论

DeepSeek V4 并非“又一款模型发布”,而是长上下文、面向 Agent 的系统,提供开源权重、官方 API 访问,并清晰区分高端推理型号与低成本吞吐型号。最新官方信息改变了决策树:本地部署可行,但更适合拥有严肃 GPU 基础设施的团队;API 可立即使用;当可移植与成本纪律比自持推理栈更重要时,CometAPI 是合理推荐。

若工作负载复杂且硬件到位,先用 V4-Pro;若侧重体量与吞吐,先用 V4-Flash;若目标是快速上线并保持模型选择弹性,走 API 路线,保持代码可移植。这是当前最稳妥的生产策略。

可执行的下一步

  1. 评估硬件,先用 Ollama 或 LM Studio 跑量化版 V4-Flash。
  2. 按上述代码示例进行实验,并基于您的工作负载进行基准测试。
  3. 在发布后关注 GGUF 量化与社区优化的成熟度。
  4. 对生产或重负载场景,集成 CometAPI,以在无需管理硬件的情况下,以可靠、具成本效益的方式访问完整 V4-Pro/Flash。

准备好将AI开发成本降低20%了吗?

几分钟内免费开始。包含免费试用额度。无需信用卡。

阅读更多