如何在本地运行 DeepSeek V4

TR

在本地运行 DeepSeek V4 的务实路径，是将官方开源权重配合 vLLM 等高性能推理栈，再通过本地 OpenAI 兼容端点对外提供服务。DeepSeek 当前公开材料描述了 V4 家族中的两款模型：DeepSeek-V4-Pro（1.6T 总参数 / 49B 激活）与 DeepSeek-V4-Flash（284B 总参数 / 13B 激活），二者均支持 100 万 token 上下文与三种推理模式。vLLM 目前的本地部署示例分别面向 **8× B200/B300（Pro）**与 4× B200/B300（Flash）。如果您没有类似规格的硬件，选择托管式方案（例如 CometAPI）通常更实际。

DeepSeek AI 于 2026 年 4 月 24 日发布了 DeepSeek-V4 预览版，包含两款强力的 MoE（Mixture-of-Experts）模型：DeepSeek-V4-Pro（1.6T 总参数，49B 激活）与 DeepSeek-V4-Flash（284B 总参数，13B 激活）。两者均原生支持 100 万 token 上下文窗口——这对于长文档分析、Agent 工作流、超大代码库的编程，以及大规模 RAG（检索增强生成）而言，是一项颠覆性能力。

V4 在超过 32 万亿 token 之上训练，并采用了诸如混合 Compressed Sparse Attention（CSA）+ Heavily Compressed Attention（HCA）、流形约束超连接（mHC）与高效内存处理等架构创新。相较 V3.2，在 100 万上下文下，V4 的单 token 推理 FLOPs 可降至 27%，KV 缓存占用可降至 10%。在保持开源权重（MIT 许可）与极具性价比 API 的同时，其性能可与顶级闭源模型相匹敌。

将这些模型在本地运行，能带来无可比拟的隐私、除硬件外零持续 API 成本、离线能力与完全可定制性。然而，其规模也带来了挑战：V4-Pro 的完整权重下载超过 800GB，而推理对硬件要求同样不低，或需要激进量化。

DeepSeek V4 真的能在本地运行吗？

可以，但此处的“本地”与在笔记本上跑 7B 模型完全不是一回事。DeepSeek 自身资料与 vLLM 的支持帖子都指向大型多 GPU 系统：V4-Pro 是 1.6T 参数、49B 激活，而 V4-Flash 是 284B 总参数 / 13B 激活。vLLM 官方部署示例为 V4-Pro 准备了 8× B200/B300，为 V4-Flash 准备了 4× B200/B300。这是 DeepSeek V4 属于企业级本地部署、而非桌面随意尝试的最明确信号。

这种规模有其原因。DeepSeek 表示 V4 支持 100 万 token 上下文窗口，且技术报告称 V4-Pro 在 1M 上下文下仅需 V3.2 单 token 推理 FLOPs 的 27%，KV 缓存仅为 10%。vLLM 进一步说明，使用 bf16 KV cache 时，DeepSeek V4 在 1M 上下文下每条序列使用 9.62 GiB KV 缓存，约为对应 DeepSeek-V3.2 方案估算的 83.9 GiB 的 1/8.7。换言之，V4 相较前代有显著效率优势，但 100 万 token 仍然是一个巨大的系统工程问题。

架构对比表：DeepSeek V4 vs V3 与竞品

模型	总参数	激活参数	上下文长度	KV 缓存效率（1M）	约合下载量	推理侧重点
DeepSeek-V3.2	671B	~37B	128K	基线	~数百 GB	均衡
DeepSeek-V4-Flash	284B	13B	1M	~V3 的 7-10%	~160GB	速度与效率
DeepSeek-V4-Pro	1.6T	49B	1M	~V3 的 10%	~865GB	最高能力
Llama 4 70B（稠密）	70B	70B	128K-1M+	更高	更小	面向消费者
GPT-5.5（估计，闭源）	~2T?	N/A	高	专有	N/A	仅云端

V4 的 MoE 设计每个 token 仅激活部分参数，使实际计算量接近 13B–49B 稠密模型，同时享受更大网络带来的知识广度。

应该用哪个 Deepseek V4 模型？

对于多数本地部署，DeepSeek-V4-Flash 是更好的起点。V4-Flash 在简单的 Agent 任务上，其推理已非常接近 Pro，同时更快、更经济。

当您更看重绝对能力而非效率时使用 DeepSeek-V4-Pro。Pro 在困难推理、编程与 Agentic 任务上更强。基准数据已说明这一点：官方对比中，V4-Pro-Base 的 MMLU 为 90.1，HumanEval 为 76.8，LongBench-V2 为 51.5；V4-Flash-Base 分别为 88.7、69.5 与 44.7。两者都足够强；需要最佳结果时，Pro 会更进一步。

指标	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
总参数	671B	284B	1.6T
激活参数	37B	13B	49B
AGIEval（EM）	80.1	82.6	83.1
MMLU-Pro（EM）	65.5	68.3	73.5
HumanEval（Pass@1）	62.8	69.5	76.8
LongBench-V2（EM）	40.2	44.7	51.5

对产品规划而言，读表即可。Flash 并非阉割版玩具，而是低成本、严肃的长上下文助手；当问题更难、更有状态、或更接近生产级知识工作流时，优先测试 Pro。

步步为营：如何在本地运行 DeepSeek V4

1. 先决条件

OS：建议 Linux（Ubuntu 22.04/24.04），以获得最佳 CUDA/ROCm 支持。Windows 可用 WSL2 或原生；macOS（Metal，最大模型受限）。
驱动：NVIDIA CUDA 12.4+（或更新）；AMD GPU 使用 ROCm。
Python 3.11+、Git，以及足够磁盘空间。
Hugging Face 账号（如需访问门控模型）：huggingface-cli login。

2. 最简方式：Ollama 或 LM Studio（对初学者友好）

Ollama 提供最简单的 CLI 与 WebUI 体验。截止 2026 年 4 月底，完整 V4 支持可能需要自定义 Modelfile 或社区标签，但 V4-Flash 的量化版本正快速涌现。

安装 Ollama（Linux/macOS）：

curl -fsSL https://ollama.com/install.sh | sh
ollama --version

运行兼容模型（从更小的开始或检查 V4 标签）：

ollama pull deepseek-v4-flash:q4_0   # Example quantized tag; check ollama.com/library or community
ollama run deepseek-v4-flash:q4_0

若需自定义：创建 Modelfile（text）：

FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768  # Start conservative; increase as hardware allows up to 1M with sufficient RAM/VRAM

然后执行：ollama create my-v4-flash -f Modelfile。

LM Studio：GUI 替代。下载自 lmstudio.ai，搜索/浏览 HF 上的 DeepSeek-V4 GGUF 量化版本（TheBloke 风格或官方），载入并对话。适合用可视化上下文滑块与 GPU 卸载进行实验。

Open WebUI：叠加在 Ollama 之上的 ChatGPT 风格界面（Bash）：

docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问 http://localhost:8080。

3. 进阶：Hugging Face + vLLM 或 SGLang（高性能）

若追求最高速度与 1M 上下文支持，使用 vLLM（优秀的 MoE 与 PagedAttention 支持）：

Step 1：准备环境

先安装当前 vLLM 栈，并确保 CUDA、驱动与 GPU 拓扑匹配目标模型。recommending temperature = 1.0 and top_p = 1.0 for local deployment, and for Think Max it recommends a context window of at least 384K tokens. 这是构建聊天应用、编程助手或 Agent 工作流的有用起点。

安装：

Bash
pip install -U "vllm>=0.9.0"  # Check latest for V4 compatibility

下载模型（大文件建议用 CLI）：

Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

使用 vLLM 服务（双卡 Flash 示例）：

Step 2：启动模型服务

容器运行后，将模型以 OpenAI 兼容的本地端点暴露。这便于复用现有应用代码，并可在不改架构的情况下更换后端。

使用 vLLM 服务（双卡 Flash 示例）：

Python
from vllm import LLM, SamplingParams

llm = LLM(
    model="deepseek-ai/DeepSeek-V4-Flash",
    tensor_parallel_size=2,      # Adjust to your GPU count
    max_model_len=1048576,       # 1M context (hardware permitting)
    dtype="auto",                # or "fp8" / "bfloat16"
    quantization="gptq" if using quantized weights else None,
    gpu_memory_utilization=0.9
)

sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)

outputs = llm.generate(["Explain the architecture of DeepSeek V4 in detail."], sampling_params)
for output in outputs:
    print(output.outputs[0].text)

服务模式（OpenAI 兼容 API）：

Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --port 8000

然后通过设置 base_url="http://localhost:8000/v1" 使用 OpenAI 客户端进行调用。

SGLang 作为长上下文潜在更优的替代：

Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000

Step 3：从 Python 查询本地端点

from openai import OpenAI
# Adjust the base URL if your vLLM server is bound differently.

client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)

response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "You are a precise, technical assistant."},
{"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."},
],
temperature=1.0,
top_p=1.0,
)

print(response.choices[0].message.content)

性能预期与优化建议

Tokens/秒：在 RTX 4090 上运行 Q4 Flash：8K–32K 上下文时 15–40+ t/s（实现相关）。在 128K+ 会因注意力与 KV 下降，但 V4 的优化会有所帮助。多 GPU 在张量/流水并行下具备良好扩展性。
优化方向：
使用 FlashAttention-3 或 vLLM 的 PagedAttention。
推测式解码可带来 1.5–2× 加速。
上下文剪枝或压缩技术。
使用 nvidia-smi 监控；利用 gpu_memory_utilization。
对于 CPU：llama.cpp 配合 --n-gpu-layers -1（尽可能全部卸载到 GPU），或纯 CPU 配合大内存。

可用 llama-bench 或简单计时脚本对本地进行基准测试。实际吞吐取决于提示长度、生成长度与硬件。

本地 V4 部署的挑战与局限

资源密集：即便 Flash，在长上下文下也需要不错的硬件才能获得舒适速度。
量化权衡：更低比特会影响复杂任务的推理质量——请用 SWE-Bench、MMLU 或您领域的评测进行验证。
软件成熟度：作为 2026 年 4 月的预览版，所有后端的充分优化支持仍在推进中。请关注 vLLM、llama.cpp 与 HF 的 GitHub issues。
下载/存储：TB 级模型需要更快的网络与存储。
功耗与散热：高端平台耗电显著。

对多数用户而言，混合方案更务实：本地处理小任务，1M 上下文的重推理交给云端。

当本地不够用：与 CometAPI 的无缝集成

对很多团队来说，最明智的选择是不要强行本地化。虽然本地部署在隐私与控制上有优势，但要扩展到生产、应对峰值负载，或在不进行大规模硬件投入的情况下获得完整的非量化性能，往往更适合使用可靠的 API。

CometAPI 提供统一的、OpenAI 兼容的 DeepSeek 模型网关——包括最新的 Deeppseek V4 系列——及数十个其他头部 LLM（Claude、GPT、Llama、Qwen、Grok 等）。

API 胜过本地部署的场景

当前 Deepseek V4 模型可通过 OpenAI 风格与 Anthropic 风格端点访问，基础 URL 保持稳定，模型名可更换。文档还称 deepseek-chat 与 deepseek-reasoner 将在过渡期内逐步弃用，并映射为 V4-Flash 的行为。

这很重要，因为本地部署具有运维成本。若工作负载对数据属地不敏感，或团队更看重“价值实现速度”，API 通常更理性。V4-Flash 在缓存未命中时为每 1M 输入 token 收费 $0.14，缓存命中时每 1M 输入 token 收费 $0.0028，输出每 1M token 收费 $0.28。同期页面称 V4-Pro 在 2026 年 5 月 31 日前有 75% 折扣：缓存未命中每 1M 输入 token $0.435，输出每 1M token $0.87。

Deepseek 的最佳替代：CometAPI 的定位

当目标并非只调用一次 DeepSeek V4，而是构建可快速切换模型的技术栈时，CometAPI 很有价值。CometAPI 称其提供“一把 Key 用 500+ 模型”、OpenAI 兼容 API、使用分析，并且价格低于官方厂商。它也被定位为避免供应商锁定、在多家供应商间管理成本的手段。

因此，对于需要在 V4-Pro 与 V4-Flash 间做评估，或在同一应用中对比 DeepSeek 与其他前沿模型的团队，CometAPI 是强推荐。应用仅需保持稳定的 OpenAI 风格客户端，只切换 model 值与 base URL 即可。CometAPI 的 V4 指南正是这种模式。

使用 CometAPI 快速开始 DeepSeek V4：

使用 OpenAI SDK：
在 CometAPI.com 注册/登录。
在控制台生成 API Key。

下面是相同集成模式的托管版本：

from openai import OpenAIclient = OpenAI(    base_url="https://api.cometapi.com",    api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create(    model="deepseek-v4-pro",    messages=[        {"role": "system", "content": "You are a senior coding assistant."},        {"role": "user", "content": "Review this architecture for bottlenecks."}    ],    stream=False,    extra_body={        "thinking": {"type": "enabled"},        "reasoning_effort": "high"    })print(response.choices[0].message.content)

其价值在于运维，而非口号：它去除了基础设施工作，让客户端代码更可移植，并为团队提供一个统一位置来测试成本、时延与质量。CometAPI 还称其可跟踪支出、时延与调用量，这些在原型转生产后非常有用。

何时选择本地、官方 API，或 CometAPI

部署路径	最佳场景	为什么合理	权衡
本地多 GPU	私有工作负载、科研、离线实验	完整控制、开源权重、官方推理工作流、MIT 许可	高 GPU 要求与更多运维工作
官方 DeepSeek API	最快的直接访问	稳定基础 URL，OpenAI/Anthropic 兼容，无需自建与运维	依赖供应商与基于 token 的成本
CometAPI	多模型产品团队	一把 Key、OpenAI 兼容路由、更低价格主张、使用分析	技术栈中引入一层抽象

当控制力重于便利性，选择本地；当速度与简易重于所有权，选择 API；当希望在可移植与成本控制间折中、又不想每换模型就重搭集成时，选择 CometAPI。

常见问题（FAQ）

DeepSeek V4 能在笔记本上运行吗？

不符合大多数“本地推理教程”所暗示的现实意义。官方资料指向多 GPU/多节点部署，模型规模远超普通消费级内存预算。笔记本适合通过 API 访问，但不适合有意义地自托管 V4-Pro，甚至舒适地运行 V4-Flash。

哪个更好：V4-Pro 还是 V4-Flash？

V4-Pro 在推理、编程与研究上更强；V4-Flash 在速度、吞吐与成本上更优，适合作为默认。官方发布与基准表印证了同一结论。

本地部署是否必须使用 CometAPI？

不必。它是可选的生产层。DeepSeek 自有 API 可直接使用，也可以通过官方推理路径自托管。当您需要统一代码路径涵盖多家供应商、进行成本跟踪、并更轻松地在模型家族间切换时，CometAPI 才显得有吸引力。

结论

DeepSeek V4 并非“又一款模型发布”，而是长上下文、面向 Agent 的系统，提供开源权重、官方 API 访问，并清晰区分高端推理型号与低成本吞吐型号。最新官方信息改变了决策树：本地部署可行，但更适合拥有严肃 GPU 基础设施的团队；API 可立即使用；当可移植与成本纪律比自持推理栈更重要时，CometAPI 是合理推荐。

若工作负载复杂且硬件到位，先用 V4-Pro；若侧重体量与吞吐，先用 V4-Flash；若目标是快速上线并保持模型选择弹性，走 API 路线，保持代码可移植。这是当前最稳妥的生产策略。

可执行的下一步：

评估硬件，先用 Ollama 或 LM Studio 跑量化版 V4-Flash。
按上述代码示例进行实验，并基于您的工作负载进行基准测试。
在发布后关注 GGUF 量化与社区优化的成熟度。
对生产或重负载场景，集成 CometAPI，以在无需管理硬件的情况下，以可靠、具成本效益的方式访问完整 V4-Pro/Flash。

TR

DeepSeek V4 真的能在本地运行吗？

架构对比表：DeepSeek V4 vs V3 与竞品

应该用哪个 Deepseek V4 模型？

推荐本地栈

1) 用 vLLM 进行类生产级服务

2) DeepSeek 仓库的推理辅助

3) 作为务实备选的 CometAPI

步步为营：如何在本地运行 DeepSeek V4

1. 先决条件

2. 最简方式：Ollama 或 LM Studio（对初学者友好）

3. 进阶：Hugging Face + vLLM 或 SGLang（高性能）

Step 1：准备环境

Step 2：启动模型服务

Step 3：从 Python 查询本地端点

性能预期与优化建议

本地 V4 部署的挑战与局限

当本地不够用：与 CometAPI 的无缝集成

API 胜过本地部署的场景

Deepseek 的最佳替代：CometAPI 的定位

何时选择本地、官方 API，或 CometAPI

常见问题（FAQ）

DeepSeek V4 能在笔记本上运行吗？

哪个更好：V4-Pro 还是 V4-Flash？

本地部署是否必须使用 CometAPI？

结论

准备好将AI开发成本降低20%了吗？

阅读更多

如何在本地运行 DeepSeek V4

TR

DeepSeek V4 真的能在本地运行吗？

架构对比表：DeepSeek V4 vs V3 与竞品

应该用哪个 Deepseek V4 模型？

推荐本地栈

1) 用 vLLM 进行类生产级服务

2) DeepSeek 仓库的推理辅助

3) 作为务实备选的 CometAPI

步步为营：如何在本地运行 DeepSeek V4

1. 先决条件

2. 最简方式：Ollama 或 LM Studio（对初学者友好）

3. 进阶：Hugging Face + vLLM 或 SGLang（高性能）

Step 1： 准备环境

Step 2： 启动模型服务

Step 3： 从 Python 查询本地端点

性能预期与优化建议

本地 V4 部署的挑战与局限

当本地不够用：与 CometAPI 的无缝集成

API 胜过本地部署的场景

Deepseek 的最佳替代：CometAPI 的定位

何时选择本地、官方 API，或 CometAPI

常见问题（FAQ）

DeepSeek V4 能在笔记本上运行吗？

哪个更好：V4-Pro 还是 V4-Flash？

本地部署是否必须使用 CometAPI？

结论

准备好将AI开发成本降低20%了吗？

阅读更多

Step 1：准备环境

Step 2：启动模型服务

Step 3：从 Python 查询本地端点