TR
在本地運行 DeepSeek V4 的務實途徑,是將官方開源權重配合高性能服務堆疊(如 vLLM)使用,並通過本地 OpenAI 相容端點對外提供模型。DeepSeek 目前公開的資料描述了 V4 家族的兩個模型:DeepSeek-V4-Pro(總參數 1.6T / 活躍 49B)與 DeepSeek-V4-Flash(總參數 284B / 活躍 13B),兩者皆具備 1M-token 上下文與三種推理模式。vLLM 當前的本地部署範例針對 Pro 使用 8× B200/B300,針對 Flash 使用 4× B200/B300。若您沒有此級別硬體,採用 CometAPI 等託管方案會更實際。
DeepSeek AI 於 2026 年 4 月 24 日發佈了 DeepSeek-V4 的搶先預覽,包含兩個強大的 Mixture-of-Experts(MoE)模型:DeepSeek-V4-Pro(總參數 1.6T,活躍 49B)與 DeepSeek-V4-Flash(總參數 284B,活躍 13B)。兩者均支援原生 100 萬 token 的上下文視窗——對長文檔分析、代理型工作流程、在龐大代碼庫上編碼,以及大規模檢索增強生成(RAG)而言是個變革。
V4 在超過 32 兆 tokens 的訓練基礎上,引入了如混合 Compressed Sparse Attention(CSA)+ Heavily Compressed Attention(HCA)、流形約束的超連接(mHC)、高效記憶體處理等架構創新;相較於 V3.2,在 1M 上下文下可將單 token 推理 FLOPs 降至 27%,KV 快取消耗降至 10%。效能可與頂級閉源模型匹敵,同時保持開放權重(MIT 授權)並通過 API 帶來極具成本效益的使用方式。
在本地運行這些模型可帶來無可比擬的隱私、除硬體外零經常性 API 成本、離線能力以及完全自訂。但其規模也帶來挑戰:V4-Pro 的完整權重下載超過 800GB,推理需具備相當硬體或採用激進量化。
DeepSeek V4 真的能在本地運行嗎?
可以,但此處的「本地」與在筆電上跑 7B 模型截然不同。DeepSeek 官方資料與 vLLM 支援貼文皆指向大型多 GPU 系統:V4-Pro 是 1.6T 參數、49B 活躍參數,而 V4-Flash 是 284B 總參數 / 13B 活躍。vLLM 的官方部署範例針對 Pro 編寫為 8× B200/B300,針對 Flash 編寫為 4× B200/B300。這明確表明 DeepSeek V4 更適合企業級本地部署,而非輕量級桌面嘗試。
之所以需要這種規模,是因為 DeepSeek 表示 V4 支援 1M-token 上下文視窗。技術報告稱,V4-Pro 在 1M 上下文下的單 token 推理僅需 V3.2 的 27% FLOPs,且 KV 快取僅為 10%。vLLM 進一步解釋,使用 bf16 KV cache 時,DeepSeek V4 在 1M 上下文下每個序列的 KV 快取為 9.62 GiB,約為採用與 DeepSeek-V3.2 類似架構時估算的 83.9 GiB 的 1/8.7。換言之,V4 相較前代大幅更高效,但 100 萬 token 仍是龐大的系統工程。
架構比較表:DeepSeek V4 與 V3 及競品
| Model | Total Params | Active Params | Context Length | KV Cache Efficiency (1M) | Approx. Download | Inference Focus |
|---|---|---|---|---|---|---|
| DeepSeek-V3.2 | 671B | ~37B | 128K | Baseline | ~數百 GB | 均衡 |
| DeepSeek-V4-Flash | 284B | 13B | 1M | ~V3 的 7–10% | ~160GB | 速度與效率 |
| DeepSeek-V4-Pro | 1.6T | 49B | 1M | ~V3 的 10% | ~865GB | 最大能力 |
| Llama 4 70B (dense) | 70B | 70B | 128K-1M+ | 更高 | 更小 | 面向消費者友好 |
| GPT-5.5 (est. closed) | ~2T? | N/A | 高 | 專有 | N/A | 僅雲端 |
V4 的 MoE 設計每個 token 僅啟用部分參數,讓計算量更接近 13B–49B 的稠密模型,同時受益於更大網路的知識。
應該使用哪個 Deepseek V4 模型?
對多數本地部署而言,DeepSeek-V4-Flash 更適合作為起點。V4-Flash 在較簡單的代理任務上,推理能力接近 Pro,同時更快、更經濟。
當您更在意絕對能力而非效率時,選擇 DeepSeek-V4-Pro。Pro 在更困難的推理、編碼與代理任務上更強。基準也說明了這點:在官方比較中,V4-Pro-Base 的 MMLU 達 90.1、HumanEval 達 76.8、LongBench-V2 達 51.5;而 V4-Flash-Base 分別為 88.7、69.5、44.7。兩者都很強;當您需要最佳結果時,Pro 會走得更遠。
| 指標 | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| 總參數 | 671B | 284B | 1.6T |
| 啟用參數 | 37B | 13B | 49B |
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
簡單讀表即可用於產品規劃。Flash 不是被閹割的玩具模型;它是成本更低的嚴肅長上下文助手。當問題更難、更有狀態或貼近生產知識流程時,先測 Pro。
推薦的本地堆疊
1) vLLM 用於生產級服務
目前最強的官方選項是 vLLM。vLLM 團隊表示已支援 DeepSeek V4 系列,並提供兩個模型的單機啟動命令。其貼文將 V4 定位為面向百萬上下文的長上下文模型系列,描述了為混合 KV 快取、核心融合與解耦式服務所需的實作工作。
對於 V4-Pro,vLLM 的示例目標為 8× B200 或 8× B300;對於 V4-Flash,示例目標為 4× B200 或 4× B300。命令同時使用 --kv-cache-dtype fp8、--block-size 256、--enable-expert-parallel,以及 DeepSeek 特定解析旗標,如 --tokenizer-mode deepseek_v4、--tool-call-parser deepseek_v4、--reasoning-parser deepseek_v4。這組合強烈暗示了 DeepSeek 對嚴肅自託管的期望做法。
# DeepSeek-V4-Flash on a supported multi-GPU hostdocker run --gpus all \ --ipc=host -p 8000:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Flash \ --trust-remote-code \ --kv-cache-dtype fp8 \ --block-size 256 \ --enable-expert-parallel \ --data-parallel-size 4 \ --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \ --attention_config.use_fp4_indexer_cache=True \ --tokenizer-mode deepseek_v4 \ --tool-call-parser deepseek_v4 \ --enable-auto-tool-choice \ --reasoning-parser deepseek_v4
要切換至 V4-Pro,保持相同模式,將模型改為 deepseek-ai/DeepSeek-V4-Pro,並依照 vLLM 貼文中的 Pro 示例調整 data-parallel 大小。這是無需重造服務堆疊即可開始本地測試的最簡方式。
2) DeepSeek 的程式庫推理輔助
Deepseek V4 並不包含 Jinja 格式的聊天模板。而是提供專門的 encoding 資料夾與 Python 腳本及測試用例,用於將 OpenAI 風格訊息轉換為模型輸入字串並解析輸出。同頁面指出可參考 inference 資料夾以獲取本地部署細節,包括權重轉換與互動式聊天示例。若您想打造自訂前端或嚴格控制提示格式,這會很有用。
3) CometAPI 作為務實的備用方案
若您沒有 B200/B300 級別硬體,選擇託管路線是理智之舉。CometAPI 表示其提供一把 API 金鑰通用、可存取 500+ AI 模型,且定價比官方供應商價更低 20–40%。它也發佈了專門的 DeepSeek V4 頁面,包括 DeepSeek-V4-Pro 與 DeepSeek-V4-Flash,並附有 OpenAI 相容的整合範例。
手把手:如何在本地運行 DeepSeek V4
1. 先決條件
- OS:優先 Linux(Ubuntu 22.04/24.04)以獲得最佳 CUDA/ROCm 支援。Windows 可用 WSL2 或原生。macOS 使用 Metal(不適用於最大模型)。
- 驅動:NVIDIA CUDA 12.4+(或最新版)。AMD 顯卡使用 ROCm。
- Python 3.11+、Git,以及足夠磁碟空間。
- Hugging Face 帳號(若模型受限需申請):huggingface-cli login。
2. 最簡方式:Ollama 或 LM Studio(適合初學)
Ollama 提供最簡單的 CLI 與 WebUI 體驗。截止 2026 年 4 月下旬,完整 V4 支援可能需要自訂 Modelfiles 或社群標籤,但 V4-Flash 的量化版本正快速湧現。
安裝 Ollama(Linux/macOS):
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
運行相容模型(從較小開始或檢查是否有 V4 標籤):
ollama pull deepseek-v4-flash:q4_0 # Example quantized tag; check ollama.com/library or community
ollama run deepseek-v4-flash:q4_0
若要自訂:建立一個 Modelfile(文本):
FROM ./DeepSeek-V4-Flash-GGUF-Q4.gguf
TEMPLATE """{{ .Prompt }}"""
PARAMETER num_ctx 32768 # Start conservative; increase as hardware allows up to 1M with sufficient RAM/VRAM
然後執行:ollama create my-v4-flash -f Modelfile。
LM Studio:圖形介面替代方案。從 lmstudio.ai 下載,於 HF 搜尋/瀏覽 DeepSeek-V4 的 GGUF 量化(TheBloke 風格或官方),載入後即可對話。對實驗很友好,提供上下文滑桿與 GPU 卸載。
Open WebUI:可疊加於 Ollama 之上的 ChatGPT 類介面(Bash):
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
瀏覽 http://localhost:8080 進入。
3. 進階:Hugging Face + vLLM 或 SGLang(高性能)
若要獲得最大速度與 1M 上下文支援,使用 vLLM(擅長 MoE 與 PagedAttention):
Step 1: 準備環境
首先安裝當前 vLLM 堆疊,確保 CUDA、驅動與 GPU 拓撲符合目標模型。recommending temperature = 1.0 and top_p = 1.0 for local deployment, and for Think Max it recommends a context window of at least 384K tokens. That is a useful starting point whether you are building a chat app, a coding assistant, or an agent workflow.
安裝:
Bash
pip install -U "vllm>=0.9.0" # Check latest for V4 compatibility
下載模型(大型檔案建議用 CLI):
Bash
pip install -U "huggingface_hub[cli]"
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
以 vLLM 服務(雙卡下的 Flash 範例):
Step 2: 啟動模型服務
容器啟動後,將模型暴露為 OpenAI 相容的本地端點。這使您能重用現有應用程式碼,無需改動架構即可切換後端。
以 vLLM 服務(雙卡下的 Flash 範例):
Python
from vllm import LLM, SamplingParams
llm = LLM(
model="deepseek-ai/DeepSeek-V4-Flash",
tensor_parallel_size=2, # Adjust to your GPU count
max_model_len=1048576, # 1M context (hardware permitting)
dtype="auto", # or "fp8" / "bfloat16"
quantization="gptq" if using quantized weights else None,
gpu_memory_utilization=0.9
)
sampling_params = SamplingParams(temperature=0.7, top_p=0.95, max_tokens=4096)
outputs = llm.generate(["Explain the architecture of DeepSeek V4 in detail."], sampling_params)
for output in outputs:
print(output.outputs[0].text)
伺服器模式(OpenAI 相容 API):
Bash
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--port 8000
然後將 base_url 設為 "http://localhost:8000/v1" 以通過 OpenAI 客戶端查詢。
SGLang:另一個可能在長上下文更優的選擇:
Bash
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V4-Flash --port 30000
Step 3: 從 Python 查詢本地端點
from openai import OpenAI
# Adjust the base URL if your vLLM server is bound differently.
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY",
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[
{"role": "system", "content": "You are a precise, technical assistant."},
{"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."},
],
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
性能預期與最佳化建議
- Tokens/sec:在 RTX 4090 上運行 Q4 的 Flash:於 8K–32K 上下文可達 15–40+ t/s(受實作差異)。在 128K+ 時因注意力/KV 耗用下降,但 V4 的效率有所幫助。多 GPU 透過張量/管線並行具有良好擴展性。
- 最佳化:
- 使用 FlashAttention-3 或 vLLM 的 PagedAttention。
- 使用推測式解碼獲得 1.5–2× 加速。
- 進行上下文剪枝或壓縮。
- 使用
nvidia-smi監控;合理設置gpu_memory_utilization。 - 對 CPU:llama.cpp 配合
--n-gpu-layers -1(可全數卸載)或純 CPU 並搭配高記憶體。
用如 llama-bench 或簡單計時腳本對您的環境進行基準測試。實際吞吐取決於提示長度、生成長度與硬體。
本地部署 V4 的挑戰與限制
- 資源密集:即便是 Flash,在長上下文下也需要不錯的硬體以獲得舒適速度。
- 量化權衡:位寬越低,複雜任務的推理品質可能下降——請使用 SWE-Bench、MMLU 或您的領域評測驗證。
- 軟體成熟度:作為 2026 年 4 月的預覽版,各後端的完整優化仍在推進。請關注 vLLM、llama.cpp 與 HF 的 GitHub issues。
- 下載/存儲:TB 級模型需要高速網路與存儲。
- 功耗與發熱:高端設備耗電量大。
對許多用戶而言,混合方案最佳:在本地處理較小任務,遇到 1M 上下文的重負時轉雲端。
當本地不足:與 CometAPI 的無縫整合
對許多團隊而言,最明智的做法是不強求本地部署。雖然本地部署在隱私與控制上有優勢,但若要擴展到生產、處理峰值負載、或在不投入大規模硬體的情況下獲得完整未量化性能,通常更適合使用可靠的 API。
CometAPI 提供統一、OpenAI 相容的 DeepSeek 模型閘道——包含最新的 Deeppseek V4 系列——以及其他眾多頂級 LLM(Claude、GPT、Llama、Qwen、Grok 等)。
何處 API 優於本地部署
當前 Deepseek V4 模型可通過 OpenAI 風格與 Anthropic 風格端點使用,基礎 URL 在模型名變更時保持穩定。文件亦指出模型名 deepseek-chat 與 deepseek-reasoner 最終將被棄用,並在過渡期映射為 V4-Flash 行為。
這很重要,因為本地部署伴隨運營成本。若工作負載對數據駐留不敏感,或團隊希望更快獲得價值,API 路徑通常更合理。V4-Flash 在快取未命中時為每 1M 輸入 tokens $0.14,在快取命中時為每 1M 輸入 tokens $0.0028,輸出為每 1M tokens $0.28。V4-Pro 則在 2026 年 5 月 31 日前享 75% 折扣,快取未命中每 1M 輸入 tokens $0.435,輸出每 1M tokens $0.87。
Deepseek 的最佳替代:CometAPI 的定位
當目標不只是調用一次 DeepSeek V4,而是要構建可快速切換模型的堆疊時,CometAPI 很有用。CometAPI 表示提供一把金鑰覆蓋 500+ 模型、OpenAI 相容 API、使用分析,且定價低於官方供應商。其定位是避免供應商綁定,並在多家供應商間管理支出。
這讓 CometAPI 成為評估 V4-Pro 與 V4-Flash,或將 DeepSeek 與其他前沿模型在同一應用中對比的強力建議。應用不必每換模型就重寫整合,只需保留穩定的 OpenAI 風格客戶端,改 model 值與 base URL 即可。CometAPI 的 V4 指南正是如此示範。
使用 CometAPI 快速開始 DeepSeek V4:
- 使用 OpenAI SDK:
- 在 CometAPI.com 註冊/登入。
- 在控制台生成 API 金鑰。
以下是同一整合模式的託管版本:
from openai import OpenAIclient = OpenAI( base_url="https://api.cometapi.com", api_key="YOUR_COMETAPI_KEY",)response = client.chat.completions.create( model="deepseek-v4-pro", messages=[ {"role": "system", "content": "You are a senior coding assistant."}, {"role": "user", "content": "Review this architecture for bottlenecks."} ], stream=False, extra_body={ "thinking": {"type": "enabled"}, "reasoning_effort": "high" })print(response.choices[0].message.content)
此路徑的價值在於運營層面,而非口號。它去除了基礎設施工作,使客戶端程式碼具可移植性,並提供一個統一位置觀測成本、延遲與呼叫量。CometAPI 亦稱其追蹤支出、延遲與調用量,有助於從原型走向生產。
何時選擇本地、官方 API 或 CometAPI
| Deployment path | Best for | Why it makes sense | Trade-off |
|---|---|---|---|
| Local multi-GPU | 私有工作負載、研究、離線實驗 | 完整控制、開放權重、官方推理流程、MIT 授權 | 需要大量 GPU,運維工作更多 |
| Official DeepSeek API | 最快的直接接入 | 穩定基礎 URL、OpenAI/Anthropic 相容、無自託管負擔 | 依賴供應商、基於 token 的成本 |
| CometAPI | 多模型產品團隊 | 一把金鑰、OpenAI 相容路由、聲稱更低價格、使用分析 | 額外的一層抽象 |
當控制比便利更重要時,本地路徑是合理的;當速度與簡單性更重要時,API 路徑更合理;當團隊想在可攜與成本控制間取得平衡且不想每換模型就重構整合時,CometAPI 是中間層。
FAQ
DeepSeek V4 能在筆電上運行嗎?
若按本地推理教程中「實用」的含義,基本不行。官方資料指向多 GPU、甚至多節點部署,且模型尺寸遠超一般消費級記憶體預算。筆電用於 API 存取沒有問題,但對於自託管 V4-Pro 或甚至舒適地運行 V4-Flash,都不現實。
哪個更好:V4-Pro 還是 V4-Flash?
V4-Pro 在推理、編碼與研究上更強;V4-Flash 在速度、吞吐與成本上更佳。官方發佈與基準表明結論一致。
本地部署是否必須使用 CometAPI?
不是。它是可選的生產層。DeepSeek 自家的 API 可直接使用,也可通過官方推理路徑自託管。當您希望一條程式碼路徑覆蓋多家模型供應商、追蹤成本並在模型系列間更輕鬆切換時,CometAPI 才顯得吸引。
結論
DeepSeek V4 不只是又一次模型發佈。它是一個長上下文、面向代理的系統,擁有開放權重、官方 API 接入,並明確區分高端推理與更低成本吞吐兩條路線。最新官方資訊改變了決策樹:本地部署可行,但僅對擁有嚴肅 GPU 基礎設施的團隊;API 可立即使用;當可攜與成本紀律比自有推理堆疊更重要時,CometAPI 是合理建議。
若工作負載複雜且硬體到位,從 V4-Pro 開始。若工作負載以量為主,從 V4-Flash 開始。若目標是快速上線並保持模型選擇彈性,使用 API 並保持程式碼可移植。就當下而言,這是最穩妥的生產策略。
可執行的下一步:
- 評估硬體條件,先用 Ollama 或 LM Studio 跑量化的 V4-Flash。
- 依上述程式碼示例做實驗,並在您的工作負載上做基準比較。
- 隨著發佈後社群優化成熟,探索 GGUF 量化與其他社群最佳化。
- 若面向生產或重負載,整合 CometAPI,在無需管理硬體的前提下穩定、具成本效益地存取完整的 V4-Pro/Flash。
