如何在本地設備上運行 DeepSeek-V3.1

DeepSeek-V3.1 是 DeepSeek 於 2025 年 XNUMX 月發布的混合專家 (MoE) 聊天模型，支持 兩種推理模式 ——快速的「非思考」模式和深思熟慮的「思考」模式——從同一檢查點開始。此模型可在 Hugging Face 上使用，並可透過多種途徑在本地運行（vLLM、Ollama/llama.cpp、Ollama 風格的 GGUF 或大規模多 GPU 設定）。下文我將向您介紹運行要求、思考模式的工作原理、幾個本地運行選項（包含可運行的程式碼片段），以及一個循序漸進的「思考模式部署」方案，其中包含工具呼叫和令牌模板的範例。

什麼是 DeepSeek-V3.1？它為何重要？

DeepSeek-V3.1 是 DeepSeek 的 v3 系列更新，引入了 混合推理設計：可以運行相同的模型思維（深思熟慮、多步驟）或 不思考 透過更改聊天模板，可以實現更快速的（直接回答，更快）模式。從架構上看，它是一個龐大的 MoE 家族（基礎檢查點總參數約 671B，每個 token 激活約 37B），長上下文訓練擴展到 128K token，並支援 FP8 微擴展。 DeepSeek 將 V3.1 定位為代理就緒版本：與先前的 R1 版本相比，它擁有更強大的工具呼叫能力、更強大的代理技能和更高的思考效率。該版本於 2025 年 XNUMX 月發布，並已整合到 Hugging Face、CFD/OSS 工具和雲端部署指南中。

混合模型的工作原理（簡明）

一個檢查點，兩個模板： 思考模式和非思考模式由 聊天模板 和 <think>/</think> 提示中的標記約定。模型卡記錄了確切的前綴。
代理/工具改進： 訓練後的提升可以實現更聰明的工具呼叫——該模型需要嚴格的工具呼叫 JSON 格式來實現安全、確定的工具執行。
效能權衡： 思考模式會將代幣用於內部的思路鍊式推理，因此速度可能較慢/代幣消耗較大；而非思考模式則速度較快、成本較低。模型卡中的基準測試顯示，V3.1 在推理和程式碼基準測試方面均有顯著提升。

模型的結構

教育部骨幹：總參數數量較大，但每個標記的活化子集較小（經濟推理）。
長語訓練：V3.1 顯著擴展了長上下文階段（32k → 對長文檔進行更大規模的訓練），以在某些版本中支援 128K+ 視窗。
FP8 原生工作流程：DeepSeek 廣泛使用 FP8 格式（w8a8 / UE8M0）來提高權重/激活效率；如果您喜歡 BF16/FP16，則可以使用社區轉換腳本。

在本地運行 DeepSeek-V3.1 有哪些要求？（硬體、儲存和軟體）

運行充分 V3.1 模型（未量化）是一項龐大的任務。以下列出了實際的設定類別及其通常需要的內容。

實用水桶

集群/研究實驗室（完整模型）：多個高記憶體 GPU（H100/H800 類或多個 Ada/Hopper GPU）、數十個 GPU 的多節點、大量 NVMe 儲存（數百 GB）和專門的推理框架（SGLang、vLLM、LMDeploy、TRT-LLM）。
單一伺服器高端（量化）：可以透過重量化（INT4/AWQ/AWQ2/gguf）和像 Ollama（預先包裝）或社群 GGUF 這樣的框架來實現——仍然需要大約幾十到幾百 GB 的 GPU RAM 或巧妙的 CPU+GPU 卸載。
開發人員筆記型電腦/開發箱：不適用於完整模型；使用小型蒸餾/微調變體或連接到本機伺服器/Ollama 實例。

硬體清單（實用）

圖形處理器：為了實現完整 V3.1 版本的實際推理吞吐量，需要多 GPU 叢集 (H100 / H800 / Ada Lovelace+)。 FP8 執行需要具備運算能力且驅動程式支援的 GPU。
RAM 和儲存：模型檔案預計佔用數百 GB 的可用磁碟空間（模型頁面顯示，具體佔用空間數百 GB，取決於格式/量化），此外還有轉換格式所需的工作空間。 Ollama 元資料顯示，庫中 DeepSeek V400 Ollama 軟體包佔用約 3.1 GB 的空間。
網絡：對於多節點推理，您需要低延遲互連（NVLink / InfiniBand）和用於張量並行設定的編排工具。

軟體清單

OS：社群推理工具建議使用 Linux（DeepSeek-Infer 示範列出了 Linux/Python）。
蟒蛇：3.10+（在許多 DeepSeek 範例中）。典型的軟體包版本固定在倉庫中 requirements.txt.
框架和工具 （選擇一個或多個）：SGLang、vLLM、LMDeploy、TRT-LLM/TensorRT-LLM、LightLLM 或 Ollama，用於更簡單的本機安裝。每個工具都有相應的說明和不同的精度/量化支援。

實用說明： 如果您只有一個消費級 GPU（例如 24-48 GB），您可能會使用量化 GGUF 或遠端推理；如果您擁有一個具有 >128 GB RAM 以及 H100/H200 級 GPU 叢集的工作站，則可以使用 vLLM 實現更高保真度的 FP8/FP16 推理。

如何在本地運行 DeepSeek-V3.1？

以下是您可以使用的幾種實用路徑，從最手動/靈活的路徑到單一開發人員框最簡單的路徑。我將提供逐步教學和程式碼範例

選項 A — 官方 DeepSeek-Infer 演示（開發/集群路徑）

這是 repo 中 FP8/BF16 推理的範例/演示。如果您打算使用多節點或想嘗試官方推理程式碼，請使用它。

克隆，準備環境

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

（回購） inference/requirements.txt 列出團隊建議的固定 torch/triton/transformers 版本。）

下載模型權重

從 Hugging Face 模式頁面下載（deepseek-ai/DeepSeek-V3.1）並將它們放在 /path/to/DeepSeek-V3。模型卡和 repo 說明均為 Hugging Face 官方儲存連結。

轉換演示的權重

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

運行互動式生成（分散式）

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

這是 DeepSeek repo 中用於叢集式運行的典型範例。

選項 B — vLLM（建議用於伺服器部署和與 OpenAI 相容的 API）

vLLM 支援 FP8/BF16 模式下的 DeepSeek，並提供與 OpenAI 相容的伺服器。由於記憶體優化和 API 相容性，它是大型模型的熱門生產路徑。

啟動一個 vLLM 伺服器，該伺服器將從 Hugging Face 取得模型 （範例模式）：

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

然後使用 curl 或與 OpenAI 相容的客戶端請求完成：

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM 的食譜和文件包含 DeepSeek 範例以及關於 FP8 相容性和多 GPU/管線並行性的說明。對於大型模型，您仍然需要多個 GPU 或量化變體。

選項 C — LMDeploy / SGLang / LightLLM 和 TensorRT-LLM（高效能）

DeepSeek repo 明確推薦 西格朗, LM部署和 TensorRT-法學碩士 作為 DeepSeek V3 的最佳化引擎。它們提供了改進的推理延遲、吞吐量和 FP8 核心。

典型的 LMDeploy 呼叫（有關確切的 CLI，請參閱 LMDeploy 文件）：

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang 基準和啟動配方可在 repo 和 SGLang 專案中的 benchmark/deepseek_v3 資料夾。當您控制 GPU 叢集並希望實現生產吞吐量時，請使用這些堆疊。

選項 D — Ollama（最簡單的本地開發路線，通常是單機）

如果您想要以最低的摩擦方式在本機上執行 DeepSeek（並且可以節省磁碟空間）， 奧拉馬 提供打包模型和簡單的 CLI（ollama pull, ollama runDeepSeek-V3.1 出現在 Ollama 庫中，可以在本地運行（Ollama 的某些功能可能需要最近/預發布版本）。

例（Ollama CLI）：

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama 抽象化了許多分佈/量化細節，非常適合在單一主機上測試模型行為。注意：模型頁面列出了 Ollama 條目的打包大小約為 404GB，因此請相應地規劃磁碟和記憶體。

什麼是思維模式以及如何使用它

DeepSeek-V3.1 實現了 混合思維代幣 方法：相同的檢查點可以運行思維模式（內部「思路鏈」標記）或 不思考 透過切換聊天/提示模板來切換模式。該模型使用顯式標記，例如 <think> （和結束 </think> 在某些模板中）用來表示內部思維鏈與直接答案生成。模型卡記錄了非思考前綴和思考前綴，並展示了模板之間的差異。

範例：在 Python 中建構訊息（標記器助手）

Hugging Face 模型卡包含一個便利的程式碼片段，展示如何透過 tokenizer 應用聊天範本。這是建議的生成模式思維 or 不思考 格式化的提示：

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

軸體 thinking=True 產生一個使用 <think> 前綴； thinking=False 生成非思考模板。根據此標誌，模型將表現出不同的行為（內部思考 vs 立即回應）。

快速參考 — 小型故障排除和最佳實踐

如果 GPU 記憶體不足： 嘗試量化建造 (AWQ/q4/INT4) 或社群 GGUF；許多社群空間發布量化供本地使用。 Ollama / vLLM 也可以提供更小的量化建構。

如果需要模型呼叫外部工具： 採用 工具調用 模式與聊天模板中的完全一致。離線測試工具的 JSON 格式，並檢查編排程式碼（執行工具的部分）是否將經過清理的、類型化的 JSON 回傳給模型。

如果您需要長上下文： 使用帶有長上下文插件的 vLLM 或 SGLang；DeepSeek 已明確針對 32K/128K 上下文進行訓練/擴展，相關工具也支援該範圍。預計會有記憶體方面的權衡。

我真的可以在筆記型電腦或小型伺服器上運行 DeepSeek-V3.1 嗎？

簡短的回答： 是的，但有註意事項。 社群量化（AWQ/GGUF/1 位元動態）大幅減少了儲存和記憶體佔用，並使得愛好者能夠在高階桌上型電腦上運行 V3.1 版本（據稱工作集約為 170 GB）。然而：

保真度與尺寸的權衡： 激進的量化會減少內存，但可能會影響推理/程式碼效能。請在你的工作負載上進行測試。
法律與許可： 該模型根據模型卡獲得 MIT 許可，但第三方量化可能帶有自己的許可證；在生產使用前請進行審查。

最後的話

DeepSeek-V3.1 是邁向混合「代理」模型的重要一步，該模型具有明確的思考/非思考行為，並改進了工具的使用。如果您想在本地運行它，請選擇與您的硬體和風險承受能力相符的路徑：

用於研究： transformers + 量化安全張量並加速。

對於生產和吞吐量： vLLM + 多 GPU（H100/H200）。

對於本地實驗： Ollama/llama.cpp + 社區 GGUF（合併 + 運行）。

入門

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 DeepSeek-V3.1 透過 CometAPI，列出的最新模型版本截至本文發布之日。首先，探索模型的功能游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

什麼是 DeepSeek-V3.1？它為何重要？

混合模型的工作原理（簡明）

模型的結構

在本地運行 DeepSeek-V3.1 有哪些要求？（硬體、儲存和軟體）

實用水桶

硬體清單（實用）

軟體清單

如何在本地運行 DeepSeek-V3.1？

選項 A — 官方 DeepSeek-Infer 演示（開發/集群路徑）

選項 B — vLLM（建議用於伺服器部署和與 OpenAI 相容的 API）

選項 C — LMDeploy / SGLang / LightLLM 和 TensorRT-LLM（高效能）

選項 D — Ollama（最簡單的本地開發路線，通常是單機）

什麼是思維模式以及如何使用它

範例：在 Python 中建構訊息（標記器助手）

快速參考 — 小型故障排除和最佳實踐

我真的可以在筆記型電腦或小型伺服器上運行 DeepSeek-V3.1 嗎？

最後的話

入門

閱讀更多

一個 API 中超過 500 個模型

如何在本地設備上運行 DeepSeek-V3.1

什麼是 DeepSeek-V3.1？它為何重要？

混合模型的工作原理（簡明）

模型的結構

在本地運行 DeepSeek-V3.1 有哪些要求？ （硬體、儲存和軟體）

實用水桶

硬體清單（實用）

軟體清單

如何在本地運行 DeepSeek-V3.1？

選項 A — 官方 DeepSeek-Infer 演示（開發/集群路徑）

選項 B — vLLM（建議用於伺服器部署和與 OpenAI 相容的 API）

選項 C — LMDeploy / SGLang / LightLLM 和 TensorRT-LLM（高效能）

選項 D — Ollama（最簡單的本地開發路線，通常是單機）

什麼是思維模式以及如何使用它

範例：在 Python 中建構訊息（標記器助手）

快速參考 — 小型故障排除和最佳實踐

我真的可以在筆記型電腦或小型伺服器上運行 DeepSeek-V3.1 嗎？

最後的話

入門

閱讀更多

一個 API 中超過 500 個模型

在本地運行 DeepSeek-V3.1 有哪些要求？（硬體、儲存和軟體）