如何在本地設備上運行 DeepSeek-V3.1

CometAPI
AnnaSep 1, 2025
如何在本地設備上運行 DeepSeek-V3.1

DeepSeek-V3.1 是 DeepSeek 於 2025 年 XNUMX 月發布的混合專家 (MoE) 聊天模型,支持 兩種推理模式 ——快速的「非思考」模式和深思熟慮的「思考」模式——從同一檢查點開始。此模型可在 Hugging Face 上使用,並可透過多種途徑在本地運行(vLLM、Ollama/llama.cpp、Ollama 風格的 GGUF 或大規模多 GPU 設定)。下文我將向您介紹運行要求、思考模式的工作原理、幾個本地運行選項(包含可運行的程式碼片段),以及一個循序漸進的「思考模式部署」方案,其中包含工具呼叫和令牌模板的範例。

什麼是 DeepSeek-V3.1?它為何重要?

DeepSeek-V3.1 是 DeepSeek 的 v3 系列更新,引入了 混合推理設計:可以運行相同的模型 思維 (深思熟慮、多步驟)或 不思考 透過更改聊天模板,可以實現更快速的(直接回答,更快)模式。從架構上看,它是一個龐大的 MoE 家族(基礎檢查點總參數約 671B,每個 token 激活約 37B),長上下文訓練擴展到 128K token,並支援 FP8 微擴展。 DeepSeek 將 V3.1 定位為代理就緒版本:與先前的 R1 版本相比,它擁有更強大的工具呼叫能力、更強大的代理技能和更高的思考效率。該版本於 2025 年 XNUMX 月發布,並已整合到 Hugging Face、CFD/OSS 工具和雲端部署指南中。

混合模型的工作原理(簡明)

  • 一個檢查點,兩個模板: 思考模式和非思考模式由 聊天模板<think>/</think> 提示中的標記約定。模型卡記錄了確切的前綴。
  • 代理/工具改進: 訓練後的提升可以實現更聰明的工具呼叫——該模型需要嚴格的工具呼叫 JSON 格式來實現安全、確定的工具執行。
  • 效能權衡: 思考模式會將代幣用於內部的思路鍊式推理,因此速度可能較慢/代幣消耗較大;而非思考模式則速度較快、成本較低。模型卡中的基準測試顯示,V3.1 在推理和程式碼基準測試方面均有顯著提升。

模型的結構

  • 教育部骨幹:總參數數量較大,但每個標記的活化子集較小(經濟推理)。
  • 長語訓練:V3.1 顯著擴展了長上下文階段(32k → 對長文檔進行更大規模的訓練),以在某些版本中支援 128K+ 視窗。
  • FP8 原生工作流程:DeepSeek 廣泛使用 FP8 格式(w8a8 / UE8M0)來提高權重/激活效率;如果您喜歡 BF16/FP16,則可以使用社區轉換腳本。

在本地運行 DeepSeek-V3.1 有哪些要求? (硬體、儲存和軟體)

運行 充分 V3.1 模型(未量化)是一項龐大的任務。以下列出了實際的設定類別及其通常需要的內容。

實用水桶

  • 集群/研究實驗室(完整模型):多個高記憶體 GPU(H100/H800 類或多個 Ada/Hopper GPU)、數十個 GPU 的多節點、大量 NVMe 儲存(數百 GB)和專門的推理框架(SGLang、vLLM、LMDeploy、TRT-LLM)。
  • 單一伺服器高端(量化):可以透過重量化(INT4/AWQ/AWQ2/gguf)和像 Ollama(預先包裝)或社群 GGUF 這樣的框架來實現——仍然需要大約幾十到幾百 GB 的 GPU RAM 或巧妙的 CPU+GPU 卸載。
  • 開發人員筆記型電腦/開發箱:不適用於完整模型;使用小型蒸餾/微調變體或連接到本機伺服器/Ollama 實例。

硬體清單(實用)

  • 圖形處理器:為了實現完整 V3.1 版本的實際推理吞吐量,需要多 GPU 叢集 (H100 / H800 / Ada Lovelace+)。 FP8 執行需要具備運算能力且驅動程式支援的 GPU。
  • RAM 和儲存:模型檔案預計佔用數百 GB 的可用磁碟空間(模型頁面顯示,具體佔用空間數百 GB,取決於格式/量化),此外還有轉換格式所需的工作空間。 Ollama 元資料顯示,庫中 DeepSeek V400 Ollama 軟體包佔用約 3.1 GB 的空間。
  • 網絡:對於多節點推理,您需要低延遲互連(NVLink / InfiniBand)和用於張量並行設定​​的編排工具。

軟體清單

  • OS:社群推理工具建議使用 Linux(DeepSeek-Infer 示範列出了 Linux/Python)。
  • 蟒蛇:3.10+(在許多 DeepSeek 範例中)。典型的軟體包版本固定在倉庫中 requirements.txt.
  • 框架和工具 (選擇一個或多個):SGLang、vLLM、LMDeploy、TRT-LLM/TensorRT-LLM、LightLLM 或 Ollama,用於更簡單的本機安裝。每個工具都有相應的說明和不同的精度/量化支援。

實用說明: 如果您只有一個消費級 GPU(例如 24-48 GB),您可能會使用量化 GGUF 或遠端推理;如果您擁有一個具有 >128 GB RAM 以及 H100/H200 級 GPU 叢集的工作站,則可以使用 vLLM 實現更高保真度的 FP8/FP16 推理。


如何在本地運行 DeepSeek-V3.1?

以下是您可以使用的幾種實用路徑,從最手動/靈活的路徑到單一開發人員框最簡單的路徑。我將提供逐步教學和程式碼範例


選項 A — 官方 DeepSeek-Infer 演示(開發/集群路徑)

這是 repo 中 FP8/BF16 推理的範例/演示。如果您打算使用多節點或想嘗試官方推理程式碼,請使用它。

  1. 克隆,準備環境
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(回購) inference/requirements.txt 列出團隊建議的固定 torch/triton/transformers 版本。 )

  1. 下載模型權重
  • 從 Hugging Face 模式頁面下載(deepseek-ai/DeepSeek-V3.1)並將它們放在 /path/to/DeepSeek-V3。模型卡和 repo 說明均為 Hugging Face 官方儲存連結。
  1. 轉換演示的權重
# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
  1. 運行互動式生成(分散式)
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

這是 DeepSeek repo 中用於叢集式運行的典型範例。


選項 B — vLLM(建議用於伺服器部署和與 OpenAI 相容的 API)

vLLM 支援 FP8/BF16 模式下的 DeepSeek,並提供與 OpenAI 相容的伺服器。由於記憶體優化和 API 相容性,它是大型模型的熱門生產路徑。

啟動一個 vLLM 伺服器,該伺服器將從 Hugging Face 取得模型 (範例模式):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

然後使用 curl 或與 OpenAI 相容的客戶端請求完成:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM 的食譜和文件包含 DeepSeek 範例以及關於 FP8 相容性和多 GPU/管線並行性的說明。對於大型模型,您仍然需要多個 GPU 或量化變體。


選項 C — LMDeploy / SGLang / LightLLM 和 TensorRT-LLM(高效能)

DeepSeek repo 明確推薦 西格朗, LM部署TensorRT-法學碩士 作為 DeepSeek V3 的最佳化引擎。它們提供了改進的推理延遲、吞吐量和 FP8 核心。

典型的 LMDeploy 呼叫(有關確切的 CLI,請參閱 LMDeploy 文件):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang 基準和啟動配方可在 repo 和 SGLang 專案中的 benchmark/deepseek_v3 資料夾。當您控制 GPU 叢集並希望實現生產吞吐量時,請使用這些堆疊。


選項 D — Ollama(最簡單的本地開發路線,通常是單機)

如果您想要以最低的摩擦方式在本機上執行 DeepSeek(並且可以節省磁碟空間), 奧拉馬 提供打包模型和簡單的 CLI(ollama pull, ollama runDeepSeek-V3.1 出現在 Ollama 庫中,可以在本地運行(Ollama 的某些功能可能需要最近/預發布版本)。

例(Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama 抽象化了許多分佈/量化細節,非常適合在單一主機上測試模型行為。注意:模型頁面列出了 Ollama 條目的打包大小約為 404GB,因此請相應地規劃磁碟和記憶體。


什麼是思維模式以及如何使用它

DeepSeek-V3.1 實現了 混合思維代幣 方法:相同的檢查點可以運行 思維 模式(內部「思路鏈」標記)或 不思考 透過切換聊天/提示模板來切換模式。該模型使用顯式標記,例如 <think> (和結束 </think> 在某些模板中)用來表示內部思維鏈與直接答案生成。模型卡記錄了非思考前綴和思考前綴,並展示了模板之間的差異。

範例:在 Python 中建構訊息(標記器助手)

Hugging Face 模型卡包含一個便利的程式碼片段,展示如何透過 tokenizer 應用聊天範本。這是建議的生成模式 思維 or 不思考 格式化的提示:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

軸體 thinking=True 產生一個使用 <think> 前綴; thinking=False 生成非思考模板。根據此標誌,模型將表現出不同的行為(內部思考 vs 立即回應)。


快速參考 — 小型故障排除和最佳實踐

如果 GPU 記憶體不足: 嘗試量化建造 (AWQ/q4/INT4) 或社群 GGUF;許多社群空間發布量化供本地使用。 Ollama / vLLM 也可以提供更小的量化建構。

如果需要模型呼叫外部工具: 採用 工具調用 模式與聊天模板中的完全一致。離線測試工具的 JSON 格式,並檢查編排程式碼(執行工具的部分)是否將經過清理的、類型化的 JSON 回傳給模型。

如果您需要長上下文: 使用帶有長上下文插件的 vLLM 或 SGLang;DeepSeek 已明確針對 32K/128K 上下文進行訓練/擴展,相關工具也支援該範圍。預計會有記憶體方面的權衡。

我真的可以在筆記型電腦或小型伺服器上運行 DeepSeek-V3.1 嗎?

簡短的回答: 是的,但有註意事項。 社群量化(AWQ/GGUF/1 位元動態)大幅減少了儲存和記憶體佔用,並使得愛好者能夠在高階桌上型電腦上運行 V3.1 版本(據稱工作集約為 170 GB)。然而:

  • 保真度與尺寸的權衡: 激進的量化會減少內存,但可能會影響推理/程式碼效能。請在你的工作負載上進行測試。
  • 法律與許可: 該模型根據模型卡獲得 MIT 許可,但第三方量化可能帶有自己的許可證;在生產使用前請進行審查。

最後的話

DeepSeek-V3.1 是邁向混合「代理」模型的重要一步,該模型具有明確的思考/非思考行為,並改進了工具的使用。如果您想在本地運行它,請選擇與您的硬體和風險承受能力相符的路徑:

用於研究: transformers + 量化安全張量並加速。

對於生產和吞吐量: vLLM + 多 GPU(H100/H200)。

對於本地實驗: Ollama/llama.cpp + 社區 GGUF(合併 + 運行)。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 DeepSeek-V3.1 透過 CometAPI,列出的最新模型版本截至本文發布之日。首先,探索模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣