DeepSeek-V3.1：功能、架構和基準

2025 年 XNUMX 月，中國人工智慧新創公司 DeepSeek 宣布發布 DeepSeek-V3.1這是該公司宣稱的中期升級，也是其「邁向代理商時代」的第一步。此次更新帶來了混合推理模式（可以在「思考」或「非思考」模式下運行的單一模型）、更長的上下文窗口，以及針對工具調用和多步驟代理行為的訓練後改進。

什麼是 DeepSeek-V3.1？它為何重要？

DeepSeek-V3.1 是 DeepSeek V3 系列的最新生產級更新。從高層次上講，它是一個混合 MoE 語言模型系列（V3 譜系），DeepSeek 對其進行了後訓練和擴展，以支援兩種用戶可見的操作模式。您會發現兩個主要版本：DeepSeek-V3.1-Base 和完整的 DeepSeek-V3.1：

不思考（deepseek-chat）： 針對速度和對話使用進行最佳化的標準聊天完成模式。
思考（deepseek-reasoner）： 一種優先考慮結構化、多步驟推理和工具/代理協調的代理推理模式。

此版本重點在於三個明顯的改進：平衡延遲和能力的混合推理管道、更聰明的工具呼叫/代理編排以及大幅擴展的上下文視窗（宣傳為 128K 令牌）。

為什麼它的事項： DeepSeek-V3.1 延續了更廣泛的行業趨勢，即將高效的大規模 MoE 架構與工具原語和超長上下文視窗相結合。這種組合對於企業代理、搜尋加推理工作流程、長文件摘要和工具驅動的自動化至關重要，因為這些應用既需要高吞吐量，又需要確定性地「呼叫」外部工具的能力。

DeepSeek-V3.1 與之前的 DeepSeek 版本有何不同？

混合推理：一個模型，兩種操作模式

主要架構變化是 混合推理DeepSeek 將 V3.1 描述為在同一模型實例中同時支援「思考」模式和「非思考」模式，可透過變更聊天範本或 UI 切換按鈕（DeepSeek 的「DeepThink」按鈕）進行選擇。實際上，這意味著可以根據開發人員的需求，指示模型產生內部推理軌跡（適用於思路鍊式代理工作流程）或直接回應而不暴露中間推理標記。 DeepSeek 將此視為一條通往更具代理性工作流程的途徑，同時允許應用程式選擇延遲/冗長程度的權衡。

更大的上下文視窗和標記原語

官方發布說明報告 更大的上下文視窗 在 V3.1 中；社群測試和公司貼文將擴展上下文放在 128k 代幣 對於某些託管變體，它能夠支援更長的對話、多文件推理或較長的程式碼庫，並將它們輸入到單一會話中。此外，據報導，DeepSeek 還引入了一些特殊的控制令牌（例如 <｜search_begin｜>/<｜search_end｜>, <think> / </think>) 旨在建立工具呼叫並在內部劃分「思考」部分－這是一種簡化與外部工具協調的設計模式。

增強代理/工具能力並改善延遲

DeepSeek 指出 V3.1 受益於 訓練後優化 專注於工具呼叫和多步驟代理任務：據稱，該模型在「思考」模式下比之前的 DeepSeek R1 版本更快地獲得答案，並且在調用外部 API 或執行多步驟計劃時更加可靠。這種定位——更快但更適合代理商的推理能力——對於建立助手、自動化或代理商工作流程的團隊來說，是一個明顯的產品差異化優勢。

DeepSeek-V3.1 背後的架構是什麼？

DeepSeek-V3.1 建立在 DeepSeek-V3 系列的核心研究基礎上： 混合式專家 (MoE) 其核心架構採用了一系列旨在提高效率和規模的架構創新。 DeepSeek-V3（底層系列）的公開技術報告描述了以下內容：

一個擁有數千億個總參數的大型 MoE 設計，以及一個較小的活性每個令牌的參數數量（模型卡列出了總共 671B 個參數，每個令牌啟動了大約 37B 個參數）。
多頭潛在註意力 (MLA) 和自訂 DeepSeekMoE 路由和擴展方法可在保留容量的同時降低推理成本。
訓練目標和負載平衡策略無需輔助負載平衡損失項，並採用多令牌預測目標來提高吞吐量和序列建模。

為什麼選擇 MoE + MLA？

混合專家模型 (Mixture-of-Experts) 使模型能夠保持較高的理論參數數量，同時每個 token 僅激活一部分專家——這減少了每個 token 的計算量。 MLA 是 DeepSeek 的注意力機制變體，可幫助模型在眾多專家和長上下文中高效地擴展注意力操作。這些選擇共同使其能夠訓練和處理非常大的檢查點，同時保持可用於多種部署的推理成本。

DeepSeek-V3.1 在基準測試和實際測試中的表現如何？

V3.1 的比較結果

關於 V3 (0324)： V3.1 全面升級，特別是在編碼和代理任務方面。例如： 即時代碼平台 從 43.0→56.4 （不思考）和 →74.8 （思維）; 輔助多語言者 55.1 → 68.4 / 76.3.
與 R1-0528 相比： R1 仍然是一個強而有力的「推理調整」比較點，但是 V3.1-思考頻率等於或超過R1-0528 （AIME/HMMT、LiveCodeBench），同時也提供了低延遲使用的非思考路徑。
常識（MMLU變體）： 從「思考」角度考慮，V3.1 的位置略低於 R1-0528，但高於舊版 V3。

常識與學術

基準（公制）	V3.1-無思考	V3（0324）	V3.1-思考	R1-0528
MMLU-Redux （精確匹配）	91.8	90.5	93.7	93.4
MMLU-專業版（精確匹配）	83.7	81.2	84.8	85.0
GPQA-鑽石級（通行證@1）	74.9	68.4	80.1	81.0

這意味著什麼： V3.1 在知識/學術任務上比 V3 有所改進；「思考」在棘手的科學問題上縮小了與 R1 的差距（GPQA-Diamond）。

編碼（非代理）

基準（公制）	V3.1-無思考	V3（0324）	V3.1-思考	R1-0528
LiveCodeBench（2408-2505）（通行證@1）	56.4	43.0	74.8	73.3
輔助多語言者（準確性）	68.4	55.1	76.3	71.6
Codeforces-Div1 （等級）	-	-	2091	1930

注意：

LiveCodeBench（2408-2505） 表示聚合視窗（2024 年 2025 月→1 年 XNUMX 月）。 Pass@XNUMX 值越高，則在不同編碼任務上的首次嘗試正確率就越高。
輔助多語言者 模擬多種語言的助手式程式碼編輯；V3.1-Thinking 處於領先地位，V3.1-NonThinking 比 V3 (0324) 有了顯著的飛躍。
模型卡顯示 V3 (0324) 55.1% 在Aider上－與Aider該年份的公開排行榜條目一致。（V3.1的較高分數是模型卡上的新內容。）

編碼（代理任務）

基準（公制）	V3.1-無思考	V3（0324）	V3.1-思考	R1-0528
SWE 已驗證（代理模式）	66.0	45.4	-	44.6
SWE-bench 多語言（代理模式）	54.5	29.3	-	30.5
終端台（1號終點站框架）	31.3	13.3	-	5.7

重要警告： 這些都是 使用 DeepSeek 內部框架進行代理評估 （工具、多步驟執行），而不是純粹的下一個 token 解碼測試。它們捕獲“LLM + 編排”功能。將其視為系統結果（可重複性取決於確切的代理堆疊和設定）。

數學與競賽推理

基準（公制）	V3.1-無思考	V3（0324）	V3.1-思考	R1-0528
愛美2024 （通行證@1）	66.3	59.4	93.1	91.4
愛美2025 （通行證@1）	49.8	51.3	88.4	87.5
HMMT 2025 （通行證@1）	33.5	29.2	84.2	79.4

外賣店： 「思考」模式驅動很大數學競賽集的提升——據報道，V3.1-Thinking 在 AIME/HMMT 上的成績超過了 R1-0528。

搜尋增強/“代理”問答

基準（公制）	V3.1-無思考	V3（0324）	V3.1-思考	R1-0528
瀏覽Comp	-	-	30.0	8.9
BrowseComp_zh	-	-	49.2	35.7
人類的最後考試（Python + 搜尋）	-	-	29.8	24.8
簡單問答	-	-	93.4	92.3
人類的最後考試（純文字）	-	-	15.9	17.7

請注意： DeepSeek 聲稱搜尋代理結果使用其內部搜尋框架（商業搜尋 API + 頁面過濾，128K 上下文）。方法論至關重要；復現需要類似的工具。

有哪些限制，未來的道路又如何？

DeepSeek-V3.1 是一個重要的工程和產品步驟：它將長上下文訓練、混合模板和 MoE 架構整合成一個廣泛使用的檢查點。然而，仍然存在一些限制：

現實世界的代理安全、長上下文摘要中的幻覺以及對抗性提示行為仍然需要係統級緩解。
基準測試令人鼓舞但不統一：效能因領域、語言和評估套件而異；需要獨立驗證。
地緣政治和供應鏈因素（硬體可用性和晶片相容性）先前已經影響了 DeepSeek 的時間表，並可能影響客戶的大規模部署方式。

透過 CometAPI 開始

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問深尋R1(deepseek-r1-0528) 和 DeepSeek-V3.1 透過彗星API，列出的最新模型版本截至本文發布之日。首先，探索該模型的功能游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

結論

DeepSeek-V3.1 代表了務實的、以工程為導向的更新：更大的上下文視窗、混合思考/非思考推理、改進的工具互動以及與 OpenAI 相容的 API，使其成為團隊建立的有吸引力的選擇 代理助理、長上下文應用程式和低成本面向程式碼的工作流程.