2025 年 XNUMX 月,中國人工智慧新創公司 DeepSeek 宣布發布 DeepSeek-V3.1這是該公司宣稱的中期升級,也是其「邁向代理商時代」的第一步。此次更新帶來了混合推理模式(可以在「思考」或「非思考」模式下運行的單一模型)、更長的上下文窗口,以及針對工具調用和多步驟代理行為的訓練後改進。
什麼是 DeepSeek-V3.1?它為何重要?
DeepSeek-V3.1 是 DeepSeek V3 系列的最新生產級更新。從高層次上講,它是一個混合 MoE 語言模型系列(V3 譜系),DeepSeek 對其進行了後訓練和擴展,以支援兩種用戶可見的操作模式。您會發現兩個主要版本:DeepSeek-V3.1-Base 和完整的 DeepSeek-V3.1:
- 不思考(deepseek-chat): 針對速度和對話使用進行最佳化的標準聊天完成模式。
- 思考(deepseek-reasoner): 一種優先考慮結構化、多步驟推理和工具/代理協調的代理推理模式。
此版本重點在於三個明顯的改進:平衡延遲和能力的混合推理管道、更聰明的工具呼叫/代理編排以及大幅擴展的上下文視窗(宣傳為 128K 令牌)。
為什麼它的事項: DeepSeek-V3.1 延續了更廣泛的行業趨勢,即將高效的大規模 MoE 架構與工具原語和超長上下文視窗相結合。這種組合對於企業代理、搜尋加推理工作流程、長文件摘要和工具驅動的自動化至關重要,因為這些應用既需要高吞吐量,又需要確定性地「呼叫」外部工具的能力。
DeepSeek-V3.1 與之前的 DeepSeek 版本有何不同?
混合推理:一個模型,兩種操作模式
主要架構變化是 混合推理DeepSeek 將 V3.1 描述為在同一模型實例中同時支援「思考」模式和「非思考」模式,可透過變更聊天範本或 UI 切換按鈕(DeepSeek 的「DeepThink」按鈕)進行選擇。實際上,這意味著可以根據開發人員的需求,指示模型產生內部推理軌跡(適用於思路鍊式代理工作流程)或直接回應而不暴露中間推理標記。 DeepSeek 將此視為一條通往更具代理性工作流程的途徑,同時允許應用程式選擇延遲/冗長程度的權衡。
更大的上下文視窗和標記原語
官方發布說明報告 更大的上下文視窗 在 V3.1 中;社群測試和公司貼文將擴展上下文放在 128k 代幣 對於某些託管變體,它能夠支援更長的對話、多文件推理或較長的程式碼庫,並將它們輸入到單一會話中。此外,據報導,DeepSeek 還引入了一些特殊的控制令牌(例如 <|search_begin|>/<|search_end|>, <think> / </think>) 旨在建立工具呼叫並在內部劃分「思考」部分-這是一種簡化與外部工具協調的設計模式。
增強代理/工具能力並改善延遲
DeepSeek 指出 V3.1 受益於 訓練後優化 專注於工具呼叫和多步驟代理任務:據稱,該模型在「思考」模式下比之前的 DeepSeek R1 版本更快地獲得答案,並且在調用外部 API 或執行多步驟計劃時更加可靠。這種定位——更快但更適合代理商的推理能力——對於建立助手、自動化或代理商工作流程的團隊來說,是一個明顯的產品差異化優勢。
DeepSeek-V3.1 背後的架構是什麼?
DeepSeek-V3.1 建立在 DeepSeek-V3 系列的核心研究基礎上: 混合式專家 (MoE) 其核心架構採用了一系列旨在提高效率和規模的架構創新。 DeepSeek-V3(底層系列)的公開技術報告描述了以下內容:
- 一個擁有數千億個總參數的大型 MoE 設計,以及一個較小的 活性 每個令牌的參數數量(模型卡列出了總共 671B 個參數,每個令牌啟動了大約 37B 個參數)。
- 多頭潛在註意力 (MLA) 和自訂 DeepSeekMoE 路由和擴展方法可在保留容量的同時降低推理成本。
- 訓練目標和負載平衡策略無需輔助負載平衡損失項,並採用多令牌預測目標來提高吞吐量和序列建模。
為什麼選擇 MoE + MLA?
混合專家模型 (Mixture-of-Experts) 使模型能夠保持較高的理論參數數量,同時每個 token 僅激活一部分專家——這減少了每個 token 的計算量。 MLA 是 DeepSeek 的注意力機制變體,可幫助模型在眾多專家和長上下文中高效地擴展注意力操作。這些選擇共同使其能夠訓練和處理非常大的檢查點,同時保持可用於多種部署的推理成本。
DeepSeek-V3.1 在基準測試和實際測試中的表現如何?
V3.1 的比較結果
- 關於 V3 (0324): V3.1 全面升級,特別是在編碼和代理任務方面。例如: 即時代碼平台 從 43.0→56.4 (不思考)和 →74.8 (思維); 輔助多語言者 55.1 → 68.4 / 76.3.
- 與 R1-0528 相比: R1 仍然是一個強而有力的「推理調整」比較點,但是 V3.1-思考頻率等於或超過R1-0528 (AIME/HMMT、LiveCodeBench),同時也提供了低延遲使用的非思考路徑。
- 常識(MMLU變體): 從「思考」角度考慮,V3.1 的位置略低於 R1-0528,但高於舊版 V3。
常識與學術
| 基準(公制) | V3.1-無思考 | V3(0324) | V3.1-思考 | R1-0528 |
|---|---|---|---|---|
| MMLU-Redux (精確匹配) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-專業版 (精確匹配) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-鑽石級 (通行證@1) | 74.9 | 68.4 | 80.1 | 81.0 |
這意味著什麼: V3.1 在知識/學術任務上比 V3 有所改進;「思考」在棘手的科學問題上縮小了與 R1 的差距(GPQA-Diamond)。
編碼(非代理)
| 基準(公制) | V3.1-無思考 | V3(0324) | V3.1-思考 | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench(2408-2505) (通行證@1) | 56.4 | 43.0 | 74.8 | 73.3 |
| 輔助多語言者 (準確性) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (等級) | - | - | 2091 | 1930 |
注意:
- LiveCodeBench(2408-2505) 表示聚合視窗(2024 年 2025 月→1 年 XNUMX 月)。 Pass@XNUMX 值越高,則在不同編碼任務上的首次嘗試正確率就越高。
- 輔助多語言者 模擬多種語言的助手式程式碼編輯;V3.1-Thinking 處於領先地位,V3.1-NonThinking 比 V3 (0324) 有了顯著的飛躍。
- 模型卡顯示 V3 (0324) 55.1% 在Aider上-與Aider該年份的公開排行榜條目一致。 (V3.1的較高分數是模型卡上的新內容。)
編碼(代理任務)
| 基準(公制) | V3.1-無思考 | V3(0324) | V3.1-思考 | R1-0528 |
|---|---|---|---|---|
| SWE 已驗證 (代理模式) | 66.0 | 45.4 | - | 44.6 |
| SWE-bench 多語言 (代理模式) | 54.5 | 29.3 | - | 30.5 |
| 終端台 (1號終點站框架) | 31.3 | 13.3 | - | 5.7 |
重要警告: 這些都是 使用 DeepSeek 內部框架進行代理評估 (工具、多步驟執行),而不是純粹的下一個 token 解碼測試。它們捕獲“LLM + 編排”功能。將其視為 系統 結果(可重複性取決於確切的代理堆疊和設定)。
數學與競賽推理
| 基準(公制) | V3.1-無思考 | V3(0324) | V3.1-思考 | R1-0528 |
|---|---|---|---|---|
| 愛美2024 (通行證@1) | 66.3 | 59.4 | 93.1 | 91.4 |
| 愛美2025 (通行證@1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (通行證@1) | 33.5 | 29.2 | 84.2 | 79.4 |
外賣店: 「思考」模式驅動 很大 數學競賽集的提升——據報道,V3.1-Thinking 在 AIME/HMMT 上的成績超過了 R1-0528。
搜尋增強/“代理”問答
| 基準(公制) | V3.1-無思考 | V3(0324) | V3.1-思考 | R1-0528 |
|---|---|---|---|---|
| 瀏覽Comp | - | - | 30.0 | 8.9 |
| BrowseComp_zh | - | - | 49.2 | 35.7 |
| 人類的最後考試(Python + 搜尋) | - | - | 29.8 | 24.8 |
| 簡單問答 | - | - | 93.4 | 92.3 |
| 人類的最後考試(純文字) | - | - | 15.9 | 17.7 |
請注意: DeepSeek 聲稱搜尋代理結果使用其內部搜尋框架(商業搜尋 API + 頁面過濾,128K 上下文)。方法論至關重要;復現需要類似的工具。
有哪些限制,未來的道路又如何?
DeepSeek-V3.1 是一個重要的工程和產品步驟:它將長上下文訓練、混合模板和 MoE 架構整合成一個廣泛使用的檢查點。然而,仍然存在一些限制:
- 現實世界的代理安全、長上下文摘要中的幻覺以及對抗性提示行為仍然需要係統級緩解。
- 基準測試令人鼓舞但不統一:效能因領域、語言和評估套件而異;需要獨立驗證。
- 地緣政治和供應鏈因素(硬體可用性和晶片相容性)先前已經影響了 DeepSeek 的時間表,並可能影響客戶的大規模部署方式。
透過 CometAPI 開始
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
開發人員可以訪問 深尋R1(deepseek-r1-0528) 和 DeepSeek-V3.1 透過 彗星API,列出的最新模型版本截至本文發布之日。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
結論
DeepSeek-V3.1 代表了務實的、以工程為導向的更新:更大的上下文視窗、混合思考/非思考推理、改進的工具互動以及與 OpenAI 相容的 API,使其成為團隊建立的有吸引力的選擇 代理助理、長上下文應用程式和低成本面向程式碼的工作流程.
