DeepSeek-V3.1-Terminus:特性、基準測試與意義

CometAPI
AnnaSep 23, 2025
DeepSeek-V3.1-Terminus:特性、基準測試與意義

DeepSeek-V3.1-Terminus 是 DeepSeek 系列的最新改進版本——一個混合型、面向代理的大型語言模型 (LLM),DeepSeek 將其定位為傳統聊天模型與更強大的代理系統之間的橋樑。 Terminus 並非全新的基礎網絡,而是作為 V3.1 系列的定向服務包式更新,專注於穩定性、語言一致性以及更強大的代理/工具性能(尤其是代碼和搜尋代理)。該版本已透過 DeepSeek 的 API 和 Hugging Face 發行版提供,並已整合到多個提供者生態系統中。

下面我將深入解釋該模型。

什麼是 DeepSeek-V3.1-Terminus?

DeepSeek-V3.1-Terminus 是 DeepSeek V3 系列的最新發布版本——這是該公司高容量混合專家 (MoE) 模型的穩定性和代理導向的改進版本。 DeepSeek-V3.1-Terminus 更新重點解決了早期 V3 版本中報告的兩個實際用戶問題:偶爾出現的語言混合/字元故障以及代理/工具行為不一致。 DeepSeek 將此次發布描述為維護和強化步驟,旨在保留 V3 的原始功能,同時提升穩定性、代理工具使用(尤其是代碼代理和搜索代理)以及跨基準測試的可靠性;模型和權重可通過 DeepSeek 的渠道和 Hugging Face 獲取。

這實際上意味著:

  • 它是 DeepSeek V3.1 的增量升級,專注於代理/工具使用(代碼代理、搜尋代理)和多步驟推理改進。
  • 團隊報告稱,與先前的 V3.1 相比,語言混合錯誤更少,輸出更穩定。
  • 它支援「思考」和「非思考」聊天範本(混合推理模式)以及代理工作流程的結構化工具呼叫。

廣義的建築設計是什麼?

DeepSeek-V3.1(以及 Terminus 的擴展版本)是一個混合推理大型模型:該模型系列融合了大規模混合專家 (MoE) 式擴展和主動參數路由,因此系統既可以在“思考”模式(深度內部推理和工具規劃)下運行,也可以在“非思考”聊天模式(低延遲、直接響應)下運行。這種混合設計透過不同的聊天模板和運行時模式向開發者開放,而不是透過單獨的模型——同一個底層網路支援這兩種行為。

「代理」如何融入架構中?

DeepSeek 的代理能力建立在核心模型推理之上:專門的代理模組(程式碼代理、搜尋代理、瀏覽代理、終端代理)以引導式工具使用行為的形式實現,模型可以學習呼叫這些行為。 DeepSeek-V3.1-Terminus 透過訓練後優化和改進的提示模板,提升了這些代理的可靠性和協調性。實際上,這些代理並非獨立的神經網絡,而是經過訓練的行為模式(有時是輕量級控制器),它們指示基礎模型何時以及如何調用外部工具或操作。

V3.1-Terminus 的主要改進有哪些?

Terminus 解決了哪些使用者問題?

DeepSeek-V3.1-Terminus 的發布主要是為了回應兩類實際的使用者回饋:

  1. 語言穩定性: 用戶報告稱,在多語言環境下,偶爾會出現語言混合(輸出中混入中文/英文代碼點)、雜散字元或“亂碼”,以及分詞不一致的情況。 DeepSeek-V3.1-Terminus 包含旨在減少此類情況的修復程序。
  2. 代理可靠性: 使用者要求模型在呼叫工具鏈(代碼代理、搜尋代理、終端代理)時表現出更穩健、可重複的行為。 DeepSeek-V3.1-Terminus 包含訓練後和提示/範本的改進,旨在穩定工具使用並減少代理幻覺或計劃執行不完整的情況。

解決方案

DeepSeek-V3.1-Terminus 是一個品質和穩健性增強的版本。該公司列出了幾項具體的修復和優化:

  • 語言一致性修復: 減少意外的中文/英文混合,並刪除有時在輸出中出現的罕見異常字元。
  • 代理穩健性: 程式碼代理程式和搜尋代理程式顯著改進,工具呼叫保真度更高,工具呼叫錯亂的情況更少。 Terminus 加強了程式碼代理從提示符號到執行器的切換,改進了搜尋代理程式對搜尋結果的解讀,並減少了鍊式操作期間的虛假標記化偽影-所有這些都旨在使端對端代理工作流程(例如,查詢 → 搜尋 → 程式碼產生 → 執行)更加確定,並降低出錯率。
  • 跨基準的穩定性: 與早期的 V3 版本相比,該團隊報告的常見基準測試得分更加穩定(差異較小)。

DeepSeek 將 Terminus 定義為與現有的 V3.1 整合點相容——聊天和「推理器」端點已進行相應升級。從工程角度來看,這使得 Terminus 成為一個附加的可靠性/品質版本,而非重大的 API 變更。不過,對於依賴精確計時的應用程式來說,服務特定的行為(例如,思考模式下的輕微延遲差異)是可以預料的。

DeepSeek-V3.1-Terminus 在基準測試中的表現如何?

DeepSeek 發布了哪些基準數據?

DeepSeek 發布了 V3.1 和 V3.1-Terminus 在推理、程式碼、代理和多語言測試方面的對比基準分數。公開表格中的代表性項目包括:

  • MMLU-Pro(推理):V3.1 = 84.8 → 終點 = 85.0.
  • GPQA-鑽石級:80.1 → 80.7.
  • 人類的最後考試:15.9 → 21.7 (在專門的基準上有明顯的提升)。
  • LiveCodeBench / 程式碼:74.8 → 74.9 (小幅上漲)。
  • Codeforces(分數):2091 → 2046 (編碼競賽總分略有變動)。

代理/工具使用基準顯示出更大的相對改進:

  • BrowseComp(代理網頁導航):30.0 → 38.5.
  • Terminal-bench(命令列權限):31.3 → 36.7.
  • SWE 驗證(軟體工程驗證):66.0 → 68.4.
  • SimpleQA(QA準確率):93.4 → 96.8.

這些數字表明,雖然原始推理能力的提升不大,但代理和工具使用能力卻得到了實質的提升——這正是 DeepSeek 為 Terminus 所瞄準的領域。

基準在實際中意味著:

  • 小推理收益 顯示核心模型權重沒有顯著變化;改進來自於更好的訓練資料管理和推理流程。
  • 更大的代理收益 顯示模型現在可以更可靠地選擇和使用工具,從而轉化為更好的實際任務,如多步驟網路研究、程式碼產生+測試週期和命令列自動化。

DeepSeek-V3.1-Terminus 有哪些進階功能?

Agentic工具套件:代碼代理、搜尋代理、終端代理

Terminus 加倍強調代理功能,讓開發人員協調多步驟的外部工作流程:

  • 代碼代理: 產生可運行程式碼,驅動執行循環(在提供者沙箱中),並提供迭代調試幫助。此次更新旨在減少畸形程式碼片段,並提升演算法任務的逐步推理能力。
  • 搜尋代理/瀏覽代理: 將多步驟網頁查詢排序,整合搜尋結果,並根據所取得的資料合成答案。已發布的 BrowseComp 增量表示瀏覽穩定性更高。
  • 終端代理: 旨在與 Shell/終端任務(例如,建立多命令序列、解析輸出)交互,用於「終端工作台」式評估,其中模型必須規劃和執行命令序列。 Terminus 展示了改進的終端工作台效能。

混合思維/非思維運作模式

一個實用的設計細節是,該模型支援「思考」模板(更多內部計算,更多規劃)和「非思考」或聊天模板(更低延遲)。 DeepSeek 透過端點變體公開這兩種模板(deepseek-chat deepseek-reasoner),以便整合商可以根據請求選擇品質/延遲設定檔。 Terminus 對這些模板進行了標準化和完善,以減少早期 V3.1 版本中出現的異常行為差異。

開發人員人體工學:模板、演示和模型樹

DeepSeek 發布了更新的推理範例、更清晰的 Hugging Face 模型樹以及量化權重,以支援局部或邊緣實驗。這種專注於部署工件(量化模型、推理簡報程式碼)的做法,降低了整合人員在自身環境中試用模型的門檻。

Terminus 對開發者意味著什麼

  • 如果您已經使用 DeepSeek V3.1: DeepSeek-V3.1-Terminus 應該是一個低摩擦升級,專注於可靠性。依賴代理功能(搜尋、程式碼執行、終端工作流程)的團隊最有可能看到實際的改進。該公司升級了就地端點,因此整合變更應該很小。
  • 如果您評估工具密集型應用程式的模型: DeepSeek-V3.1-Terminus 強調代理穩定性——如果您的應用需要多步驟工具編排,那麼值得將其添加到您的候選名單中。但您仍然應該運行與您的領域相關的基準測試程式和對抗性提示。

結論-DeepSeek-V3.1-Terminus 是否重要?

DeepSeek-V3.1-Terminus 最好被理解為一個以品質和可靠性為目標的版本:它不會重新架構或徹底調整整個系列的規模,而是解決了影響生產部署的緊迫實際問題——語言穩定性、代理工具可靠性以及代理任務中雖小但實質性的基準提升。對於依賴整合式多步驟工具流程(搜尋編排、程式碼產生+執行、終端自動化)的開發人員來說,Terminus 代表著向前邁出的重要一步。而對於那些只專注於原始單遍推理基準測試的人來說,提升幅度並不大。

入門

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發者可以透過 CometAPI 存取 DeepSeek-V3.1-Terminus, 最新型號版本 始終與官方網站同步更新。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。

準備出發了嗎? → 立即註冊 CometAPI !

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣