Kimi k2.5 的技術規格
| 項目 | 數值/說明 |
|---|---|
| 模型名稱/供應商 | Kimi-K2.5 (v1.0) — Moonshot AI(開放權重)。 |
| 架構家族 | 混合專家(MoE)混合推理模型(DeepSeek 風格的 MoE)。 |
| 參數(總量/啟用) | 約 1 兆總參數;每個 token 約啟用 ~32B 參數(據報為 384 個專家、每個 token 選擇 8 個專家)。 |
| 模態(輸入/輸出) | 輸入:文字、圖片、影片(多模態)。輸出:以文字為主(豐富的推理軌跡),亦可選擇結構化工具呼叫/多步驟輸出。 |
| 上下文視窗 | 256k tokens |
| 訓練資料 | 持續預訓練於約 ~15 兆混合視覺 + 文字 token(供應商報告)。訓練標籤/資料集組成:未公開。 |
| 模式 | Thinking 模式(返回內部推理軌跡;建議 temp=1.0)與 Instant 模式(無推理軌跡;建議 temp=0.6)。 |
| Agent 功能 | Agent Swarm/平行子代理:協調器最多可生成 100 個子代理,並執行大量工具呼叫(供應商聲稱最多可達 ~1,500 次工具呼叫;平行執行可縮短執行時間)。 |
什麼是 Kimi K2.5?
Kimi K2.5 是 Moonshot AI 的開放權重旗艦大型語言模型,其設計定位為原生多模態且以代理為導向的系統,而不是帶有附加元件的純文字 LLM。它將語言推理、視覺理解與長上下文處理整合至單一架構中,能夠完成涉及文件、圖片、影片、工具與代理的複雜多步驟任務。
它專為長時程、工具增強型工作流程(程式設計、多步搜尋、文件/影片理解)而設計,並提供兩種互動模式(Thinking 與 Instant)以及原生 INT4 量化,以實現高效率推論。
Kimi K2.5 的核心特性
- 原生多模態推理
視覺與語言自預訓練開始即進行聯合訓練。Kimi K2.5 可跨圖片、螢幕截圖、圖表與影片影格進行推理,而無需依賴外部視覺轉接器。 - 超長上下文視窗(256K tokens)
可在不截斷上下文的情況下,對整個程式碼庫、長篇研究論文、法律文件或長時間多輪對話進行持續推理。 - Agent Swarm 執行模型
支援動態建立與協調最多 ~100 個專業化子代理,以便針對複雜工作流程進行平行規劃、工具使用與任務拆解。 - 多種推論模式
- Instant 模式:用於低延遲回應
- Thinking 模式:用於深度多步推理
- Agent / Swarm 模式:用於自主任務執行與協調
- 強大的 vision-to-code 能力
可將 UI mockup、螢幕截圖或影片示範轉換為可運作的前端程式碼,並可利用視覺上下文除錯軟體。 - 高效率 MoE 擴展
MoE 架構僅在每個 token 上啟用部分專家,因此相較於稠密模型,能以可控的推論成本實現兆級參數容量。
Kimi K2.5 的基準測試表現
公開報告的基準測試結果(主要聚焦於推理場景):
推理與知識基準
| Benchmark | Kimi K2.5 | GPT-5.2 (xhigh) | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| HLE-Full (with tools) | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 |
| IMO-AnswerBench | 81.8 | 86.3 | 78.5 | 83.1 |
視覺與影片基準
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVista (Mini) | 90.1 | 82.8* | 80.2* | 89.8* |
| VideoMMMU | 87.4 | 86.0 | — | 88.4 |
帶有 標記的分數表示原始來源報告中的評估設定存在差異。
整體而言,Kimi K2.5 在多模態推理、長上下文任務與代理式工作流程方面展現出很強的競爭力,尤其是在超越短篇問答的評估場景中。
Kimi K2.5 與其他前沿模型的比較
| 維度 | Kimi K2.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| 多模態 | 原生(vision + text) | 整合模組 | 整合模組 |
| 上下文長度 | 256K tokens | 長(確切上限未公開) | 長(通常 <256K) |
| 代理協調 | 多代理 swarm | 側重單代理 | 側重單代理 |
| 模型存取 | 開放權重 | 專有 | 專有 |
| 部署方式 | 本地/雲端/自訂 | 僅 API | 僅 API |
模型選型建議:
- 若需開放權重部署、研究、長上下文推理或複雜代理工作流程,請選擇 Kimi K2.5。
- 若需具備強大工具生態的生產級通用智慧,請選擇 GPT-5.2。
- 若需與 Google 生產力與搜尋生態深度整合,請選擇 Gemini 3 Pro。
代表性使用案例
- 大規模文件與程式碼分析
在單一上下文視窗中處理整個程式碼倉庫、法律語料庫或研究檔案。 - 視覺化軟體工程工作流程
利用螢幕截圖、UI 設計或錄製互動來生成、重構或除錯程式碼。 - 自主代理管線
透過 agent swarms 執行涵蓋規劃、檢索、工具呼叫與綜合的端到端工作流程。 - 企業知識自動化
分析內部文件、試算表、PDF 與簡報,產生結構化報告與洞察。 - 研究與模型自訂
開放模型權重可支援微調、對齊研究與各類實驗。
限制與注意事項
- 高硬體需求:全精度部署需要大量 GPU 記憶體;生產環境通常依賴量化(例如 INT4)。
- Agent Swarm 成熟度:進階多代理行為仍在演進中,可能需要精心設計協調流程。
- 推論複雜度:最佳效能取決於推論引擎、量化策略與路由配置。
如何透過 CometAPI 存取 Kimi k2.5 API
第 1 步:註冊 API Key
登入 cometapi.com。若你尚未成為我們的使用者,請先註冊。登入你的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 處點擊「Add Token」,取得 token key:sk-xxxxx 並提交。

第 2 步:向 Kimi k2.5 API 發送請求
選擇「kimi-k2.5」端點以發送 API 請求,並設定 request body。請求方法與 request body 可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試以方便你使用。請替換為你帳戶中的實際 CometAPI key。base url 為 Chat Completions。
將你的問題或請求插入 content 欄位中——這就是模型將回應的內容。處理 API 回應以取得生成的答案。
第 3 步:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。