MiniMax M2.5: 程式碼基準測試、定價與使用指南

一款全面升級的通用模型 MiniMax M2.5，由 MiniMax 宣佈，定位為專為代理型工作流程、程式碼生成與「真實世界生產力」打造的模型。該公司將 M2.5 描述為在數十萬個複雜環境中進行大規模強化學習訓練的成果，在程式碼基準測試、工具使用與長上下文推理方面取得重大進步，同時提升推理效率與成本效益。

你已可在 MiniMax M2.5 的 CometAPI 上看到它。其價格在 CometAPI 中為官方價格的 20%。

什麼是 MiniMax M2.5？為何重要？

MiniMax M2.5 是 MiniMax 的最新重大版本，這個模型家族以高吞吐量、代理型工作流程，尤其是程式生產力為核心定位。於 2026 年 2 月中旬宣佈的 M2.5，在公司先前的 M 系列工作基礎上，擴展了上下文窗口、加強了工具整合原語，並在「AI 原生工作空間」的訓練上聚焦於讓模型主動協調瀏覽器搜尋、API 呼叫與程式碼執行步驟，而非僅返回文字。發佈訊息將 M2.5 定位不只是一般對話的升級，而是平台級的推進：旨在加速開發者生產力、自動化重複性工程任務，並作為代理驅動產品的引擎。

其重要性體現在兩方面。首先，該模型達成了一系列實用基準與吞吐目標，使其對生產系統具有吸引力（不只是研究展示）。其次，此次發佈表明供應商如何優先考量整合工具使用與 Token 效率：M2.5 明確調校以降低多步任務中的工具呼叫輪次與 Token 消耗，這在真實世界部署中可直接轉化為更低的成本與延遲。

MiniMax M2.5 在程式碼基準測試中的表現如何？

程式碼表現總覽

MiniMax M2.5 因其在業界常用的標準程式碼基準上展現出的實際程式生成與推理能力而迅速獲得關注：

Benchmark Suite	M2.5 Result	Explanation
SWE-Bench Verified	80.2%	測量修復真實 GitHub 問題的能力；接近頂尖表現。
Multi-SWE-Bench	51.3%	評估多檔案、跨倉庫的程式碼可靠性。
SWE-Bench Pro	55.4%	更困難的真實世界程式測試。

基準數據顯示，M2.5 的程式能力已與高度排名的專有模型（如 Anthropic 的 Claude Opus 4.6 與 OpenAI 的 GPT-5.2）相匹敵，將 M2.5 推向適合生產級軟體工程任務的頂尖競爭者之列。在此基準中得分超過 80% 表明 M2.5 能夠提供「務實的軟體工程協助」，而非僅是理論的程式碼生成。這對以正確性、可靠性與可維護性為首要優先的企業工作流程尤為重要。

這些數字顯示，M2.5 以「業界領先」水準運作，同時避免了許多封閉專有系統常見的高昂定價負擔——這直接挑戰了近期行業中「高性能必然對應高成本」的認知。

在真實工程流程中的行為表現如何？

除了原始分數，更值得注意的是 M2.5 的架構針對「代理型管線」。該模型包含用於交錯式思考（在工具呼叫之間進行內部推演）的原語、更強的多輪程式推理，以及面向長程式碼庫的上下文管理策略。早期測試中，評測者報告 M2.5 在某些類型的任務中產生了大量可直接提交的程式碼，且相比於早期 MiniMax 版本需要更少的人為修正。這種組合——更高的一次正確率與更少的反覆往返——使 M2.5 對程式協作與 CI 自動化角色更具吸引力。

MiniMax M2.5 的搜尋與工具呼叫

儘管程式表現往往是面向開發者的 LLM 核心指標，M2.5 的設計指向「更廣泛的生產力」：

Task Type	Benchmark	M2.5 Score
Web Search & Context	BrowseComp	76.3%
Tool-Use Reasoning	BFCL Multi-Turn	76.8%
Workflow Orchestration	MEWC (Multi-Expert)	74.4%
Office Productivity	VIBE-Pro Suite	54.2%

這些指標突顯 M2.5 的能力延伸至「密集、多步推理」、在儲存的上下文內有效搜尋，以及長期工具互動——這些都是打造強健多模態 AI 助手與代理的關鍵能力。

能有效找到並使用工具嗎？

M2.5 的一項重點改進是工具整合。模型的內部「交錯式思考」能力讓它能在每次工具呼叫前後進行反思、決定是否需要另一輪搜尋或不同工具，並將不同的工具輸出綜合為連貫的下一步。實務上，這降低了完成多步任務（搜尋 → 取回 → 分析 → 執行）所需的工具呼叫輪次。平台文件與實測回饋指出，工具呼叫輪次約「降低 20%」，且「決策成熟度」顯著提升，意即模型較少出現冗餘或過早的工具呼叫。

聚焦瀏覽與工具工作流的基準（BrowseComp、BFCL）將 M2.5 放在代理任務的前段班。BrowseComp 報告的分數在 70% 中段，BFCL 類型的工具呼叫測試顯示其在多步工具編排上具備高精確度。對任何需要模型綜合即時網路資料、呼叫領域特定 API，或代表使用者主動操作檔案與程式碼的產品而言，這些結果都具備重要意義。

這對整合意味著什麼？

對正在建構助手、機器人或自動化管線的工程師而言，重點在於 M2.5 不只是「更會搜尋」——它在「搜尋決策」上更優。這表示更少的往返、更少的 Token 浪費，以及在許多案例中更簡化的編排程式碼。

MiniMax M2.5 的效率與速度特性是什麼？

M2.5 的一個重點屬性是其「速度與推理效率」——這在真實世界使用中至關重要，因為吞吐量會影響成本與延遲。

效率指標

Metric	Value
Speed Improvement vs M2.1	+37%
Standard Output Speed	50 tokens/second
Lightning Output Speed	100 tokens/second
Typical Tokens/Task	~3.52M tokens for complex tasks

「Lightning 變體」的吞吐量可匹敵如 Claude Opus 4.6 等模型——但成本卻只有其一小部分。這使 M2.5 能在「持續的代理型工作流程」中運作，而不會因長時段或高量操作帶來過高的 Token 開銷。

工程影響

更高的吞吐量直接對應於開發循環與自動化工作流中的即時互動速度。
更好的 Token 效率可降低在長篇、多階段任務（如文件生成、除錯、跨系統整合）中的總成本。
結合 M2.5 的高推理基準，這種效率意味著相較競爭的前沿模型，可在更低的總執行時間成本下取得更佳成果。

MiniMax M2.5 的成本是什麼？——定價拆解

M2.5 最具顛覆性的面向之一是其定價——定位為「具成本效率」的專有 LLM 替代方案。MiniMax 提供哪些定價選項？

MiniMax 提供幾種面向開發者與企業的用量與訂閱選項。公司公開資料概述了兩種適用於生產文本模型的計費方式：面向程式提示穩定用量的「Coding Plan」訂閱，以及更彈性、按量計費的「Pay-As-You-Go」。Coding Plan 明確旨在為開發團隊提供低成本的月費方案，而按量計費則依 Token 或所選吞吐設定計費。

Coding Plan 如何運作？

Coding Plan 以月訂閱方式提供，將在特定時間切片內綁定固定數量的「提示」或工作階段（文件中的示例包含入門/進階/最大等級別，每 5 小時提供不同的提示配額）。其明確理由是為依賴大量短頻次程式協助會話的團隊提供可預期、友善開發者的成本結構。

	Starter	Plus	Max
Price	$10 /month	$20 /month	$50 /month
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

	Starter	Plus	Max
Price	$100 /year 120	$200 /year 240	$500 /year 600
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

Token 定價結構

Variant	Input Price	Output Price	TPS (Tokens/sec)	Notes
M2.5-Standard	$0.15/M	$1.20/M	50	成本最佳化變體。
M2.5-Lightning	$0.30/M	$2.40/M	100	速度最佳化變體。

這些 Token 價率有效地「普及 AI 代理經濟」，讓模型能在企業規模下持續運行，而不會面臨許多專有系統對輸出 Token 定價高出 10×–30× 的成本障礙。

每小時運行成本

使用 Lightning 變體（100 TPS），穩定連續輸出約為：

每小時生成約 360,000 個 Token
輸出成本 = 360,000/1M × $2.40 ≈ $0.86
輸入成本再加上一小部分，連續輸出的總成本約為每小時 $1

這比典型前沿模型「低出多個數量級」，使企業得以經濟可行地運行常時啟動的代理型作業。

更便宜地使用 M2.5

在 CometAPI 使用 Minimax-M2.5 可享折扣：

Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
Input:$0.24/M; Output:$0.96/M	Input:$0.3/M; Output:$1.2/M	-20%

如何開始使用 MiniMax M2.5

開發者可在哪裡存取該模型？

MiniMax 提供透過其 API 整合 M2.5 的文件與平台指南（平台文件包含文字、程式與工具驅動流程的指南）。該模型也已出現在一些第三方模型庫與登錄（例如，若干平台庫提供面向雲端使用與本地試驗的 M2.5 變體）。這意味著開發者既可透過 MiniMax 的官方 API 端點呼叫 M2.5，也可在可用之處使用受支援的第三方工具。

常見整合模式

IDE／編輯器助手——將 M2.5 掛載至 IDE 外掛，以提供補全、解釋與測試案例生成。若預期短而頻繁的開發者會話，使用「Coding Plan」訂閱。
代理編排——在多工具編排系統中嵌入 M2.5 作為決策核心；依賴其強大的工具呼叫行為管理外部動作（API、資料庫查詢、測試執行器）。為 API 載荷制定明確的 Schema 契約，以最小化幻覺。
搜尋 + 擷取增強——結合小型擷取層（向量庫 + 重排序器），在保有長文查詢相關性的同時限制上下文 Token 使用。M2.5 在搜尋基準上的強勢表現使其自然適配擷取增強生成。
批次程式碼轉換——透過批次作業利用模型進行大量重構或自動化測試生成，在此情境下每小時成本與吞吐設定對模型經濟尤為關鍵。

實務技巧以獲得更佳成果

使用與開發者流程相映的 few-shot 範例（輸入、期望輸出形狀、失敗案例），以提升程式或工具調用提示的正確性。
以模式驗證鎖定工具介面，讓 M2.5 發出的 API 呼叫僅接受經驗證的載荷。
監控 Token 使用並設定保護措施（每次呼叫的硬性 Token 上限），避免失控的費用。
以成功率衡量成果（如生成程式碼的測試通過率），而非僅依賴主觀品質指標。

結論

MiniMax M2.5 在大型模型的「代理 + 程式」細分領域上邁出務實一步：它結合了強大的程式基準測試、明確支援交錯式工具使用，以及面向真實工作流程的運營改進，旨在降低 Token 與時間成本。對專注於開發者生產力自動化、程式碼生成與多工具編排的團隊而言，M2.5 值得試點——尤其在成本效率為優先的場景。對於在各種小眾基準中追求絕對最前沿且不計成本的團隊，某些高端產品或許仍可在邊際上展現優勢；但在成本/效能權衡上，M2.5 對於許多真實世界的生產部署具備相當吸引力。

開發者現可透過 CometAPI 存取 MInimax-M2.5。要開始，請先在 Playground 探索模型功能，並查閱 API guide 以獲得詳細指引。存取前請先登入 CometAPI 並取得 API Key。CometAPI 提供遠低於官方價格的方案，協助你整合。

準備好了嗎？→ 今天註冊 glm-5

若想了解更多技巧、指南與 AI 新聞，請在 VK、X 與 Discord 關注我們！