MiniMax M2.5：编程基准测试、定价与使用指南

由 MiniMax 宣布的一款全面升级的通用模型 MiniMax M2.5，被定位为专为代理型工作流、代码生成以及“现实世界生产力”打造的模型。该公司表示，M2.5 是在数十万复杂环境中进行广泛强化学习训练的成果，在编码基准测试、工具使用以及长上下文推理方面带来重大提升，同时推动推理效率与成本效益。

你已经可以在 CometAPI 上看到 MiniMax M2.5。在 CometAPI 中，它的价格是官方价格的 20%。

What is MiniMax M2.5 and why does it matter?

MiniMax M2.5 是 MiniMax 的最新重大版本发布，该模型家族专注于高吞吐、代理型工作流，尤其是编码生产力。于 2026 年 2 月中旬宣布，M2.5 在公司先前的 M 系列基础上扩展了上下文窗口、强化了工具集成原语，并在训练中强调“AI 原生工作空间”，让模型主动编排浏览器搜索、API 调用与代码执行步骤，而不仅仅返回文本。发布信息将 M2.5 定位为平台级举措：旨在加速开发者生产力、自动化重复工程任务，并为代理驱动的产品提供引擎。

这在今天的重要性体现在两点。第一，模型在一套实用基准与吞吐目标上达标，使其适合用于生产系统（而非仅限研究演示）。第二，此次发布表明厂商正优先考虑集成式工具使用与 token 效率：M2.5 明确针对减少多步骤任务中的工具调用轮次与 token 消耗进行调优，这在真实部署中直接转化为更低的成本与时延。

How Does MiniMax M2.5 Perform in Coding Benchmarks?

Overview of Coding Performance

MiniMax M2.5 迅速因其在业内用于评估实用代码生成与推理的标准编码基准上的表现而受到关注：

Benchmark Suite	M2.5 Result	Explanation
SWE-Bench Verified	80.2%	衡量修复真实 GitHub 问题的能力；接近顶级表现。
Multi-SWE-Bench	51.3%	评估跨文件、跨代码库的编码可靠性。
SWE-Bench Pro	55.4%	更难的真实世界编码测试。

基准数据显示，M2.5 的编码能力与诸如 Anthropic 的 Claude Opus 4.6 和 OpenAI 的 GPT-5.2 等高排名专有模型相当，将 M2.5 置于适合生产级软件工程任务的顶级竞争者之列。在该基准中得分超过 80% 表明 M2.5 能够提供“实用的软件工程辅助”，而不仅是理论上的代码生成。这对以正确性、可靠性、可维护性为优先级的企业工作流尤为重要。

这些数据表明，M2.5 在不承担许多封闭专有系统通常极高定价负担的情况下，达到了“行业领先水平”——这一点直接挑战了“高性能必然意味着高成本”的近期行业认知。

M2.5 在真实工程工作流中的行为如何？

除了原始分数外，值得注意的是 M2.5 的架构面向“代理型流水线”。该模型包含用于交错思考（工具调用之间的内部推理）、更强的多轮代码推理以及针对大型代码库的上下文管理策略。在早期测试中，评测者报告 M2.5 为某些类别的任务生成了较大比例的可直接提交的代码，并且比早期 MiniMax 版本需要更少的人为修正。这种组合——更强的一次性正确性与更少的往返——是使 M2.5 对代码辅助与 CI 自动化角色具有吸引力的关键。

Search and Tool calling of MiniMax M2.5

尽管编码性能常常是面向开发者的 LLM 的核心指标，M2.5 被设计用于“更广泛的生产力”：

Task Type	Benchmark	M2.5 Score
Web Search & Context	BrowseComp	76.3%
Tool-Use Reasoning	BFCL Multi-Turn	76.8%
Workflow Orchestration	MEWC (Multi-Expert)	74.4%
Office Productivity	VIBE-Pro Suite	54.2%

这些指标凸显了 M2.5 的能力延伸至“密集的多步骤推理”、在存储上下文中的高效搜索以及长周期的工具交互——这是面向稳健的多模态 AI 助手与代理的关键能力。

它能有效发现和使用工具吗？

M2.5 的一项重点改进是工具集成。模型的内部“交错思考”能力使其能在每次工具调用前后进行反思，决定是否需要再次搜索或更换工具，并将不同工具的输出综合为连贯的下一步。实际效果是减少解决多步骤任务（搜索 → 获取 → 分析 → 执行）所需的工具调用轮次。平台文档与上手评测报告约“减少 20% 的工具调用轮次”，并且“决策成熟度”显著提升，即模型更少做出冗余或过早的工具调用。

聚焦浏览与工具工作流的基准（BrowseComp、BFCL）将 M2.5 置于代理型任务的前列。BrowseComp 报告了 70% 中段的分数，而 BFCL 风格的工具调用测试显示在多步骤工具编排方面具有很高的精度。对于任何期望模型综合实时网页数据、调用特定领域 API、或代表用户主动操作文件与代码的产品而言，这些结果都至关重要。

这对集成意味着什么？

对于构建助手、机器人或自动化流水线的工程师来说，关键在于 M2.5 不仅“更擅长搜索”，还更擅长“关于搜索的决策”。这意味着更少的往返、更少的 token 浪费，以及在很多情况下更简单的编排代码。

What Are MiniMax M2.5’s Efficiency and Speed Characteristics?

M2.5 的一项重点属性是其“速度与推理效率”——在真实使用场景中，吞吐量直接影响成本与时延。

Efficiency Metrics

Metric	Value
Speed Improvement vs M2.1	+37%
Standard Output Speed	50 tokens/second
Lightning Output Speed	100 tokens/second
Typical Tokens/Task	~3.52M tokens for complex tasks

“Lightning 变体”的吞吐与 Claude Opus 4.6 等模型相匹配——但关键在于成本仅为其一小部分。这使得 M2.5 能够在不具备高昂 token 开销的情况下支持“持续的代理型工作流”，无论是在长会话还是高量运营中。

工程影响

更高的吞吐量与开发循环和自动化工作流中的实时交互更快直接相关。
更好的 token 效率降低了在文档生成、调试与跨系统集成等长形式、多阶段任务中的总成本。
结合 M2.5 的高推理基准，这种效率意味着在与竞争的前沿模型相比，以更低的总运行成本获得更好的结果。

What Does MiniMax M2.5 Cost? — Pricing Breakdown

M2.5 最具颠覆性的一方面在于其定价——被定位为“成本高效的专有 LLM 替代品”。MiniMax 提供哪些定价选项？

MiniMax 提供面向开发者与企业的多种使用与订阅选项。公司的公开材料概述了两种用于生产中文本模型的计费方式：面向开发者的“Coding Plan”订阅（针对稳定量的代码相关提示），以及“按需付费”（灵活、按量计费）。Coding Plan 明确被设计为为开发团队提供廉价的月度选项，而按需计费则按 token 或所选吞吐配置收费。

Coding Plan 如何运作？

Coding Plan 被描述为一种月度订阅，在一个时间片内捆绑固定数量的“提示”或会话（文档中的示例包括入门/增强/最大档，在每 5 小时内提供不同的提示额度）。其明确目的在于为依赖大量短而频繁的代码辅助会话的团队提供可预测、友好的成本结构。

	Starter	Plus	Max
Price	$10 /month	$20 /month	$50 /month
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

	Starter	Plus	Max
Price	$100 /year 120	$200 /year 240	$500 /year 600
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

Token Pricing Structure

Variant	Input Price	Output Price	TPS (Tokens/sec)	Notes
M2.5-Standard	$0.15/M	$1.20/M	50	成本优化变体。
M2.5-Lightning	$0.30/M	$2.40/M	100	速度优化变体。

这些 token 定价有效地“普惠了 AI 代理经济”，使模型能够在企业规模下持续运行，而不必面对许多专有系统对输出 token 10×–30× 的高额定价壁垒。

每小时运营成本

使用 Lightning 变体（100 TPS），稳定持续输出约为：

每小时生成约 360,000 个 token
Output cost = 360,000/1M × $2.40 ≈ $0.86
Input 成本再增加一小部分，合计约为 $1/hour 的持续输出成本

这比典型前沿模型便宜“多个数量级”，使得企业的常开型代理操作在经济上可行。

Looking for a cheaper way to use M2.5

在使用 CometAPI 时，享受 Minimax-M2.5 的折扣：

Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
Input:$0.24/M; Output:$0.96/M	Input:$0.3/M; Output:$1.2/M	-20%

How do you get started with MiniMax M2.5

开发者可从哪里访问该模型？

MiniMax 发布了通过其 API 集成 M2.5 的文档与平台指南（平台文档包含文本、编码与工具驱动流程的指南）。该模型也出现在一些第三方模型库与注册表中（例如，若干平台库提供面向云使用与本地试验的 M2.5 变体）。这意味着开发者既可通过 MiniMax 的官方 API 端点调用 M2.5，也可在支持的第三方工具中使用。

常见集成模式

IDE / Editor assistant — 将 M2.5 接入 IDE 插件以提供补全、解释与测试用例生成。如果预期大量短小的开发会话，使用 “Coding Plan” 订阅。
Agent orchestration — 将 M2.5 作为多工具编排系统中的决策大脑；依赖其强大的工具调用行为来管理外部动作（API、数据库查询、测试运行器）。为 API 载荷明确定义模式契约以最小化幻觉。
Search + retrieval augmentation — 结合小型检索层（向量库 + 重排序器）以限制上下文 token 使用，同时在长文档查询中保持相关性。M2.5 强劲的搜索基准使其非常适合检索增强生成。
Batch code transformation — 通过运行批处理作业利用模型进行批量重构或自动化测试生成，此时每小时成本与吞吐配置对模型经济性尤为重要。

实践技巧以获得更好结果

使用与开发者流程相匹配的 few-shot 示例（输入、期望输出形态、失败用例），以提升编码或工具调用提示的正确性。
对工具接口进行模式验证锁定，这样当 M2.5 发出 API 调用时，系统只接受经验证的载荷。
监控 token 使用，并设置保护措施（每次调用的硬性 token 限制），避免账单失控。
以成功率衡量（例如，生成代码的测试通过率），而不是仅依赖主观质量指标。

Conclusion

MiniMax M2.5 在大模型的“代理 + 编码”细分方向上代表了一次务实的进步：它结合了强劲的编码基准、对交错工具使用的明确支持，以及面向真实工作流降低 token 与时间成本的运营改进。对于专注于开发者生产力自动化、代码生成与多工具编排的团队而言，M2.5 值得试点——尤其是在成本效率为优先的场景。对于在每个细分基准上都追求绝对前沿且不计成本的团队，部分高端产品可能仍会显示出增量优势；但在成本/性能权衡上，M2.5 对许多真实生产部署而言具有很强的吸引力。

开发者现在可以通过 MInimax-M2.5 使用 CometAPI。开始之前，请在演示区探索模型能力，并查阅 API guide 以获取详细说明。在访问前，请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的优惠，助你快速集成。

Ready to Go?→ Sign up fo glm-5 today !

如果你想了解更多 AI 的技巧、指南与资讯，请关注我们的 VK、X 和 Discord!