MiniMax‑M2.5 的技术规格

字段	说明/取值
模型名称	MiniMax-M2.5（生产版本，2026 年 2 月 12 日发布）。
架构	Mixture-of-Experts（MoE）Transformer（M2 系列）。
总参数量	~2300 亿（MoE 总容量）。
激活（每次推理）参数量	每次推理激活 ~100 亿（稀疏激活）。
输入类型	文本与代码（原生支持多文件代码上下文），工具调用/API 工具接口（代理式工作流）。
输出类型	文本、结构化输出（JSON/工具调用）、代码（多文件）、Office 工件（通过工具链生成 PPT/Excel/Word）。
变体/模式	M2.5（高准确度/能力）和 M2.5-Lightning（同等质量、更低延迟/更高 TPS）。

什么是 MiniMax‑M2.5？

MiniMax‑M2.5 是 M2.x 家族面向真实世界生产力与代理式工作流的旗舰更新。本次发布强调提升任务分解、工具/搜索集成、代码生成保真度，以及在扩展的多步骤问题上的 token 效率。该模型提供标准版与低延迟的“lightning”变体，以满足不同部署权衡。

MiniMax‑M2.5 的主要特性

以代理为先的设计：针对多阶段任务（搜索、工具调用、代码执行框架）改进了规划与工具编排。
Token 效率：据称相较 M2.1，每个任务的 token 消耗减少，从而降低长工作流的端到端成本。
更快的端到端完成：供应商基准测试报告，在代理式编码评估中，平均任务完成时间比 M2.1 快 ~37%。
强大的代码理解能力：基于多语言代码语料进行调优，支持稳健的跨语言重构、多文件编辑与仓库级推理。
高吞吐量服务：面向高 token/sec 需求的生产部署；适用于连续的代理工作负载。
面向延迟与性能权衡的变体：M2.5‑lightning 在交互场景中以更低的计算与资源占用提供更低延迟。

基准性能（已报告）

供应商报告亮点——代表性指标（发布版）：

SWE‑Bench Verified：80.2%（供应商基准测试框架上的报告通过率）
BrowseComp（搜索与工具使用）：76.3%
Multi‑SWE‑Bench（多语言编码）：51.3%
相对速度/效率：在供应商测试的 SWE‑Bench Verified 上，端到端完成速度比 M2.1 快 ~37%；在部分评估中，搜索/工具轮数减少 ~20%。

解读：这些数据使 M2.5 在所述基准上与业界领先的代理/代码模型持平或接近。基准由供应商报告，并被生态系统中的多个渠道转载——除非有独立复现，否则应视为在供应商的测试框架/配置下测得。

MiniMax‑M2.5 与同类对比（简明）

维度	MiniMax‑M2.5	MiniMax M2.1	同业示例（Anthropic Opus 4.6）
SWE‑Bench Verified	80.2%	~71–76%（因框架不同而异）	可比（Opus 报告为接近顶级的结果）
代理任务速度	比 M2.1 快 37%（供应商测试）	基线	在特定框架上速度相近
Token 效率	相较 M2.1 提升（每个任务所需 token 更少）	token 使用更高	具备竞争力
最佳用途	生产级代理工作流、编码流水线	同一系列的早期版本	擅长多模态推理与安全调优任务

供应商注：比较源自发布材料与厂商基准报告。细微差异可能对测试框架、工具链与评估流程敏感。

代表性企业用例

仓库级重构与迁移流水线——在多文件编辑与自动 PR 补丁中保持意图一致。
面向 DevOps 的代理式编排——通过工具集成编排测试运行、CI 步骤、包安装与环境诊断。
自动化代码评审与修复——分级漏洞、提出最小修复，并准备可复现的测试用例。
搜索驱动的信息检索——利用 BrowseComp 级别的搜索能力对技术知识库进行多轮探索与总结。
生产级代理与助手——用于需要具备成本效率与稳定长时推理的连续代理。

如何访问与集成 MiniMax‑M2.5

步骤 1：注册获取 API Key

登录 cometapi.com。如果您还不是我们的用户，请先注册。登录您的 CometAPI 控制台。获取接口的访问凭证 API Key。在个人中心的 API token 处点击“Add Token”，获取令牌 key：sk-xxxxx 并提交。

步骤 2：向 `minimax-m2.5` API 发送请求

选择“minimax-m2.5”端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便使用。将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI Key。调用位置：Chat 格式。

将您的问题或请求填入 content 字段——模型将对其作出响应。处理 API 响应以获取生成的答案。

步骤 3：获取并验证结果

处理 API 响应以获取生成的答案。处理完成后，API 会返回任务状态与输出数据。

MiniMax-M2.5 is optimized for real-world productivity and agentic workflows — especially complex coding, multi-stage planning, tool invocation, search, and cross-platform system development. Its training emphasizes handling full development lifecycles from architecture planning to code review and testing.

Compared with M2.1, M2.5 shows significant improvements in task decomposition, token efficiency, and speed — for example completing certain agentic benchmarks about 37% faster and with fewer tokens consumed per task.

M2.5 achieves around 80.2% on SWE-Bench Verified, about 51.3% on Multi-SWE-Bench, and roughly 76.3% on BrowseComp in contexts where task planning and search are enabled — results competitive with flagship models from other providers.

Yes — M2.5 was trained on over 10 programming languages including Python, Java, Rust, Go, TypeScript, C/C++, Ruby, and Dart, enabling it to handle diverse coding tasks across ecosystems.

Yes — MiniMax positions M2.5 to handle full-stack projects spanning Web, Android, iOS, Windows, and Mac, covering design, implementation, iteration, and testing phases.

M2.5 can run at high token throughput (e.g., ~100 tokens/sec) with cost efficiencies about 10–20× lower than many frontier models on an output price basis, enabling scalable deployment of agentic workflows.

MiniMax-M2.5 is available via API endpoints (e.g., standard and high-throughput variants) by specifying minimax-m2.5 as the model in requests.

M2.5 excels at coding and agentic tasks; it may be less specialized for purely creative narrative generation compared with dedicated creative models, so for story writing or creative fiction other models might be preferable.