Minimax M2 API

CometAPI
AnnaOct 28, 2025
Minimax M2 API

MiniMax M2开源、原生面向代理(agent-native) 的大型语言模型(LLM),由 MiniMax 于 2025 年 10 月 27 日 发布。它专为 编程代理式工作流(工具调用、多步自动化)而设计,优先实现 低时延高性价比 的部署,同时具备强大的推理与工具使用能力。

关键特性

亮点 — 编码专项优化代理式工作流低激活参数占用长上下文支持兼容 OpenAI 的 API。MiniMax 将 Minimax M2 定位为一款 快速、易部署的 MoE 模型,面向多步代理、代码生成与修复、终端/IDE 工作流以及工具调用。

重点要点(速览):

  • 架构: 专家混合(MoE),总参数规模极大,但每次前向计算仅激活较小的激活参数集合。
  • 激活占用: ~10 billion 激活参数(每 token)。
  • 总参数(报告): 据不同来源/指标,介于 ~200B – 230B(见技术细节)。
  • 上下文窗口: 企业级长上下文;最大 204,800 tokens
  • 主要模态: 文本(支持工具调用/函数调用)。
  • 原生面向代理:为多步工具调用而设计(shell、浏览器、Python 解释器、MCP 工具)。
  • 编码侧重:针对多文件编辑、运行-修复循环以及 CI/IDE 任务优化。

技术细节(架构与规格)

架构 — 专家混合(MoE):Minimax M2 API 采用 MoE 策略,使模型拥有非常大的总参数规模,同时在每次推理仅激活一部分参数。这提升了交互式代理与编码循环的计算效率吞吐量以及单位 token 成本

精度与量化 — 模型文件与提供商栈列出了 FP32/BF16、FP8 等格式以及多种量化构建(safetensors、FP8/E4M3 等),支持本地部署与效率权衡。

上下文与 I/O — 已部署的提供方宣称支持 204,800 token 的上下文以及较大的最大输出配置。M2 目前为纯文本(中国的许多开源权重发布强调文本/代理能力,而多模态仍主要由其他发布提供)。

运行建议/特别说明 — Minimax M2 API 使用 “交错思考(interleaved thinking)” 的输出格式,将模型的内部推理包裹在 <think>...</think> 块中。MiniMax 要求保持该思考内容完整,并在会话历史中传回,以在多轮代理工作流中维持性能。

基准测试表现

综合智能与代理基准 — Artificial Analysis 的独立评测报告称,MiniMax‑M2 在开源权重模型中取得同类最佳的 Intelligence Index,并在综合智能指标上位列顶级开源模型之列,尤其在工具使用、指令遵循与代理式任务方面表现突出。Artificial Analysis 强调该模型的效率(激活参数极少)是其排名的关键驱动因素。

Minimax M2 API

MiniMax M2 在编码与代理套件(Terminal-Bench、SWE-Bench、BrowseComp、LiveCodeBench 类型任务)上表现强劲,其架构与激活预算有利于 规划 → 执行 → 验证 循环(编译/运行/测试周期、多文件编辑与工具链)。

Minimax M2 API

对比:MiniMax M2 与其他同时代模型

对开源权重同类(DeepSeek、Qwen3、Kimi 等)— MiniMax M2 在激活参数预算(≈10B)上被认为尤为高效,带来较高的“每激活参数智能比”;其他开源模型可能拥有更高的激活参数数量,但总参数相近或更高。

对商业前沿模型(OpenAI / Anthropic / Google / xAI)— 报告显示,M2 在部分通用指标上低于最顶级的商业模型,但在许多代理与编码基准上以其价格定位具备竞争力甚至领先

成本与速度权衡 — 其单位 token 成本仅为 Anthropic Claude Sonnet 的 8%,速度约为其两倍。

限制与风险

限制 — 冗长(高 token 消耗)仅限文本模态任务特定弱项,以及常见的 LLM 风险(幻觉、过度自信、数据集偏差)。Artificial Analysis 与 MiniMax 均指出,M2 在某些开放式任务上可能不如部分大型通用模型,尽管其在代理与编码工作流中表现优异。由于基于 MoE,部署考量(专家路由、量化与推理框架)尤为重要。

运行注意事项 — MiniMax M2 的交错思考格式要求在会话历史中保留特殊的 <think>...</think> 标记以获得最佳性能;删除该内容可能削弱代理行为。此外,由于 MiniMax M2 较为冗长,单次任务成本取决于单位 token 价格生成的 token 总量

主要用例

  • 代理编排与长流程 — 多步工具链浏览→检索→执行循环错误恢复以及代理运行中的证据可追溯性
  • 开发者效率与编码助手 — 编译-运行-测试循环多文件编辑经测试验证的修复以及IDE 集成(已有 Claude Code、Cursor、Codex、Grok CLI 等示例)。
  • 高吞吐代理集群/生产机器人 —单次推理成本并发至关重要的场景下,M2 的低激活参数占用可降低基础设施成本。

如何通过 CometAPI 调用 Minimax M2  API

minimax-m2 在 CometAPI 的 API 价格,较官方价优惠 20%:

  • 输入 Tokens:$0.24 M tokens
  • 输出 Tokens:$0.96/ M tokens

必要步骤

  • 登录到 cometapi.com。如果尚未成为我们的用户,请先注册。
  • 登录你的 CometAPI 控制台
  • 获取接口的访问凭证 API Key。在个人中心的 API Token 处点击 “Add Token”,获得令牌密钥:sk-xxxxx 并提交。

Minimax M2 API

使用方法

  1. 选择 “minimax-m2” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站 API 文档获取。我们的网站也提供 Apifox 测试以供使用。
  2. 将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI Key。
  3. 将你的问题或请求插入 content 字段——模型会对其进行响应。
  4. . 处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——便于无缝迁移。关键细节参见 API 文档:

API 集成与示例

下面是一个 Python 代码片段,演示如何通过 CometAPI 的 API 调用 GLM‑4.6。请相应替换 <API_KEY> 和 <PROMPT>

import requests

API_URL = "https://api.cometapi.com/v1/chat/completions"
headers = {
    "Authorization": "Bearer <API_KEY>",
    "Content-Type": "application/json"
}
payload = {
    "model": "minimax-m2",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "<PROMPT>"}
    ],
    "max_tokens": 512,
    "temperature": 0.7
}

response = requests.post(API_URL, json=payload, headers=headers)
print(response.json())

另请参阅 Claude Haiku 4.5 API

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣