Xiaomi 将 MiMo 从单一模型发布扩展为面向不同产品需求的三模型阵容。Flash 于 2025 年 12 月 16 日推出,作为一款面向推理、编程和智能体任务的开源 MoE 模型;而 Pro 和 Omni 则于 2026 年 3 月 18 日正式发布,分别作为旗舰推理模型和完整多模态模型。
什么是 MiMo V2,它为什么重要?
Xiaomi 的 MiMo V2 系列代表了这家中国科技巨头在前沿 AI 基础模型上的推进,重点优化真实世界中的智能体工作负载。该系列分阶段发布(Flash 于 2025 年末/2026 年初推出,随后 Pro 和 Omni 于 2026 年 3 月 18 日发布),并利用混合专家(MoE)架构提升效率:总参数规模巨大,但推理时实际激活的参数少得多。
MiMo-V2-Omni: “眼睛和耳朵”——融合文本、视觉、视频和扩展音频的统一多模态模型。
MiMo-V2-Flash: “高效快手”——轻量、开源、超高性价比。
MiMo-V2-Pro: “推理旗舰”——面向复杂多步任务的万亿参数大脑。
所有模型都强调工具调用、长上下文推理,以及与 OpenClaw、OpenCode 和 KiloCode 等智能体框架的集成。它们在价格上远低于 OpenAI、Anthropic 或 Google 的同类产品——通常便宜 5–10 倍——同时在关键基准测试中跻身全球及中国领先行列。
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash:快速对比
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | 2025 年 12 月 | 2026 年 3 月 18 日 | 2026 年 3 月 19 日 |
| Parameters | 309B 总参数 / 15B 激活参数(MoE) | ~1T 总参数 / 42B 激活参数(MoE) | 多模态(具体参数未披露) |
| Context Window | 256K tokens | 1M tokens(分层定价) | 256K tokens |
| Primary Strength | 速度与成本(编程/智能体) | 推理与复杂智能体 | 多模态感知(视觉/音频) |
| Benchmarks (Key Examples) | SWE-Bench:73.4%(开源第 #1);Artificial Analysis:~41 | ClawEval:61.5(全球第 #3);PinchBench:81.0;全球排名 #7–8 | 在视觉/音频任务中表现强劲(如浏览器购物、危险检测) |
| Official Pricing (per 1M tokens) | $0.09 输入 / $0.29 输出 | ≤256K:$1/$3;>256K:$2/$6 | $0.40 输入 / $2 输出 |
| Open-Source | 是(HF 上采用 MIT 许可) | 否(仅 API) | 否(仅 API) |
| Best For | 高吞吐、快速任务 | 生产级智能体与长流程 | 视觉/音频 + 文本智能体 |
| Inference Speed | ~150 tokens/s | 高(MTP 优化) | 多模态延迟 ~2–5s |
什么是 MiMo V2-Omni、MiMo V2-Pro 和 MiMo V2-Flash
什么是 MiMo-V2-Flash?效率优先模型
MiMo-V2-Flash 是该系列中最知名的早期成员。在 Hugging Face 的模型卡中,Xiaomi 将其描述为一款混合专家模型,拥有 309B 总参数和 15B 激活参数,采用混合注意力与 Multi-Token Prediction 以提升输出速度并降低推理成本;它使用 FP8 混合精度在 27T tokens 上完成训练,支持最高 256K 上下文,并针对高速推理和智能体工作流进行了优化。
从实际应用来看,Flash 是最均衡的“日常型” MiMo 模型,适合以文本为主的使用场景。MiMo-V2-Flash 在长上下文推理、编程辅助和智能体工作流方面表现强劲,在 SWE-bench Verified 和 SWE-bench Multilingual 上位列全球开源模型第 #1,而成本仅约为 Claude Sonnet 4.5 的 3.5%。如果你想在不大量消耗预算的前提下测试整个系列,Flash 是最自然的起点。
什么是 MiMo-V2-Pro?旗舰级智能体大脑
MiMo-V2-Pro 是该系列中的旗舰文本优先模型。Xiaomi 表示,它拥有超过 1T 总参数、42B 激活参数、扩展到 7:1 的 Hybrid Attention 比例,以及 1M-token 的上下文窗口;其编程能力超过 Claude 4.6 Sonnet,而在 ClawEval 上的通用智能体表现接近 Opus 4.6。更重要的是,Xiaomi 表示工具调用的稳定性和准确性已显著提升,而这正是开发者从演示阶段走向生产环境时最看重的信号之一。
什么是 MiMo-V2-Omni?多模态智能体模型
MiMo-V2-Omni 是 Xiaomi 针对智能体问题给出的多模态答案。它将图像、视频和音频编码器融合到一个共享主干网络中,因此模型可以将“看、听、读”统一为单一感知流。Xiaomi 还表示,它原生支持结构化工具调用、函数执行和 UI grounding,这也是 Omni 被定位为智能体模型而不是通用多模态聊天机器人的原因。
Omni 在音频理解上不止于转录,还能处理超过 10 小时的连续音频,并且在音频任务上优于 Gemini 3 Pro,在图像理解上超过 Claude Opus 4.6,并达到 Gemini 3 等顶级闭源模型的水平。Omni 在浏览器和移动端工作流中也表现出色,其智能体演示由 OpenClaw 驱动,可处理浏览器控制、文件系统访问和终端交互。
可排名的长尾关键词洞察:搜索 “MiMo V2 Pro vs Flash for agentic coding” 的开发者,会因为速度/成本选择 Flash,而因为生产环境可靠性选择 Pro。

MiMo V2 API 定价 2026
定价对比(每 1M tokens)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | 固定费率 | ~$0.012 – $0.013 |
| Pro | $1.00(≤256K)$2.00(256K–1M) | $3.00(≤256K)$6.00(256K–1M) | 按上下文长度分层;提供缓存定价 | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | 固定费率(多模态 tokens 按对应方式计费) | ~$0.06 |
示例:
- Flash 在高吞吐的简单任务中占优(例如,每天 1M tokens 的成本只需几分钱)。
- Omni 在多模态场景中提供很强的性价比(比 Gemini 3.1 同类方案更便宜)。
- Pro 的价格约为 Claude Sonnet 4.6 的 ~1/5–1/6,但在许多智能体/编程基准中与其持平甚至超越。缓存定价还可进一步降低长上下文成本。
CometAPI 上的 Mimo V2 系列 API 价格是多少?
在 CometAPI 中,Mimo API 的价格低于官网,大约是官方价格的 20%(相当于免费)。MImo-v2 pro、mimo-V2-omni 和 mimo-v2-flash 也可以在 openclaw 中使用。例如:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| 输入:$0.8/M输出:$2.4/M | 输入:$1/M输出:$3/M | 20% |
需要注意的重要一点是,“最便宜”并不总等于“最划算”。当一次模型调用可以替代多次重试、工具调用或人工干预时,Pro 反而可能是成本效益最高的选择。若多模态 grounding 能避免单独构建 OCR、音频和视觉流水线,Omni 可能更划算。而当你需要高吞吐和可预测支出时,Flash 则是价值领先者。
性能基准对比
通用智能与推理基准
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49(全球第 #8,中国第 #2) | 非主要关注点 | Pro 相比 Flash 有明显跃升 |
| AIME 2025(数学) | 94.1% | ~94.0% | N/A | Flash 以其体量来看极具竞争力 |
| Hallucination Rate | ~48% | ~30% | N/A | Pro 展现出更高的可靠性 |
| LongBench V2(长上下文) | 60.6 | 强(具备 1M 上下文优势) | N/A | Pro 在超长任务中表现突出 |
编程与智能体基准
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4%(开源第一) | 78.0% | ~74.8% | Pro 领先;Flash 在开放模型中排名第 1 |
| SWE-Bench Multilingual | 71.7% | 57.1%(多语言变体) | N/A | Flash 在该项中特别强 |
| ClawEval(智能体工具使用) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | 在编程场景中,Pro 常常追平或超过 Claude Sonnet 4.6 |
| GDPVal-AA / PinchBench | 1040 – 1426 区间 | 1426 | 81.2(变体) | Pro 在真实世界智能体任务中表现强劲 |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni 在多模态智能体方面具有竞争力 |
多模态基准(聚焦 Omni)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro(音频) | 76.8 | Claude Opus 4.6(73.9) | Omni 领先 |
| BigBench Audio / Speech Reasoning | 最高达 80.1 – 94.0 | 视具体项目而定 | 强大的长音频处理能力(10+ 小时) |
| MMMU-Pro(图像) | 85.3 | 不同项目中略有差异 | 出色的图表与视觉理解能力 |
| Video-MME | 94.0 | 在部分领域强于 Gemini 3 Pro | 高水平的视频事件预测 |
| CharXiv(图表) | 66.7 | 在部分报告中优于 Gemini 3 Pro | 扎实的结构化视觉推理能力 |
性能对比:哪个更好?
在推理和编程方面,Mimo-V2-Flash 从纸面数据上看非常强。Mimo-V2-Flash 在 AIME 2025、GPQA-Diamond、SWE-bench Verified 和 SWE-bench Multilingual 上都位居第一梯队,并且作为全球 SWE-bench Verified 上排名最高的开源模型,可与 Claude Sonnet 4.5 相媲美,而成本仅约为其 3.5%。这使得 Flash 成为重视吞吐量和成本效率的开发者的突出选择。
在纯智能体控制方面,Pro 是旗舰。Xiaomi 强调其工具调用稳定性、长时程任务规划和面向生产的工程工作流,而 1M-token 上下文窗口在大型代码库、多文档分析以及长时间运行的浏览器或工具链中尤其有用。
在多模态感知方面,Omni 才是真正改变产品形态的模型。它的差异化优势并不只是“聊天稍微更强一点”;而是原生图像、视频和音频理解,加上工具使用与 UI grounding 的组合。如果你的产品需要查看截图、解析图表、检查视频、收听音频或驱动界面,那么在这三者中,只有 Omni 是为这类技术栈而专门打造的。
从智能、编程、智能体和多模态指标来看,这些模型各自占据清晰定位:
- 推理/智能:Pro 领先(AA Index 49);Flash 以其体量来看极具竞争力;Omni 在跨模态方面表现强劲。
- 编程/智能体:Pro 常常超过 Claude Sonnet 4.6(SWE-Bench、ClawEval);Omni 在多模态智能体中紧随其后;Flash 是开源第一。
- 速度:Flash 因激活参数更少而最快。
- 上下文:Pro 以 1M tokens 占据绝对优势。
- 多模态:Omni 在该系列中无可匹敌。
Pro 和 Omni 在跻身全球前 10 的同时,相比美国前沿模型可节省 5–10 倍成本。Flash 则以许多闭源模型 1/10 的价格,提供近似水平的开源性能。
你该如何选择?
在以下情况下选择 MiMo V2 Pro……
如果你需要在长时程、高风险的智能体任务中获得最佳表现:大型软件任务、深度工作流编排、大上下文窗口以及稳健的工具使用。对于那些性能比单 token 成本更重要、且任务主要是文本或结构化工具交互而非图像与音频的场景,Pro 是正确选择。
在以下情况下选择 MiMo V2 Omni……
如果你的产品需要将多模态感知作为一等功能:截图、仪表盘、照片、视频、音频、浏览器状态或跨设备操作。Omni 是“看、听、行动”类应用的最佳平衡点;如果你不需要 1M-token 的旗舰上下文,那么它往往比 Pro 更容易证明投入合理。
在以下情况下选择 MiMo V2 Flash……
如果你追求最佳性价比。Flash 是编程助手、批处理智能体、高吞吐支持、内部自动化以及那些看重开源权重、速度和低成本实验场景的最佳候选。它也是该系列中最容易在预算评审中站得住脚的模型,因为其公开 token 定价明显低于另外两款。
关键差异与各模型最擅长的场景
| Factor | Flash(最适合) | Pro(最适合) | Omni(最适合) |
|---|---|---|---|
| Budget | 极低成本 / 高吞吐 | 高价值推理 | 多模态价值 |
| Task Type | 简单查询、本地部署 | 复杂智能体、编程、规划 | 视觉/视频/音频 + 智能体 |
| Context | 中等 | 最长(1M) | 中等 |
| Open-Source | 是 | 否 | 否 |
| Speed | 最快 | 平衡 | 平衡(存在多模态开销) |
决策框架
步骤 1:你是否需要多模态(图像/视频/音频)?→ Omni($0.40/$2.00)。
步骤 2:纯文本 + 最大化推理/智能体能力?→ Pro($1–2/$3–6)。
步骤 3:预算、速度或自托管是否关键?→ Flash($0.09/$0.29,开源)。
混合策略(API 提供商推荐):将 Flash 用于 80% 的常规任务,将复杂推理路由给 Pro,将多模态任务路由给 Omni,并通过单个 API key 访问整个系列(例如通过 CometAPI)。这样可以在获得完整模型家族能力的同时优化成本。
最终结论:你的个性化推荐
MiMo V2 是 Xiaomi 表明其目标是构建完整 AI 技术栈,而不仅仅是一款明星模型的方式。Pro 是旗舰推理引擎,Omni 是多模态执行者,Flash 是高效的开源主力。最佳选择与其说取决于原始基准分数,不如说取决于你的工作负载形态:以文本为主的智能体适合 Flash 或 Pro,多模态系统适合 Omni,而超大上下文的生产工作流则指向 Pro。
MiMo V2 家族证明了,高性能 AI 不再需要支付西方市场的溢价。对大多数用户来说,可以先从 Flash 或 Omni 开始,随着需求增长再扩展到 Pro,并持续关注 Xiaomi 的路线图,迎接更多突破。
准备好测试了吗? 通过 CometAPI 等平台使用一个 key 即可访问全部三款模型。立即开始实验——正确的选择可能会在一夜之间改变你的 AI 生产力。
