MiMo-V2-Omni 概览
MiMo-V2-Omni 是小米 MiMo 面向 API 平台推出的全模态基础模型,旨在在同一工作流中实现看、听、读和行动。小米将其定位为一种多模态智能体模型,结合了图像、视频、音频和文本理解,以及结构化工具调用、函数执行和 UI grounding。
技术规格
| 项目 | MiMo-V2-Omni |
|---|---|
| 提供方 | Xiaomi MiMo |
| 模型家族 | MiMo-V2 |
| 模态 | 图像、视频、音频、文本 |
| 输出类型 | 文本 |
| 原生音频支持 | 是 |
| 原生音视频联合输入 | 是 |
| 结构化工具调用 | 是 |
| 函数执行 | 是 |
| UI grounding | 是 |
| 长音频处理 | 连续音频理解超过 10 小时 |
| 发布日期 | 2026-03-18 |
| 公开数字上下文长度 | 官方 Omni 页面未说明 |
什么是 MiMo-V2-Omni?
MiMo-V2-Omni 专为需要在单一模型中同时具备感知与行动能力的智能体系统而设计。小米表示,该模型将专用的图像、视频和音频编码器融合进一个共享主干网络中,并训练其去预测下一步应该发生什么,而不仅仅是描述当前已经可见的内容。
MiMo-V2-Omni 的主要特性
- 统一的多模态感知: 图像、视频、音频和文本被作为一条统一的感知流来处理,而不是彼此分离的附加模块。
- 面向智能体的输出: 该模型原生支持结构化工具调用、函数执行和 UI grounding,适用于真实的智能体框架。
- 长时音频理解: 小米声称它可以处理超过 10 小时的连续音频,这对于通用全模态模型来说表现异常强劲。
- 原生音视频推理: 官方页面强调通过音视频联合输入来实现视频理解,而不是依赖纯文本转录管线。
- 浏览器与工作流执行: 小米展示了使用 MiMo-V2-Omni 搭配 OpenClaw 完成端到端浏览器购物和 TikTok 上传流程。
- 从感知到行动的建模框架: 该模型被训练为将“看到什么”与“下一步该做什么”连接起来,这正是演示型模型与智能体模型之间的核心区别。
基准表现

文中明确指出,Omni 在音频理解上超过 Gemini 3 Pro,在图像理解上超过 Claude Opus 4.6,并且在智能体生产力基准测试中的表现可与最强的推理模型相媲美。
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| 模型 | 核心优势 | 上下文 / 规模 | 最适合场景 |
|---|---|---|---|
| MiMo-V2-Omni | 多模态感知 + 智能体行动 | Omni 页面未说明公开上下文长度 | 音频、图像、视频、UI 和浏览器智能体 |
| MiMo-V2-Pro | 最大旗舰智能体模型 | 最高 1M token 上下文;1T+ 参数,42B 激活 | 重型智能体编排与长时程任务 |
| MiMo-V2-Flash | 快速推理与编码 | 256K 上下文;309B 总参数,15B 激活 | 高效推理、编码和高吞吐智能体任务 |
最佳使用场景
当你的工作流依赖非文本输入或输出时,MiMo-V2-Omni 是正确的选择:屏幕理解、语音与音频分析、视频审阅、浏览器自动化、多模态助手,以及机器人式智能体循环。如果你的负载主要是纯文本,并且你更关注原始速度或最大上下文,那么同系列的 Pro 和 Flash 模型会是更明显的替代选择。