MiMo-V2-Omni 概览

MiMo-V2-Omni 是小米 MiMo 面向 API 平台推出的全模态基础模型，旨在在同一工作流中实现看、听、读和行动。小米将其定位为一种多模态智能体模型，结合了图像、视频、音频和文本理解，以及结构化工具调用、函数执行和 UI grounding。

MiMo-V2-Omni 专为需要在单一模型中同时具备感知与行动能力的智能体系统而设计。小米表示，该模型将专用的图像、视频和音频编码器融合进一个共享主干网络中，并训练其去预测下一步应该发生什么，而不仅仅是描述当前已经可见的内容。

mimo-v2-omni

文中明确指出，Omni 在音频理解上超过 Gemini 3 Pro，在图像理解上超过 Claude Opus 4.6，并且在智能体生产力基准测试中的表现可与最强的推理模型相媲美。

模型	核心优势	上下文 / 规模	最适合场景
MiMo-V2-Omni	多模态感知 + 智能体行动	Omni 页面未说明公开上下文长度	音频、图像、视频、UI 和浏览器智能体
MiMo-V2-Pro	最大旗舰智能体模型	最高 1M token 上下文；1T+ 参数，42B 激活	重型智能体编排与长时程任务
MiMo-V2-Flash	快速推理与编码	256K 上下文；309B 总参数，15B 激活	高效推理、编码和高吞吐智能体任务

当你的工作流依赖非文本输入或输出时，MiMo-V2-Omni 是正确的选择：屏幕理解、语音与音频分析、视频审阅、浏览器自动化、多模态助手，以及机器人式智能体循环。如果你的负载主要是纯文本，并且你更关注原始速度或最大上下文，那么同系列的 Pro 和 Flash 模型会是更明显的替代选择。

mimo-v2-omni