MiMo-V2-Omni 概覽
MiMo-V2-Omni 是 Xiaomi MiMo 面向 API 平台的全能型基礎模型,旨在在同一工作流程中完成「看、聽、讀與行動」。小米將其定位為一個多模態智能體模型,結合圖像、影片、音訊與文字理解,並具備結構化工具調用、函式執行與 UI 錨定。
技術規格
| 項目 | MiMo-V2-Omni |
|---|---|
| 供應商 | Xiaomi MiMo |
| 模型系列 | MiMo-V2 |
| 模態 | 圖像、影片、音訊、文字 |
| 輸出類型 | 文字 |
| 原生音訊支援 | 是 |
| 原生音視訊聯合輸入 | 是 |
| 結構化工具調用 | 是 |
| 函式執行 | 是 |
| UI 錨定 | 是 |
| 長音訊處理 | 可連續理解超過 10 小時的音訊 |
| 發布日期 | 2026-03-18 |
| 公開的上下文長度(數值) | 官方 Omni 頁面未說明 |
什麼是 MiMo-V2-Omni?
MiMo-V2-Omni 面向需要在單一模型中完成感知與行動的智能體系統而設計。小米表示,該模型將專用的圖像、影片與音訊編碼器融合到一個共享骨幹,並將其訓練為預判下一步應該發生什麼,而非只描述已可見的內容。
MiMo-V2-Omni 的主要特性
- 統一的多模態感知:將圖像、影片、音訊與文字作為一個感知流處理,而非分離的附加模組。
- 可直接用於智能體的輸出:模型原生支援結構化工具調用、函式執行與 UI 錨定,以對接真實的智能體框架。
- 長時段音訊理解:小米稱其可處理長於 10 小時的連續音訊,對於通用的 omni 模型而言相當罕見。
- 原生音視訊推理:官方頁面強調透過音視訊聯合輸入進行影片理解,而非僅依賴文字轉錄流程。
- 瀏覽器與流程執行:小米展示了結合 MiMo-V2-Omni 與 OpenClaw 的端到端瀏覽器購物與 TikTok 上傳流程。
- 從感知到行動的框架:模型被訓練去連結所見與下一步應採取的行動,這是展示型模型與智能體模型之間的核心差異。
基準表現

其中明確指出 Omni 在音訊理解方面超越了 Gemini 3 Pro,在圖像理解方面超過 Claude Opus 4.6,並且在智能體生產力基準上與最強的推理模型表現相當。
MiMo-V2-Omni 對比 MiMo-V2-Pro 與 MiMo-V2-Flash
| 模型 | 核心優勢 | 上下文 / 規模 | 最佳適用 |
|---|---|---|---|
| MiMo-V2-Omni | 多模態感知 + 智能體行動 | 官方 Omni 頁面未標示公開上下文長度 | 音訊、圖像、影片、UI 與瀏覽器型智能體 |
| MiMo-V2-Pro | 最大旗艦智能體模型 | 最多支援 1M-token 上下文;1T+ 參數,42B 活躍 | 大型智能體編排與長週期任務 |
| MiMo-V2-Flash | 快速推理與程式設計 | 256K 上下文;309B 總參數,15B 活躍 | 高效率推理、程式設計與高吞吐智能體任務 |
最佳使用場景
當你的工作流程依賴非文字的輸入或輸出時,MiMo-V2-Omni 是合適的選擇:螢幕理解、語音與音訊分析、影片審閱、瀏覽器自動化、多模態助理,以及類機器人式智能體迴圈。若你的工作負載多為純文字,且更在乎原始速度或最大上下文,則同系的 Pro 與 Flash 模型是更明顯的替代方案。