MiMo-V2-Omni 概覽

MiMo-V2-Omni 是 Xiaomi MiMo 面向 API 平台的全能型基礎模型，旨在在同一工作流程中完成「看、聽、讀與行動」。小米將其定位為一個多模態智能體模型，結合圖像、影片、音訊與文字理解，並具備結構化工具調用、函式執行與 UI 錨定。

MiMo-V2-Omni 面向需要在單一模型中完成感知與行動的智能體系統而設計。小米表示，該模型將專用的圖像、影片與音訊編碼器融合到一個共享骨幹，並將其訓練為預判下一步應該發生什麼，而非只描述已可見的內容。

mimo-v2-omni

其中明確指出 Omni 在音訊理解方面超越了 Gemini 3 Pro，在圖像理解方面超過 Claude Opus 4.6，並且在智能體生產力基準上與最強的推理模型表現相當。

模型	核心優勢	上下文 / 規模	最佳適用
MiMo-V2-Omni	多模態感知 + 智能體行動	官方 Omni 頁面未標示公開上下文長度	音訊、圖像、影片、UI 與瀏覽器型智能體
MiMo-V2-Pro	最大旗艦智能體模型	最多支援 1M-token 上下文；1T+ 參數，42B 活躍	大型智能體編排與長週期任務
MiMo-V2-Flash	快速推理與程式設計	256K 上下文；309B 總參數，15B 活躍	高效率推理、程式設計與高吞吐智能體任務

當你的工作流程依賴非文字的輸入或輸出時，MiMo-V2-Omni 是合適的選擇：螢幕理解、語音與音訊分析、影片審閱、瀏覽器自動化、多模態助理，以及類機器人式智能體迴圈。若你的工作負載多為純文字，且更在乎原始速度或最大上下文，則同系的 Pro 與 Flash 模型是更明顯的替代方案。

mimo-v2-omni