MiMo-V2-Omni 概要
MiMo-V2-Omni は、API プラットフォーム向けに設計された Xiaomi MiMo の omni 基盤モデルで、同一ワークフロー内で「見る・聞く・読む・行動する」を実現します。Xiaomi は、本モデルを、画像・動画・音声・テキストの理解に、構造化されたツール呼び出し、関数実行、UI グラウンディングを組み合わせたマルチモーダルなエージェントモデルとして位置づけています。
技術仕様
| 項目 | MiMo-V2-Omni |
|---|---|
| 提供元 | Xiaomi MiMo |
| モデルファミリー | MiMo-V2 |
| モダリティ | Image, video, audio, text |
| 出力タイプ | Text |
| ネイティブ音声対応 | Yes |
| 音声・動画のネイティブな結合入力 | Yes |
| 構造化されたツール呼び出し | Yes |
| 関数実行 | Yes |
| UI グラウンディング | Yes |
| 長時間音声の処理 | Over 10 hours continuous audio understanding |
| リリース日 | 2026-03-18 |
| 公開されている数値上のコンテキスト長 | Not stated on the official Omni page |
MiMo-V2-Omni とは?
MiMo-V2-Omni は、知覚と行動を 1 つのモデルで要するエージェント型システム向けに設計されています。Xiaomi によれば、このモデルは専用の画像・動画・音声エンコーダーを共有バックボーンに統合し、目に見えているものを記述するだけでなく、次に何が起こるべきかを予測できるように学習されています。
MiMo-V2-Omni の主な特長
- 統合マルチモーダル知覚: 画像・動画・音声・テキストを、個別の付加要素ではなく単一の知覚ストリームとして扱います。
- エージェント対応の出力: 実運用のエージェント基盤に向けて、構造化されたツール呼び出し、関数実行、UI グラウンディングをネイティブにサポートします。
- 長尺音声の理解: 一般的な omni モデルとしては異例に強力で、10 時間を超える連続音声に対応できると Xiaomi は述べています。
- ネイティブな音声・映像推論: 公式ページでは、テキストのみの書き起こしパイプラインではなく、音声と映像の結合入力による動画理解を強調しています。
- ブラウザーおよびワークフロー実行: MiMo-V2-Omni と OpenClaw を用いたエンドツーエンドのブラウザーショッピングや TikTok へのアップロードのフローが示されています。
- 知覚から行動へのフレーミング: 見たものを次に取るべき行動へ結びつけるように訓練されており、デモ用モデルとエージェント型モデルの本質的な違いとなっています。
ベンチマーク性能

Omni は音声理解で Gemini 3 Pro を上回り、画像理解で Claude Opus 4.6 を上回り、エージェント型生産性ベンチマークでは最強クラスの推論モデルと同等の性能を示すと明確に記載されています。
MiMo-V2-Omni と MiMo-V2-Pro と MiMo-V2-Flash の比較
| モデル | コアの強み | コンテキスト / スケール | 最適用途 |
|---|---|---|---|
| MiMo-V2-Omni | マルチモーダル知覚 + エージェントのアクション | Omni ページには公開コンテキスト長の記載なし | 音声・画像・動画・UI・ブラウザーのエージェント |
| MiMo-V2-Pro | 最大規模のフラッグシップ エージェントモデル | Up to 1M-token context; 1T+ パラメータ、42B アクティブ | 大規模なエージェントオーケストレーションと長期的タスク |
| MiMo-V2-Flash | 高速な推論とコーディング | 256K コンテキスト; 309B 合計、15B アクティブ | 効率的な推論・コーディング・高スループットなエージェントタスク |
最適なユースケース
ワークフローが非テキストの入出力に依存する場合、MiMo-V2-Omni が適任です。例: 画面理解、音声・オーディオ分析、動画レビュー、ブラウザー自動化、マルチモーダルアシスタント、ロボティクス型のエージェントループ。ワークロードの大半がテキストのみで、生の速度や最大コンテキストを重視するなら、兄弟モデルである Pro や Flash がより適切な選択肢です。