MiMo-V2-Omni 概要

MiMo-V2-Omni は、API プラットフォーム向けに設計された Xiaomi MiMo の omni 基盤モデルで、同一ワークフロー内で「見る・聞く・読む・行動する」を実現します。Xiaomi は、本モデルを、画像・動画・音声・テキストの理解に、構造化されたツール呼び出し、関数実行、UI グラウンディングを組み合わせたマルチモーダルなエージェントモデルとして位置づけています。

技術仕様

項目	MiMo-V2-Omni
提供元	Xiaomi MiMo
モデルファミリー	MiMo-V2
モダリティ	Image, video, audio, text
出力タイプ	Text
ネイティブ音声対応	Yes
音声・動画のネイティブな結合入力	Yes
構造化されたツール呼び出し	Yes
関数実行	Yes
UI グラウンディング	Yes
長時間音声の処理	Over 10 hours continuous audio understanding
リリース日	2026-03-18
公開されている数値上のコンテキスト長	Not stated on the official Omni page

MiMo-V2-Omni とは？

MiMo-V2-Omni は、知覚と行動を 1 つのモデルで要するエージェント型システム向けに設計されています。Xiaomi によれば、このモデルは専用の画像・動画・音声エンコーダーを共有バックボーンに統合し、目に見えているものを記述するだけでなく、次に何が起こるべきかを予測できるように学習されています。

MiMo-V2-Omni の主な特長

統合マルチモーダル知覚: 画像・動画・音声・テキストを、個別の付加要素ではなく単一の知覚ストリームとして扱います。
エージェント対応の出力: 実運用のエージェント基盤に向けて、構造化されたツール呼び出し、関数実行、UI グラウンディングをネイティブにサポートします。
長尺音声の理解: 一般的な omni モデルとしては異例に強力で、10 時間を超える連続音声に対応できると Xiaomi は述べています。
ネイティブな音声・映像推論: 公式ページでは、テキストのみの書き起こしパイプラインではなく、音声と映像の結合入力による動画理解を強調しています。
ブラウザーおよびワークフロー実行: MiMo-V2-Omni と OpenClaw を用いたエンドツーエンドのブラウザーショッピングや TikTok へのアップロードのフローが示されています。
知覚から行動へのフレーミング: 見たものを次に取るべき行動へ結びつけるように訓練されており、デモ用モデルとエージェント型モデルの本質的な違いとなっています。

ベンチマーク性能

mimo-v2-omni

Omni は音声理解で Gemini 3 Pro を上回り、画像理解で Claude Opus 4.6 を上回り、エージェント型生産性ベンチマークでは最強クラスの推論モデルと同等の性能を示すと明確に記載されています。

MiMo-V2-Omni と MiMo-V2-Pro と MiMo-V2-Flash の比較

モデル	コアの強み	コンテキスト / スケール	最適用途
MiMo-V2-Omni	マルチモーダル知覚 + エージェントのアクション	Omni ページには公開コンテキスト長の記載なし	音声・画像・動画・UI・ブラウザーのエージェント
MiMo-V2-Pro	最大規模のフラッグシップエージェントモデル	Up to 1M-token context; 1T+ パラメータ、42B アクティブ	大規模なエージェントオーケストレーションと長期的タスク
MiMo-V2-Flash	高速な推論とコーディング	256K コンテキスト; 309B 合計、15B アクティブ	効率的な推論・コーディング・高スループットなエージェントタスク

最適なユースケース

ワークフローが非テキストの入出力に依存する場合、MiMo-V2-Omni が適任です。例: 画面理解、音声・オーディオ分析、動画レビュー、ブラウザー自動化、マルチモーダルアシスタント、ロボティクス型のエージェントループ。ワークロードの大半がテキストのみで、生の速度や最大コンテキストを重視するなら、兄弟モデルである Pro や Flash がより適切な選択肢です。

mimo-v2-omni

MiMo-V2-Omni 概要

技術仕様

MiMo-V2-Omni とは？

MiMo-V2-Omni の主な特長

ベンチマーク性能

MiMo-V2-Omni と MiMo-V2-Pro と MiMo-V2-Flash の比較

最適なユースケース

よくある質問

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

mimo-v2-omniの機能

mimo-v2-omniの料金

mimo-v2-omniのサンプルコードとAPI

その他のモデル