Xiaomiは、MiMoを単一モデルのリリースから、異なる製品ニーズに対応する3モデル構成へと拡張しました。Flashは2025年12月16日に、推論・コーディング・エージェント型タスク向けのオープンソースMoEモデルとして登場し、一方でProとOmniは2026年3月18日に、それぞれフラッグシップ推論モデルおよび完全なマルチモーダルモデルとして正式発表されました。
MiMo V2とは何か、そしてなぜ重要なのか?
XiaomiのMiMo V2シリーズは、実世界のエージェント型ワークロード向けに最適化された最先端AI基盤モデルへの、中国テック大手による本格的な取り組みを示しています。段階的にリリースされ(2025年末〜2026年初頭のFlashに続き、2026年3月18日にProとOmniが登場)、このラインアップは効率性のためにMixture-of-Experts(MoE)アーキテクチャを活用しています。すなわち、総パラメータ数は非常に大きい一方で、推論時に実際に有効化されるパラメータ数ははるかに少なくなっています。
MiMo-V2-Omni: 「目と耳」— テキスト、画像、動画、拡張音声を統合する統一マルチモーダルモデル。
MiMo-V2-Flash: 「高速ワーカー」— 軽量、オープンソース、超低コスト。
MiMo-V2-Pro: 「推論フラッグシップ」— 複雑な多段階タスク向けの1兆パラメータ級ブレイン。
すべてのモデルは、ツールコーリング、長文脈推論、OpenClaw・OpenCode・KiloCodeのようなエージェントフレームワークとの統合を重視しています。そして、OpenAI、Anthropic、Googleの同等モデルよりも大幅に低価格—しばしば5〜10分の1—でありながら、主要ベンチマークで世界および中国トップクラスの順位を獲得しています。
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: クイック比較
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | 2025年12月 | 2026年3月18日 | 2026年3月19日 |
| Parameters | 総計309B / アクティブ15B(MoE) | 総計~1T / アクティブ42B(MoE) | マルチモーダル(正確なパラメータ数は非公開) |
| Context Window | 256Kトークン | 1Mトークン(段階別価格設定) | 256Kトークン |
| Primary Strength | 速度とコスト(コーディング/エージェント) | 推論と複雑なエージェント | マルチモーダル知覚(画像/音声) |
| Benchmarks (Key Examples) | SWE-Bench: 73.4%(オープンソース1位);Artificial Analysis: ~41 | ClawEval: 61.5(世界3位);PinchBench: 81.0;世界順位 #7–8 | 画像/音声タスクで高性能(例:ブラウザでのショッピング、危険検知) |
| Official Pricing (per 1M tokens) | 入力 $0.09 / 出力 $0.29 | ≤256K: $1/$3;>256K: $2/$6 | 入力 $0.40 / 出力 $2 |
| Open-Source | はい(HFでMIT) | いいえ(APIのみ) | いいえ(APIのみ) |
| Best For | 大量・高速タスク | 本番エージェントと長いワークフロー | 画像/音声 + テキストエージェント |
| Inference Speed | ~150トークン/秒 | 高速(MTP最適化) | マルチモーダル遅延 ~2–5秒 |
MiMo V2-Omni、MiMo V2-Pro、MiMo V2-Flashとは何か
MiMo-V2-Flashとは? 効率最優先モデル
MiMo-V2-Flashは、このファミリーの中で最もよく知られている初期メンバーです。Hugging Faceのモデルカードで、Xiaomiはこれを総計309Bパラメータ、アクティブ15Bパラメータを持つMixture-of-Expertsモデルと説明しており、ハイブリッドアテンションとMulti-Token Predictionを用いて出力速度を向上させ、推論コストを削減しています。FP8混合精度で27Tトークンにより学習され、最大256Kコンテキストをサポートし、高速推論とエージェント型ワークフロー向けに最適化されています。
実用面での要点は、Flashがテキスト中心のユースケースにおいて最もバランスの取れた「日常使い」のMiMoモデルだということです。MiMo-V2-Flashは長文脈推論、コーディング支援、エージェントワークフローに強く、SWE-bench VerifiedおよびSWE-bench Multilingualで世界トップのオープンソースモデルとしてランクインしながら、コストはClaude Sonnet 4.5のわずか約3.5%にすぎません。この組み合わせにより、予算を浪費せずにファミリーを試したい場合、Flashが自然な出発点になります。
MiMo-V2-Proとは? フラッグシップ級エージェントブレイン
MiMo-V2-Proは、このファミリーにおけるフラッグシップのテキスト重視モデルです。Xiaomiによれば、総計1T超のパラメータ、42Bのアクティブパラメータ、7:1に拡張されたHybrid Attention比率、そして1Mトークンのコンテキストウィンドウを備えています。コーディング能力はClaude 4.6 Sonnetを上回り、ClawEvalにおける汎用エージェント性能はOpus 4.6に迫るとされています。重要なのは、Xiaomiがツールコールの安定性と精度が大幅に改善されたと述べている点で、これはデモから本番環境へ移行する際に開発者がまさに注目するシグナルです。
MiMo-V2-Omniとは? マルチモーダルエージェントモデル
MiMo-V2-Omniは、エージェント問題に対するXiaomiのマルチモーダルな回答です。画像、動画、音声のエンコーダを単一の共有バックボーンに統合しており、モデルはひとつの知覚ストリームとして見て、聞いて、読めます。Xiaomiはまた、構造化ツールコーリング、関数実行、UIグラウンディングをネイティブにサポートすると述べており、そのためOmniは汎用マルチモーダルチャットボットではなく、エージェントモデルとして位置付けられています。
Omniは音声理解において単なる文字起こしを超え、10時間を超える連続音声を扱うことができ、音声タスクではGemini 3 Proを上回り、画像理解ではClaude Opus 4.6を超え、Gemini 3のようなトップクラスのクローズドモデルに到達しているとされています。Omniはブラウザおよびモバイルのワークフローで強力な性能を示し、そのエージェントデモではOpenClawがブラウザ操作、ファイルシステムアクセス、ターミナル操作を担当していたとされています。
Rankable Long-Tail Keyword Insight: 「MiMo V2 Pro vs Flash for agentic coding」を検索する開発者は、速度/コストでFlash、本番での信頼性でProを選びます。

MiMo V2 API料金 2026
料金比較(100万トークンあたり)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | 定額 | ~$0.012 – $0.013 |
| Pro | $1.00(≤256K) $2.00(256K–1M) | $3.00(≤256K) $6.00(256K–1M) | コンテキスト長による段階課金;キャッシュ料金あり | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | 定額(マルチモーダルトークンはそれに応じて課金) | ~$0.06 |
Examples:
- Flashは大量の単純タスクで有利です(例:1日100万トークンでも数セント)。
- Omniはマルチモーダル用途で高い価値を提供します(Gemini 3.1相当より安価)。
- ProはClaude Sonnet 4.6の約1/5〜1/6の価格で、多くのエージェント型/コーディング系ベンチマークで同等以上の性能を示します。キャッシュ料金により長文脈コストをさらに削減できます。
CometAPIにおけるMimo V2シリーズAPIの価格は?
CometAPIでは、Mimo APIは公式サイトよりも安価で、公式価格の約20%(実質無料に相当)となっています。MImo-v2 pro、mimo-V2-omni、および mimo-v2-flash はopenclawでも利用できます。例えば:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| Input:$0.8/MOutput:$2.4/M | Input:$1/MOutput:$3/M | 20% |
重要な注意点は、「最安」が必ずしも「最高の価値」を意味するわけではないということです。Proは、1回のモデル呼び出しで複数回の再試行、ツール呼び出し、または人手介入を置き換えられる場合、最も費用対効果の高い選択肢になりえます。Omniは、マルチモーダルグラウンディングによってOCR、音声、画像の別個のパイプライン構築を避けられる場合、よりお得になることがあります。Flashは、大量処理と予測可能な支出が必要な場合の価値リーダーです。
パフォーマンスベンチマーク比較
汎用知能・推論ベンチマーク
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49(世界8位、中国2位) | 主眼ではない | ProはFlashに対して大きな飛躍を示す |
| AIME 2025(数学) | 94.1% | ~94.0% | N/A | Flashはその規模に対して非常に高競争力 |
| Hallucination Rate | ~48% | ~30% | N/A | Proは信頼性の向上を示す |
| LongBench V2(長文脈) | 60.6 | 強力(1Mコンテキスト優位) | N/A | Proは超長文タスクで優れる |
コーディング・エージェント型ベンチマーク
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4%(オープンソース首位) | 78.0% | ~74.8% | Proが先行;Flashはオープンモデル中1位 |
| SWE-Bench Multilingual | 71.7% | 57.1%(多言語版) | N/A | Flashはここで特に強力 |
| ClawEval(エージェント型ツール利用) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Proはコーディング場面でClaude Sonnet 4.6に並ぶか上回ることが多い |
| GDPVal-AA / PinchBench | 1040 – 1426範囲 | 1426 | 81.2(variant) | Proは実世界のエージェントタスクで強力 |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omniはマルチモーダルエージェントで高い競争力 |
マルチモーダルベンチマーク(Omni中心)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro(音声) | 76.8 | Claude Opus 4.6(73.9) | Omniが先行 |
| BigBench Audio / Speech Reasoning | 最大 80.1 – 94.0 | さまざま | 強力な長時間音声対応能力(10時間超) |
| MMMU-Pro(画像) | 85.3 | さまざま(いくつかの首位モデルを上回る) | 優れたチャートおよび視覚理解 |
| Video-MME | 94.0 | 一部領域でGemini 3 Proに対して優勢 | 高い動画イベント予測能力 |
| CharXiv(チャート) | 66.7 | 一部報告でGemini 3 Proを上回る | 構造化ビジュアル推論が堅実 |
パフォーマンス比較:どれが優れているのか?
推論とコーディングに関して、Mimo-V2-Flashは紙面上では非常に強力に見えます。Mimo-V2-FlashはAIME 2025、GPQA-Diamond、SWE-bench Verified、SWE-bench Multilingualでトップティアに位置し、SWE-bench Verifiedでは世界トップのオープンソースモデルであり、Claude Sonnet 4.5に匹敵しながらコストは約3.5%にすぎません。これは、スループットとコスト効率を重視する開発者にとってFlashを際立った存在にしています。
純粋なエージェント制御に関しては、Proがフラッグシップです。Xiaomiはツールコールの安定性、長期的タスク計画、本番向けエンジニアリングワークフローを強調しており、1Mトークンのコンテキストウィンドウは大規模コードベース、複数文書の分析、長時間のブラウザまたはツールチェーンで特に有用です。
マルチモーダル知覚に関しては、製品の形を明確に変えるのはOmniです。その差別化要因は「チャットが少し上手いこと」ではなく、ツール利用とUIグラウンディングを組み合わせたネイティブな画像・動画・音声理解です。製品がスクリーンショットの確認、チャート解析、動画検査、音声聴取、またはインターフェース操作を必要とするなら、Omniはこの3モデルの中でそのスタック向けに特化して設計された唯一のモデルです。
知能、コーディング、エージェント型、マルチモーダルの各指標を通して見ると、各モデルは明確に異なる強みを持っています。
- 推論/知能: Proが先行(AA Index 49);Flashは規模に対して高競争力;Omniはクロスモーダルで強力。
- コーディング/エージェント型: ProはしばしばClaude Sonnet 4.6を上回る(SWE-Bench、ClawEval);Omniはマルチモーダルエージェントで僅差の後続;Flashはオープンソース首位。
- 速度: アクティブパラメータが小さいためFlashが最速。
- コンテキスト: Proが1Mトークンで圧倒。
- マルチモーダル: このファミリー内ではOmniが唯一無二。
ProとOmniは、米国の最先端モデルに比べて5〜10分の1のコスト削減を実現しながら、世界トップ10にランクインしています。Flashは、多くのクローズドモデルの10分の1の価格で、ほぼ同等のオープンソース性能を提供します。
どう選ぶべきか?
次のような場合はMiMo V2 Proを選ぶべきです…
長期的で高リスクなエージェント作業、つまり大規模なソフトウェアタスク、深いワークフローオーケストレーション、大きなコンテキストウィンドウ、堅牢なツール利用において、最良の成功率を求める場合です。Proは、1トークンあたりのコストより性能が重要であり、タスクが主にテキストまたは構造化ツール操作で、画像や音声が中心ではないときに適した選択です。
次のような場合はMiMo V2 Omniを選ぶべきです…
製品にマルチモーダル知覚を中核機能として必要とする場合です。スクリーンショット、ダッシュボード、写真、動画、音声、ブラウザ状態、あるいはクロスデバイス操作などが該当します。Omniは「見て、聞いて、行動する」アプリケーションに最適であり、1Mトークンのフラッグシップ級コンテキストが不要であれば、Proよりも導入理由を示しやすい選択肢です。
次のような場合はMiMo V2 Flashを選ぶべきです…
最高のコストパフォーマンスを求める場合です。Flashは、コーディングCopilot、バッチエージェント、大量サポート、社内自動化、そしてオープンソースの重み、速度、低コストが重要な実験に最適です。また、公表されているトークン価格が他の2モデルより大幅に低いため、予算審査でも最も説明しやすいモデルです。
主な違いと各モデルが輝く場面
| Factor | Flash (Best For) | Pro (Best For) | Omni (Best For) |
|---|---|---|---|
| Budget | 超低コスト / 大量処理 | 高価値な推論 | マルチモーダル価値 |
| Task Type | 単純なクエリ、ローカル展開 | 複雑なエージェント、コーディング、計画 | 画像/動画/音声 + エージェント |
| Context | 中程度 | 最長(1M) | 中程度 |
| Open-Source | はい | いいえ | いいえ |
| Speed | 最速 | バランス型 | バランス型(マルチモーダルの負荷あり) |
判断フレームワーク
Step 1: マルチモーダル(画像/動画/音声)が必要ですか? → Omni($0.40/$2.00)。
Step 2: 純粋なテキストで、最大の推論/エージェント性能が必要ですか? → Pro($1–2/$3–6)。
Step 3: 予算、速度、またはセルフホスティングが重要ですか? → Flash($0.09/$0.29、オープンソース)。
Hybrid Strategy(APIプロバイダー推奨): 日常タスクの80%にはFlashを使い、複雑な推論はProへ、マルチモーダルはOmniへ、単一のAPIキー経由(例: CometAPI)で振り分けます。これにより、フルファミリーへアクセスしながらコストを最適化できます。
最終結論:あなた向けのおすすめ
MiMo V2は、Xiaomiが単一の看板モデルではなく、フルAIスタックを目指していることを示しています。Proはフラッグシップの推論エンジン、Omniはマルチモーダルオペレーター、そしてFlashは効率的なオープンソースの主力モデルです。最適な選択は、生のベンチマークの見栄えよりも、ワークロードの形に左右されます。テキスト中心のエージェントならFlashまたはPro、マルチモーダルシステムならOmni、大規模コンテキストを使う本番ワークフローならProが向いています。
MiMo V2ファミリーは、高性能AIがもはや高額な欧米価格を必要としないことを証明しています。ほとんどのユーザーはFlashまたはOmniから始め、必要に応じてProへ拡張し、さらに大きな進展に向けてXiaomiのロードマップを注視するとよいでしょう。
試してみる準備はできましたか? CometAPI のようなプラットフォームを通じて、1つのキーですべての3モデルにアクセスできます。今すぐ試し始めましょう。正しい選択が、あなたのAI生産性を一夜にして変えるかもしれません。
