MiMo-V2-Flash 概要
MiMo-V2-Flash は、MiMo-V2-Flash API 向けに、迅速な推論、コーディング、エージェントワークフローを中心に設計された Xiaomi MiMo のオープンウェイト Mixture-of-Experts 推論モデルです。モデルカードと技術レポートでは、309B パラメータ、アクティブ 15B パラメータ、ハイブリッドアテンション設計、そしてデコードを高速化するマルチトークン予測を備えた MoE と記載されています。
技術仕様
| 項目 | MiMo-V2-Flash |
|---|---|
| 提供元 | Xiaomi MiMo |
| モデルファミリー | MiMo-V2 |
| モデルタイプ | Mixture-of-Experts (MoE) 言語モデル |
| 総パラメータ数 | 309B |
| アクティブパラメータ数 | 15B |
| ネイティブコンテキスト長 | 32K |
| 拡張コンテキスト長 | 最大 256K |
| アテンション設計 | ハイブリッド Sliding Window Attention(SWA:Global Attention = 5:1) |
| スライディングウィンドウサイズ | 128 トークン |
| MTP レイヤー | 3 |
| トレーニング規模 | 27T トークン |
| 出力モダリティ | テキスト |
| リリース日 | 2025-12-16 |
| リポジトリライセンス | Apache-2.0 (GitHub リポジトリ) |
MiMo-V2-Flash とは?
MiMo-V2-Flash は、推論負荷の高いワークロード向けに推論効率を重視した Xiaomi の基盤モデルです。スライディングウィンドウアテンションによりキャッシュ圧力を下げ、マルチトークン予測でデコードを高速化することで、長コンテキスト処理と低い提供コストのバランスを図っています。
主な特徴
- 小さなアクティブフットプリントによる MoE の効率性: 総パラメータは 309B ですが、トークンごとのアクティブは 15B のみで、これが効率的な提供に適している大きな要因です。
- 長コンテキスト向けのハイブリッドアテンション: このアーキテクチャは 5 層の SWA と 1 層のグローバルアテンションを交互に配置し、128 トークンのウィンドウで KV キャッシュコストを削減します。
- より高速なデコードのためのマルチトークン予測: モデルは 3 つの MTP レイヤーを含み、技術資料では生成の速度とスループットを最適化するものと説明されています。
- エージェントワークフローに最適化: Xiaomi は推論、コーディング、エージェントのユースケース向けに位置付けており、評価スイートには SWE-Bench、Terminal-Bench、BrowseComp が含まれます。
- 長コンテキスト対応: リポジトリでは最大 256K までのサポートが報告されており、vLLM のレシピはメモリ予算に応じて
max-model-lenをより低く設定する際の実運用ガイダンスを提供します。
ベンチマーク性能
リポジトリのベースモデル表は、一般知識、数学、コーディング、長コンテキストの各タスクで、MiMo-V2-Flash がより大きなオープンモデルに対して競合力のある性能を示すことを示しています。ポストトレーニングの表は、エージェント性と推論における強力な結果を強調しています。
| ベンチマーク | MiMo-V2-Flash | 示唆 |
|---|---|---|
| MMLU-Pro | 84.9 | 幅広い推論に強い |
| GPQA-Diamond | 83.7 | 難問 QA の堅実な性能 |
| AIME 2025 | 94.1 | 数学推論に強い |
| LiveCodeBench-v6 | 80.6 | 競争力のあるコーディング能力 |
| SWE-Bench Verified | 73.4 | ソフトウェアエージェント性能が高い |
| SWE-Bench Multilingual | 71.7 | 多言語コーディング/エージェント対応が良好 |
| Terminal-Bench 2.0 | 38.5 | ターミナル中心のタスクでは有用だが最高水準ではない |
| NIAH-Multi 256K | 96.7 | 256K においても長コンテキスト検索は依然強力 |
MiMo-V2-Flash と近傍の推論モデルの比較
| モデル | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | 注記 |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | 効率的なオープンウェイト推論モデル |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | 推論は近いがターミナルタスクで弱い |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | ターミナル性能が高く、推論レベルは同等 |
最適なユースケース
MiMo-V2-Flash は、長い入力に対する推論、コーディングタスクの支援、本番環境での効率性が求められる場合に最適です。ドキュメント主体の RAG、マルチステップのエージェントワークフロー、コード支援、提供コストが重要となる長コンテキスト解析に強力な選択肢です。
制約
MiMo-V2-Flash は推論効率に最適化されているため、実運用でのスループットはバッチ化、テンソル並列、および提供構成に依存します。vLLM ガイドはまた、メモリとレイテンシのトレードオフにより、実用的な max-model-len の設定が見出しの 256K より低くなる場合があることも示しています。