MiMo-V2-Flash 概要

MiMo-V2-Flash は、MiMo-V2-Flash API 向けに、迅速な推論、コーディング、エージェントワークフローを中心に設計された Xiaomi MiMo のオープンウェイト Mixture-of-Experts 推論モデルです。モデルカードと技術レポートでは、309B パラメータ、アクティブ 15B パラメータ、ハイブリッドアテンション設計、そしてデコードを高速化するマルチトークン予測を備えた MoE と記載されています。

技術仕様

項目	MiMo-V2-Flash
提供元	Xiaomi MiMo
モデルファミリー	MiMo-V2
モデルタイプ	Mixture-of-Experts (MoE) 言語モデル
総パラメータ数	309B
アクティブパラメータ数	15B
ネイティブコンテキスト長	32K
拡張コンテキスト長	最大 256K
アテンション設計	ハイブリッド Sliding Window Attention（SWA:Global Attention = 5:1）
スライディングウィンドウサイズ	128 トークン
MTP レイヤー	3
トレーニング規模	27T トークン
出力モダリティ	テキスト
リリース日	2025-12-16
リポジトリライセンス	Apache-2.0 (GitHub リポジトリ)

MiMo-V2-Flash とは？

MiMo-V2-Flash は、推論負荷の高いワークロード向けに推論効率を重視した Xiaomi の基盤モデルです。スライディングウィンドウアテンションによりキャッシュ圧力を下げ、マルチトークン予測でデコードを高速化することで、長コンテキスト処理と低い提供コストのバランスを図っています。

主な特徴

小さなアクティブフットプリントによる MoE の効率性: 総パラメータは 309B ですが、トークンごとのアクティブは 15B のみで、これが効率的な提供に適している大きな要因です。
長コンテキスト向けのハイブリッドアテンション: このアーキテクチャは 5 層の SWA と 1 層のグローバルアテンションを交互に配置し、128 トークンのウィンドウで KV キャッシュコストを削減します。
より高速なデコードのためのマルチトークン予測: モデルは 3 つの MTP レイヤーを含み、技術資料では生成の速度とスループットを最適化するものと説明されています。
エージェントワークフローに最適化: Xiaomi は推論、コーディング、エージェントのユースケース向けに位置付けており、評価スイートには SWE-Bench、Terminal-Bench、BrowseComp が含まれます。
長コンテキスト対応: リポジトリでは最大 256K までのサポートが報告されており、vLLM のレシピはメモリ予算に応じて max-model-len をより低く設定する際の実運用ガイダンスを提供します。

ベンチマーク性能

リポジトリのベースモデル表は、一般知識、数学、コーディング、長コンテキストの各タスクで、MiMo-V2-Flash がより大きなオープンモデルに対して競合力のある性能を示すことを示しています。ポストトレーニングの表は、エージェント性と推論における強力な結果を強調しています。

ベンチマーク	MiMo-V2-Flash	示唆
MMLU-Pro	84.9	幅広い推論に強い
GPQA-Diamond	83.7	難問 QA の堅実な性能
AIME 2025	94.1	数学推論に強い
LiveCodeBench-v6	80.6	競争力のあるコーディング能力
SWE-Bench Verified	73.4	ソフトウェアエージェント性能が高い
SWE-Bench Multilingual	71.7	多言語コーディング/エージェント対応が良好
Terminal-Bench 2.0	38.5	ターミナル中心のタスクでは有用だが最高水準ではない
NIAH-Multi 256K	96.7	256K においても長コンテキスト検索は依然強力

MiMo-V2-Flash と近傍の推論モデルの比較

モデル	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	注記
MiMo-V2-Flash	84.9	73.4	38.5	効率的なオープンウェイト推論モデル
Kimi-K2 Thinking	84.6	71.3	35.7	推論は近いがターミナルタスクで弱い
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	ターミナル性能が高く、推論レベルは同等

最適なユースケース

MiMo-V2-Flash は、長い入力に対する推論、コーディングタスクの支援、本番環境での効率性が求められる場合に最適です。ドキュメント主体の RAG、マルチステップのエージェントワークフロー、コード支援、提供コストが重要となる長コンテキスト解析に強力な選択肢です。

制約

MiMo-V2-Flash は推論効率に最適化されているため、実運用でのスループットはバッチ化、テンソル並列、および提供構成に依存します。vLLM ガイドはまた、メモリとレイテンシのトレードオフにより、実用的な max-model-len の設定が見出しの 256K より低くなる場合があることも示しています。

mimo-v2-flash

MiMo-V2-Flash 概要

技術仕様

MiMo-V2-Flash とは？

主な特徴

ベンチマーク性能

MiMo-V2-Flash と近傍の推論モデルの比較

最適なユースケース

制約

よくある質問

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

mimo-v2-flashの機能

mimo-v2-flashの料金

mimo-v2-flashのサンプルコードとAPI

その他のモデル