Gambaran keseluruhan MiMo-V2-Flash

MiMo-V2-Flash ialah model penaakulan Mixture-of-Experts dengan berat terbuka untuk API MiMo-V2-Flash daripada Xiaomi MiMo, dibina berasaskan inferens pantas, pengaturcaraan, dan aliran kerja berasaskan agen. Kad model dan laporan teknikal menerangkannya sebagai MoE 309B parameter dengan 15B parameter aktif, reka bentuk perhatian hibrid, dan peramalan berbilang token untuk penyahkodan lebih pantas.

Spesifikasi teknikal

Item	MiMo-V2-Flash
Penyedia	Xiaomi MiMo
Keluarga model	MiMo-V2
Jenis model	Model bahasa Mixture-of-Experts (MoE)
Jumlah parameter	309B
Parameter aktif	15B
Panjang konteks natif	32K
Panjang konteks lanjutan	Sehingga 256K
Reka bentuk perhatian	Perhatian Tetingkap Gelongsor Hibrid (5:1 SWA kepada Perhatian Global)
Saiz tetingkap gelongsor	128 token
Lapisan MTP	3
Skala latihan	27T token
Mod keluaran	Teks
Tarikh keluaran	2025-12-16
Lesen repositori	Apache-2.0 (GitHub repo)

Apakah MiMo-V2-Flash?

MiMo-V2-Flash ialah model asas cekap inferens Xiaomi untuk beban kerja berintensif penaakulan. Ia direka untuk mengimbangi pengendalian konteks panjang dengan kos penyajian lebih rendah, menggunakan perhatian tetingkap gelongsor untuk mengurangkan tekanan cache dan peramalan berbilang token untuk mempercepat penyahkodan.

Ciri utama MiMo-V2-Flash

Kecekapan MoE dengan jejak aktif kecil: 309B jumlah parameter tetapi hanya 15B aktif setiap token, yang merupakan sebab utama model ini diposisikan untuk penyajian cekap.
Perhatian hibrid untuk konteks panjang: Seni bina menggiliri lima lapisan SWA dengan satu lapisan perhatian global, menggunakan tetingkap 128 token untuk mengurangkan kos KV-cache.
Peramalan berbilang token untuk penyahkodan lebih pantas: Model termasuk 3 lapisan MTP, dan bahan teknikal menerangkannya sebagai pengoptimuman kelajuan dan throughput untuk penjanaan.
Dibina untuk aliran kerja berasaskan agen: Xiaomi memposisikannya untuk penggunaan penaakulan, pengaturcaraan, dan agen, dan suit penilaian merangkumi SWE-Bench, Terminal-Bench, dan BrowseComp.
Sokongan konteks panjang: Repositori melaporkan sokongan sehingga 256K, manakala resipi vLLM menyediakan panduan penyajian praktikal untuk nilai max-model-len yang lebih rendah bergantung pada bajet memori.

Prestasi penanda aras

Jadual model asas dalam repositori menunjukkan MiMo-V2-Flash berprestasi kompetitif berbanding model terbuka lebih besar pada tugasan pengetahuan umum, matematik, pengaturcaraan, dan konteks panjang. Jadual selepas latihan menyerlahkan keputusan agen dan penaakulan yang kukuh.

Penanda aras	MiMo-V2-Flash	Apa yang disarankan
MMLU-Pro	84.9	Penaakulan luas yang kukuh
GPQA-Diamond	83.7	Prestasi QA sukar yang mantap
AIME 2025	94.1	Penaakulan matematik yang kukuh
LiveCodeBench-v6	80.6	Keupayaan pengaturcaraan yang kompetitif
SWE-Bench Verified	73.4	Prestasi agen perisian yang kukuh
SWE-Bench Multilingual	71.7	Liputan pengaturcaraan/agen berbilang bahasa yang baik
Terminal-Bench 2.0	38.5	Berguna tetapi bukan teratas pada tugasan berat terminal
NIAH-Multi 256K	96.7	Pengambilan konteks panjang kekal kukuh pada 256K

MiMo-V2-Flash vs model penaakulan berdekatan

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Catatan
MiMo-V2-Flash	84.9	73.4	38.5	Model penaakulan berat terbuka yang cekap
Kimi-K2 Thinking	84.6	71.3	35.7	Hampir setanding pada penaakulan, lebih lemah pada tugasan terminal
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Prestasi terminal yang kuat, aras penaakulan serupa

Kes penggunaan terbaik

MiMo-V2-Flash paling sesuai apabila anda memerlukan model yang boleh membuat penaakulan atas input panjang, membantu tugasan pengaturcaraan, dan kekal cekap dalam produksi. Ia ialah pilihan yang kukuh untuk RAG berintensif dokumen, aliran kerja agen berbilang langkah, bantuan kod, dan analisis konteks panjang apabila kos penyajian penting.

Had

MiMo-V2-Flash dioptimumkan untuk kecekapan inferens, jadi throughput dunia sebenar bergantung pada pengelompokan (batching), paralelisme tensor, dan konfigurasi penyajian. Panduan vLLM juga menunjukkan bahawa tetapan praktikal max-model-len mungkin lebih rendah daripada angka utama 256K bergantung pada pertukaran antara memori dan kependaman.

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

Support up to 256K context, with a native 32K pretraining length that was later extended.

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.