Gambaran keseluruhan MiMo-V2-Flash
MiMo-V2-Flash ialah model penaakulan Mixture-of-Experts dengan berat terbuka untuk API MiMo-V2-Flash daripada Xiaomi MiMo, dibina berasaskan inferens pantas, pengaturcaraan, dan aliran kerja berasaskan agen. Kad model dan laporan teknikal menerangkannya sebagai MoE 309B parameter dengan 15B parameter aktif, reka bentuk perhatian hibrid, dan peramalan berbilang token untuk penyahkodan lebih pantas.
Spesifikasi teknikal
| Item | MiMo-V2-Flash |
|---|---|
| Penyedia | Xiaomi MiMo |
| Keluarga model | MiMo-V2 |
| Jenis model | Model bahasa Mixture-of-Experts (MoE) |
| Jumlah parameter | 309B |
| Parameter aktif | 15B |
| Panjang konteks natif | 32K |
| Panjang konteks lanjutan | Sehingga 256K |
| Reka bentuk perhatian | Perhatian Tetingkap Gelongsor Hibrid (5:1 SWA kepada Perhatian Global) |
| Saiz tetingkap gelongsor | 128 token |
| Lapisan MTP | 3 |
| Skala latihan | 27T token |
| Mod keluaran | Teks |
| Tarikh keluaran | 2025-12-16 |
| Lesen repositori | Apache-2.0 (GitHub repo) |
Apakah MiMo-V2-Flash?
MiMo-V2-Flash ialah model asas cekap inferens Xiaomi untuk beban kerja berintensif penaakulan. Ia direka untuk mengimbangi pengendalian konteks panjang dengan kos penyajian lebih rendah, menggunakan perhatian tetingkap gelongsor untuk mengurangkan tekanan cache dan peramalan berbilang token untuk mempercepat penyahkodan.
Ciri utama MiMo-V2-Flash
- Kecekapan MoE dengan jejak aktif kecil: 309B jumlah parameter tetapi hanya 15B aktif setiap token, yang merupakan sebab utama model ini diposisikan untuk penyajian cekap.
- Perhatian hibrid untuk konteks panjang: Seni bina menggiliri lima lapisan SWA dengan satu lapisan perhatian global, menggunakan tetingkap 128 token untuk mengurangkan kos KV-cache.
- Peramalan berbilang token untuk penyahkodan lebih pantas: Model termasuk 3 lapisan MTP, dan bahan teknikal menerangkannya sebagai pengoptimuman kelajuan dan throughput untuk penjanaan.
- Dibina untuk aliran kerja berasaskan agen: Xiaomi memposisikannya untuk penggunaan penaakulan, pengaturcaraan, dan agen, dan suit penilaian merangkumi SWE-Bench, Terminal-Bench, dan BrowseComp.
- Sokongan konteks panjang: Repositori melaporkan sokongan sehingga 256K, manakala resipi vLLM menyediakan panduan penyajian praktikal untuk nilai
max-model-lenyang lebih rendah bergantung pada bajet memori.
Prestasi penanda aras
Jadual model asas dalam repositori menunjukkan MiMo-V2-Flash berprestasi kompetitif berbanding model terbuka lebih besar pada tugasan pengetahuan umum, matematik, pengaturcaraan, dan konteks panjang. Jadual selepas latihan menyerlahkan keputusan agen dan penaakulan yang kukuh.
| Penanda aras | MiMo-V2-Flash | Apa yang disarankan |
|---|---|---|
| MMLU-Pro | 84.9 | Penaakulan luas yang kukuh |
| GPQA-Diamond | 83.7 | Prestasi QA sukar yang mantap |
| AIME 2025 | 94.1 | Penaakulan matematik yang kukuh |
| LiveCodeBench-v6 | 80.6 | Keupayaan pengaturcaraan yang kompetitif |
| SWE-Bench Verified | 73.4 | Prestasi agen perisian yang kukuh |
| SWE-Bench Multilingual | 71.7 | Liputan pengaturcaraan/agen berbilang bahasa yang baik |
| Terminal-Bench 2.0 | 38.5 | Berguna tetapi bukan teratas pada tugasan berat terminal |
| NIAH-Multi 256K | 96.7 | Pengambilan konteks panjang kekal kukuh pada 256K |
MiMo-V2-Flash vs model penaakulan berdekatan
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Catatan |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Model penaakulan berat terbuka yang cekap |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Hampir setanding pada penaakulan, lebih lemah pada tugasan terminal |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Prestasi terminal yang kuat, aras penaakulan serupa |
Kes penggunaan terbaik
MiMo-V2-Flash paling sesuai apabila anda memerlukan model yang boleh membuat penaakulan atas input panjang, membantu tugasan pengaturcaraan, dan kekal cekap dalam produksi. Ia ialah pilihan yang kukuh untuk RAG berintensif dokumen, aliran kerja agen berbilang langkah, bantuan kod, dan analisis konteks panjang apabila kos penyajian penting.
Had
MiMo-V2-Flash dioptimumkan untuk kecekapan inferens, jadi throughput dunia sebenar bergantung pada pengelompokan (batching), paralelisme tensor, dan konfigurasi penyajian. Panduan vLLM juga menunjukkan bahawa tetapan praktikal max-model-len mungkin lebih rendah daripada angka utama 256K bergantung pada pertukaran antara memori dan kependaman.