Gambaran Umum MiMo-V2-Flash
MiMo-V2-Flash adalah model penalaran Mixture-of-Experts dengan bobot terbuka dari Xiaomi MiMo untuk API MiMo-V2-Flash, dibangun untuk inferensi cepat, pengodean, dan alur kerja agen. Kartu model dan laporan teknis menggambarkannya sebagai MoE 309B parameter dengan 15B parameter aktif, desain atensi hibrida, dan prediksi multi-token untuk dekode yang lebih cepat.
Spesifikasi teknis
| Item | MiMo-V2-Flash |
|---|---|
| Provider | Xiaomi MiMo |
| Model family | MiMo-V2 |
| Model type | Model bahasa Mixture-of-Experts (MoE) |
| Total parameters | 309B |
| Active parameters | 15B |
| Native context length | 32K |
| Extended context length | Up to 256K |
| Attention design | Atensi Jendela Geser Hibrida (5:1 SWA ke Atensi Global) |
| Sliding window size | 128 tokens |
| MTP layers | 3 |
| Training scale | 27T tokens |
| Output modality | Teks |
| Release date | 2025-12-16 |
| Repository license | Apache-2.0 (repositori GitHub) |
Apa itu MiMo-V2-Flash?
MiMo-V2-Flash adalah model fondasi Xiaomi yang efisien untuk inferensi pada beban kerja yang menuntut penalaran. Model ini dirancang untuk menyeimbangkan penanganan konteks panjang dengan biaya penyajian yang lebih rendah, menggunakan atensi jendela geser untuk mengurangi tekanan cache dan prediksi multi-token untuk mempercepat dekode.
Fitur utama MiMo-V2-Flash
- Efisiensi MoE dengan jejak aktif kecil: 309B parameter total tetapi hanya 15B aktif per token, yang menjadi salah satu alasan model ini diposisikan untuk penyajian yang efisien.
- Atensi hibrida untuk konteks panjang: Arsitektur mengalternasi lima lapisan SWA dengan satu lapisan atensi global, menggunakan jendela 128 token untuk memangkas biaya KV-cache.
- Prediksi multi-token untuk dekode lebih cepat: Model mencakup 3 lapisan MTP, dan materi teknis menggambarkannya sebagai optimisasi kecepatan dan throughput untuk generasi.
- Dibangun untuk alur kerja agen: Xiaomi memposisikannya untuk kasus penggunaan penalaran, pengodean, dan agen, dan rangkaian evaluasi mencakup SWE-Bench, Terminal-Bench, dan BrowseComp.
- Dukungan konteks panjang: Repositori melaporkan dukungan hingga 256K, sementara resep vLLM memberikan panduan penyajian praktis untuk nilai
max-model-lenyang lebih rendah bergantung pada anggaran memori.
Kinerja benchmark
Tabel model dasar di repositori menunjukkan MiMo-V2-Flash bersaing dengan model terbuka yang lebih besar pada tugas pengetahuan umum, matematika, pengodean, dan konteks panjang. Tabel pascapelatihan menyoroti hasil agen dan penalaran yang kuat.
| Benchmark | MiMo-V2-Flash | Implikasinya |
|---|---|---|
| MMLU-Pro | 84.9 | Penalaran umum yang kuat |
| GPQA-Diamond | 83.7 | Kinerja QA sulit yang solid |
| AIME 2025 | 94.1 | Penalaran matematika yang kuat |
| LiveCodeBench-v6 | 80.6 | Kemampuan pengodean yang kompetitif |
| SWE-Bench Verified | 73.4 | Performa agen perangkat lunak yang kuat |
| SWE-Bench Multilingual | 71.7 | Cakupan pengodean/agen multibahasa yang baik |
| Terminal-Bench 2.0 | 38.5 | Berguna tetapi bukan papan atas pada tugas terminal |
| NIAH-Multi 256K | 96.7 | Pengambilan konteks panjang tetap kuat di 256K |
MiMo-V2-Flash vs model penalaran sebanding
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Catatan |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Model penalaran berbobot terbuka yang efisien |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Mendekati dalam penalaran, lebih lemah di terminal |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Performa terminal kuat, tingkatan penalaran serupa |
Skenario penggunaan terbaik
MiMo-V2-Flash paling cocok saat Anda memerlukan model yang dapat bernalar atas masukan panjang, membantu tugas pengodean, dan tetap efisien di produksi. Ini adalah pilihan kuat untuk RAG berbasis dokumen, alur kerja agen multilangkah, bantuan kode, dan analisis konteks panjang di mana biaya penyajian penting.
Keterbatasan
MiMo-V2-Flash dioptimalkan untuk efisiensi inferensi, sehingga throughput dunia nyata bergantung pada batching, paralelisme tensor, dan konfigurasi penyajian. Panduan vLLM juga menunjukkan bahwa pengaturan max-model-len yang praktis mungkin lebih rendah daripada 256K utama, tergantung pada kompromi memori dan latensi.