Gambaran Umum MiMo-V2-Flash

MiMo-V2-Flash adalah model penalaran Mixture-of-Experts dengan bobot terbuka dari Xiaomi MiMo untuk API MiMo-V2-Flash, dibangun untuk inferensi cepat, pengodean, dan alur kerja agen. Kartu model dan laporan teknis menggambarkannya sebagai MoE 309B parameter dengan 15B parameter aktif, desain atensi hibrida, dan prediksi multi-token untuk dekode yang lebih cepat.

Spesifikasi teknis

Item	MiMo-V2-Flash
Provider	Xiaomi MiMo
Model family	MiMo-V2
Model type	Model bahasa Mixture-of-Experts (MoE)
Total parameters	309B
Active parameters	15B
Native context length	32K
Extended context length	Up to 256K
Attention design	Atensi Jendela Geser Hibrida (5:1 SWA ke Atensi Global)
Sliding window size	128 tokens
MTP layers	3
Training scale	27T tokens
Output modality	Teks
Release date	2025-12-16
Repository license	Apache-2.0 (repositori GitHub)

Apa itu MiMo-V2-Flash?

MiMo-V2-Flash adalah model fondasi Xiaomi yang efisien untuk inferensi pada beban kerja yang menuntut penalaran. Model ini dirancang untuk menyeimbangkan penanganan konteks panjang dengan biaya penyajian yang lebih rendah, menggunakan atensi jendela geser untuk mengurangi tekanan cache dan prediksi multi-token untuk mempercepat dekode.

Fitur utama MiMo-V2-Flash

Efisiensi MoE dengan jejak aktif kecil: 309B parameter total tetapi hanya 15B aktif per token, yang menjadi salah satu alasan model ini diposisikan untuk penyajian yang efisien.
Atensi hibrida untuk konteks panjang: Arsitektur mengalternasi lima lapisan SWA dengan satu lapisan atensi global, menggunakan jendela 128 token untuk memangkas biaya KV-cache.
Prediksi multi-token untuk dekode lebih cepat: Model mencakup 3 lapisan MTP, dan materi teknis menggambarkannya sebagai optimisasi kecepatan dan throughput untuk generasi.
Dibangun untuk alur kerja agen: Xiaomi memposisikannya untuk kasus penggunaan penalaran, pengodean, dan agen, dan rangkaian evaluasi mencakup SWE-Bench, Terminal-Bench, dan BrowseComp.
Dukungan konteks panjang: Repositori melaporkan dukungan hingga 256K, sementara resep vLLM memberikan panduan penyajian praktis untuk nilai max-model-len yang lebih rendah bergantung pada anggaran memori.

Kinerja benchmark

Tabel model dasar di repositori menunjukkan MiMo-V2-Flash bersaing dengan model terbuka yang lebih besar pada tugas pengetahuan umum, matematika, pengodean, dan konteks panjang. Tabel pascapelatihan menyoroti hasil agen dan penalaran yang kuat.

Benchmark	MiMo-V2-Flash	Implikasinya
MMLU-Pro	84.9	Penalaran umum yang kuat
GPQA-Diamond	83.7	Kinerja QA sulit yang solid
AIME 2025	94.1	Penalaran matematika yang kuat
LiveCodeBench-v6	80.6	Kemampuan pengodean yang kompetitif
SWE-Bench Verified	73.4	Performa agen perangkat lunak yang kuat
SWE-Bench Multilingual	71.7	Cakupan pengodean/agen multibahasa yang baik
Terminal-Bench 2.0	38.5	Berguna tetapi bukan papan atas pada tugas terminal
NIAH-Multi 256K	96.7	Pengambilan konteks panjang tetap kuat di 256K

MiMo-V2-Flash vs model penalaran sebanding

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Catatan
MiMo-V2-Flash	84.9	73.4	38.5	Model penalaran berbobot terbuka yang efisien
Kimi-K2 Thinking	84.6	71.3	35.7	Mendekati dalam penalaran, lebih lemah di terminal
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Performa terminal kuat, tingkatan penalaran serupa

Skenario penggunaan terbaik

MiMo-V2-Flash paling cocok saat Anda memerlukan model yang dapat bernalar atas masukan panjang, membantu tugas pengodean, dan tetap efisien di produksi. Ini adalah pilihan kuat untuk RAG berbasis dokumen, alur kerja agen multilangkah, bantuan kode, dan analisis konteks panjang di mana biaya penyajian penting.

Keterbatasan

MiMo-V2-Flash dioptimalkan untuk efisiensi inferensi, sehingga throughput dunia nyata bergantung pada batching, paralelisme tensor, dan konfigurasi penyajian. Panduan vLLM juga menunjukkan bahwa pengaturan max-model-len yang praktis mungkin lebih rendah daripada 256K utama, tergantung pada kompromi memori dan latensi.

mimo-v2-flash

Gambaran Umum MiMo-V2-Flash

Spesifikasi teknis

Apa itu MiMo-V2-Flash?

Fitur utama MiMo-V2-Flash

Kinerja benchmark

MiMo-V2-Flash vs model penalaran sebanding

Skenario penggunaan terbaik

Keterbatasan

FAQ

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

Fitur untuk mimo-v2-flash

Harga untuk mimo-v2-flash

Kode contoh dan API untuk mimo-v2-flash

Model Lainnya