MiMo-V2-Flash Genel Bakış
MiMo-V2-Flash, Xiaomi MiMo’nun MiMo-V2-Flash API’si için geliştirdiği, açık ağırlıklara sahip Mixture-of-Experts akıl yürütme modelidir; hızlı çıkarım, kodlama ve ajan tabanlı iş akışları etrafında tasarlanmıştır. Model kartı ve teknik rapor, onu 15B aktif parametreye sahip 309B parametreli bir MoE, hibrit dikkat tasarımı ve daha hızlı kod çözme için çoklu token tahmini kullanan bir model olarak tanımlar.
Teknik özellikler
| Öğe | MiMo-V2-Flash |
|---|---|
| Sağlayıcı | Xiaomi MiMo |
| Model ailesi | MiMo-V2 |
| Model türü | Mixture-of-Experts (MoE) dil modeli |
| Toplam parametre | 309B |
| Aktif parametre | 15B |
| Yerel bağlam uzunluğu | 32K |
| Genişletilmiş bağlam uzunluğu | 256K’ya kadar |
| Dikkat tasarımı | Hibrit Sliding Window Attention (5:1 SWA / Global Attention) |
| Kayan pencere boyutu | 128 token |
| MTP katmanları | 3 |
| Eğitim ölçeği | 27T token |
| Çıktı modalitesi | Metin |
| Yayın tarihi | 2025-12-16 |
| Depo lisansı | Apache-2.0 (GitHub deposu) |
MiMo-V2-Flash nedir?
MiMo-V2-Flash, Xiaomi’nin yoğun akıl yürütme gerektiren iş yükleri için çıkarım verimliliği yüksek temel modelidir. Kayan pencere dikkatini kullanarak önbellek baskısını azaltırken ve çoklu token tahminiyle kod çözmeyi hızlandırırken, uzun bağlam işleme ile daha düşük sunum maliyeti arasında denge kurmak üzere tasarlanmıştır.
MiMo-V2-Flash’ın başlıca özellikleri
- Küçük bir aktif ayak iziyle MoE verimliliği: Toplamda 309B parametreye sahip olmasına rağmen token başına yalnızca 15B aktiftir; modelin verimli sunum için konumlandırılmasının önemli nedenlerinden biri de budur.
- Uzun bağlam için hibrit dikkat: Mimari, KV-cache maliyetini azaltmak için 128 tokenlık bir pencere kullanarak beş SWA katmanını bir global attention katmanıyla dönüşümlü olarak kullanır.
- Daha hızlı kod çözme için çoklu token tahmini: Model 3 MTP katmanı içerir ve teknik materyaller bunu üretim için hız ve throughput optimizasyonu olarak açıklar.
- Ajan tabanlı iş akışları için geliştirildi: Xiaomi, modeli akıl yürütme, kodlama ve ajan kullanım senaryoları için konumlandırıyor; değerlendirme paketi de SWE-Bench, Terminal-Bench ve BrowseComp’i içeriyor.
- Uzun bağlam desteği: Depo 256K’ya kadar destek bildirmektedir; vLLM tarifi ise bellek bütçesine bağlı olarak daha düşük
max-model-lendeğerleri için pratik sunum yönergeleri sağlar.
Kıyaslama performansı
Depodaki temel model tablosu, MiMo-V2-Flash’ın genel bilgi, matematik, kodlama ve uzun bağlam görevlerinde daha büyük açık modellere karşı rekabetçi performans gösterdiğini ortaya koyuyor. Son eğitim tablosu ise güçlü ajan tabanlı ve akıl yürütme sonuçlarını öne çıkarıyor.
| Kıyaslama | MiMo-V2-Flash | Ne ifade ediyor |
|---|---|---|
| MMLU-Pro | 84.9 | Güçlü geniş kapsamlı akıl yürütme |
| GPQA-Diamond | 83.7 | Zor QA görevlerinde sağlam performans |
| AIME 2025 | 94.1 | Güçlü matematiksel akıl yürütme |
| LiveCodeBench-v6 | 80.6 | Rekabetçi kodlama yeteneği |
| SWE-Bench Verified | 73.4 | Güçlü yazılım ajanı performansı |
| SWE-Bench Multilingual | 71.7 | İyi çok dilli kodlama/ajan kapsamı |
| Terminal-Bench 2.0 | 38.5 | Terminal ağırlıklı görevlerde faydalı ancak sınıfının en iyisi değil |
| NIAH-Multi 256K | 96.7 | Uzun bağlam erişimi 256K’da güçlü kalmaya devam ediyor |
MiMo-V2-Flash ve yakın akıl yürütme modelleri
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Notlar |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Verimli, açık ağırlıklı akıl yürütme modeli |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Akıl yürütmede yakın, terminal görevlerinde daha zayıf |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Güçlü terminal performansı, benzer akıl yürütme seviyesi |
En iyi kullanım alanları
MiMo-V2-Flash, uzun girdiler üzerinde akıl yürütebilen, kodlama görevlerinde yardımcı olabilen ve üretimde verimli kalabilen bir modele ihtiyaç duyduğunuzda en uygunudur. Belge ağırlıklı RAG, çok adımlı ajan iş akışları, kod yardımı ve sunum maliyetinin önemli olduğu uzun bağlam analizi için güçlü bir seçenektir.
Sınırlamalar
MiMo-V2-Flash çıkarım verimliliği için optimize edilmiştir; bu nedenle gerçek dünyadaki throughput, batching, tensor parallelism ve sunum yapılandırmasına bağlıdır. vLLM kılavuzu ayrıca, pratik max-model-len ayarlarının bellek ve gecikme ödünleşimlerine bağlı olarak başlıktaki 256K’den daha düşük olabileceğini göstermektedir.