MiMo-V2-Flash Genel Bakış

MiMo-V2-Flash, Xiaomi MiMo’nun MiMo-V2-Flash API’si için geliştirdiği, açık ağırlıklara sahip Mixture-of-Experts akıl yürütme modelidir; hızlı çıkarım, kodlama ve ajan tabanlı iş akışları etrafında tasarlanmıştır. Model kartı ve teknik rapor, onu 15B aktif parametreye sahip 309B parametreli bir MoE, hibrit dikkat tasarımı ve daha hızlı kod çözme için çoklu token tahmini kullanan bir model olarak tanımlar.

Teknik özellikler

Öğe	MiMo-V2-Flash
Sağlayıcı	Xiaomi MiMo
Model ailesi	MiMo-V2
Model türü	Mixture-of-Experts (MoE) dil modeli
Toplam parametre	309B
Aktif parametre	15B
Yerel bağlam uzunluğu	32K
Genişletilmiş bağlam uzunluğu	256K’ya kadar
Dikkat tasarımı	Hibrit Sliding Window Attention (5:1 SWA / Global Attention)
Kayan pencere boyutu	128 token
MTP katmanları	3
Eğitim ölçeği	27T token
Çıktı modalitesi	Metin
Yayın tarihi	2025-12-16
Depo lisansı	Apache-2.0 (GitHub deposu)

MiMo-V2-Flash nedir?

MiMo-V2-Flash, Xiaomi’nin yoğun akıl yürütme gerektiren iş yükleri için çıkarım verimliliği yüksek temel modelidir. Kayan pencere dikkatini kullanarak önbellek baskısını azaltırken ve çoklu token tahminiyle kod çözmeyi hızlandırırken, uzun bağlam işleme ile daha düşük sunum maliyeti arasında denge kurmak üzere tasarlanmıştır.

MiMo-V2-Flash’ın başlıca özellikleri

Küçük bir aktif ayak iziyle MoE verimliliği: Toplamda 309B parametreye sahip olmasına rağmen token başına yalnızca 15B aktiftir; modelin verimli sunum için konumlandırılmasının önemli nedenlerinden biri de budur.
Uzun bağlam için hibrit dikkat: Mimari, KV-cache maliyetini azaltmak için 128 tokenlık bir pencere kullanarak beş SWA katmanını bir global attention katmanıyla dönüşümlü olarak kullanır.
Daha hızlı kod çözme için çoklu token tahmini: Model 3 MTP katmanı içerir ve teknik materyaller bunu üretim için hız ve throughput optimizasyonu olarak açıklar.
Ajan tabanlı iş akışları için geliştirildi: Xiaomi, modeli akıl yürütme, kodlama ve ajan kullanım senaryoları için konumlandırıyor; değerlendirme paketi de SWE-Bench, Terminal-Bench ve BrowseComp’i içeriyor.
Uzun bağlam desteği: Depo 256K’ya kadar destek bildirmektedir; vLLM tarifi ise bellek bütçesine bağlı olarak daha düşük max-model-len değerleri için pratik sunum yönergeleri sağlar.

Kıyaslama performansı

Depodaki temel model tablosu, MiMo-V2-Flash’ın genel bilgi, matematik, kodlama ve uzun bağlam görevlerinde daha büyük açık modellere karşı rekabetçi performans gösterdiğini ortaya koyuyor. Son eğitim tablosu ise güçlü ajan tabanlı ve akıl yürütme sonuçlarını öne çıkarıyor.

Kıyaslama	MiMo-V2-Flash	Ne ifade ediyor
MMLU-Pro	84.9	Güçlü geniş kapsamlı akıl yürütme
GPQA-Diamond	83.7	Zor QA görevlerinde sağlam performans
AIME 2025	94.1	Güçlü matematiksel akıl yürütme
LiveCodeBench-v6	80.6	Rekabetçi kodlama yeteneği
SWE-Bench Verified	73.4	Güçlü yazılım ajanı performansı
SWE-Bench Multilingual	71.7	İyi çok dilli kodlama/ajan kapsamı
Terminal-Bench 2.0	38.5	Terminal ağırlıklı görevlerde faydalı ancak sınıfının en iyisi değil
NIAH-Multi 256K	96.7	Uzun bağlam erişimi 256K’da güçlü kalmaya devam ediyor

MiMo-V2-Flash ve yakın akıl yürütme modelleri

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Notlar
MiMo-V2-Flash	84.9	73.4	38.5	Verimli, açık ağırlıklı akıl yürütme modeli
Kimi-K2 Thinking	84.6	71.3	35.7	Akıl yürütmede yakın, terminal görevlerinde daha zayıf
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Güçlü terminal performansı, benzer akıl yürütme seviyesi

En iyi kullanım alanları

MiMo-V2-Flash, uzun girdiler üzerinde akıl yürütebilen, kodlama görevlerinde yardımcı olabilen ve üretimde verimli kalabilen bir modele ihtiyaç duyduğunuzda en uygunudur. Belge ağırlıklı RAG, çok adımlı ajan iş akışları, kod yardımı ve sunum maliyetinin önemli olduğu uzun bağlam analizi için güçlü bir seçenektir.

Sınırlamalar

MiMo-V2-Flash çıkarım verimliliği için optimize edilmiştir; bu nedenle gerçek dünyadaki throughput, batching, tensor parallelism ve sunum yapılandırmasına bağlıdır. vLLM kılavuzu ayrıca, pratik max-model-len ayarlarının bellek ve gecikme ödünleşimlerine bağlı olarak başlıktaki 256K’den daha düşük olabileceğini göstermektedir.

mimo-v2-flash

MiMo-V2-Flash Genel Bakış

Teknik özellikler

MiMo-V2-Flash nedir?

MiMo-V2-Flash’ın başlıca özellikleri

Kıyaslama performansı

MiMo-V2-Flash ve yakın akıl yürütme modelleri

En iyi kullanım alanları

Sınırlamalar

SSS

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

mimo-v2-flash için Özellikler

mimo-v2-flash için Fiyatlandırma

mimo-v2-flash için örnek kod ve API

Daha Fazla Model