MiMo-V2-Flash Oversikt
MiMo-V2-Flash er Xiaomi MiMo sin open-weight Mixture-of-Experts-resonneringsmodell for MiMo-V2-Flash API-et, bygget rundt rask inferanse, koding og agent-baserte arbeidsflyter. Modellkortet og den tekniske rapporten beskriver den som en MoE med 309B parametre, 15B aktive parametre, et hybrid attention-design og multi-token-prediksjon for raskere dekoding.
Tekniske spesifikasjoner
| Punkt | MiMo-V2-Flash |
|---|---|
| Leverandør | Xiaomi MiMo |
| Modellfamilie | MiMo-V2 |
| Modelltype | Mixture-of-Experts (MoE) språkmodell |
| Totalt antall parametre | 309B |
| Aktive parametre | 15B |
| Naturlig kontekstlengde | 32K |
| Utvidet kontekstlengde | Opptil 256K |
| Attention-design | Hybrid Sliding Window Attention (5:1 SWA to Global Attention) |
| Størrelse på glidende vindu | 128 tokens |
| MTP-lag | 3 |
| Treningsskala | 27T tokens |
| Utdatamodalitet | Tekst |
| Utgivelsesdato | 2025-12-16 |
| Repository-lisens | Apache-2.0 (GitHub repo) |
Hva er MiMo-V2-Flash?
MiMo-V2-Flash er Xiaomis inferanse-effektive grunnmodell for arbeidslaster med tung resonnering. Den er utformet for å balansere håndtering av lang kontekst med lavere serving-kostnad, ved å bruke Sliding Window Attention for å redusere cache-press og multi-token-prediksjon for å akselerere dekoding.
Hovedfunksjoner ved MiMo-V2-Flash
- MoE-effektivitet med lite aktivt fotavtrykk: 309B totale parametre, men bare 15B aktive per token, noe som i stor grad forklarer hvorfor modellen er posisjonert for effektiv serving.
- Hybrid attention for lang kontekst: Arkitekturen alternerer fem SWA-lag med ett globalt attention-lag og bruker et 128-token-vindu for å kutte KV-cache-kostnad.
- Multi-token-prediksjon for raskere dekoding: Modellen inkluderer 3 MTP-lag, og det tekniske materialet beskriver dette som en optimalisering for hastighet og gjennomstrømning ved generering.
- Bygget for agent-baserte arbeidsflyter: Xiaomi posisjonerer den for resonnering, koding og agent-brukstilfeller, og evalueringspakken inkluderer SWE-Bench, Terminal-Bench og BrowseComp.
- Støtte for lang kontekst: Repoet rapporterer støtte opp til 256K, mens vLLM-oppskriften gir praktiske råd for lavere
max-model-len-verdier avhengig av minnebudsjett.
Benchmark-ytelse
Tabellen for grunnmodellen i repoet viser at MiMo-V2-Flash presterer konkurransedyktig mot større åpne modeller på allmennkunnskap, matematikk, koding og oppgaver med lang kontekst. Ettertreningstabellen fremhever sterke agent- og resonneringsresultater.
| Benchmark | MiMo-V2-Flash | Hva det indikerer |
|---|---|---|
| MMLU-Pro | 84.9 | Sterk bred resonnering |
| GPQA-Diamond | 83.7 | Solid ytelse på vanskelige QA-oppgaver |
| AIME 2025 | 94.1 | Sterk matematisk resonnering |
| LiveCodeBench-v6 | 80.6 | Konkurransedyktig kodingsevne |
| SWE-Bench Verified | 73.4 | Sterk programvare-agent-ytelse |
| SWE-Bench Multilingual | 71.7 | God flerspråklig dekning for koding/agent |
| Terminal-Bench 2.0 | 38.5 | Nyttig, men ikke i toppsjiktet på terminal-tunge oppgaver |
| NIAH-Multi 256K | 96.7 | Gjenfinning med lang kontekst forblir sterk ved 256K |
MiMo-V2-Flash vs nærliggende resonneringsmodeller
| Modell | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Notater |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Effektiv open-weight resonneringsmodell |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Nær på resonnering, svakere på terminaloppgaver |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Sterk terminal-ytelse, tilsvarende nivå på resonnering |
Beste brukstilfeller
MiMo-V2-Flash passer best når du trenger en modell som kan resonnerer over lange inndata, hjelpe med kodeoppgaver og være effektiv i produksjon. Den er et sterkt valg for dokumenttunge RAG, flertrinns agent-arbeidsflyter, kodeassistanse og langkontekst-analyse der serving-kostnad betyr mye.
Begrensninger
MiMo-V2-Flash er optimalisert for inferanseffektivitet, så gjennomstrømning i praksis avhenger av batching, tensor-parallellisme og serving-konfigurasjonen. vLLM-veiledningen viser også at praktiske max-model-len-innstillinger kan være lavere enn overskriftsverdien 256K, avhengig av kompromisser mellom minne og latens.