MiMo-V2-Flash Oversigt
MiMo-V2-Flash er Xiaomi MiMo’s open-weight Mixture-of-Experts ræsonnementsmodel til MiMo-V2-Flash API’et, bygget med fokus på hurtig inferens, kodning og agent-baserede arbejdsgange. Modelkortet og den tekniske rapport beskriver den som en 309B-parameter MoE med 15B aktive parametre, et hybridt attention-design og multi-token-forudsigelse for hurtigere dekodning.
Tekniske specifikationer
| Element | MiMo-V2-Flash |
|---|---|
| Udbyder | Xiaomi MiMo |
| Modelfamilie | MiMo-V2 |
| Modeltype | Mixture-of-Experts (MoE) sprogmodel |
| Samlede parametre | 309B |
| Aktive parametre | 15B |
| Oprindelig kontekstlængde | 32K |
| Udvidet kontekstlængde | Op til 256K |
| Attention-design | Hybrid Sliding Window Attention (5:1 SWA til Global Attention) |
| Sliding window-størrelse | 128 tokens |
| MTP-lag | 3 |
| Træningsskala | 27T tokens |
| Output-modalitet | Tekst |
| Udgivelsesdato | 2025-12-16 |
| Repository-licens | Apache-2.0 (GitHub repo) |
Hvad er MiMo-V2-Flash?
MiMo-V2-Flash er Xiaomis inferens-effektive grundmodel til arbejdsgange med tungt ræsonnement. Den er designet til at balancere håndtering af lange kontekster med lavere servingsomkostninger ved at bruge sliding window attention for at reducere cachepres og multi-token-forudsigelse for at accelerere dekodning.
Hovedfunktioner i MiMo-V2-Flash
- MoE-effektivitet med et lille aktivt fodaftryk: 309B samlede parametre, men kun 15B aktive pr. token, hvilket er en stor del af grunden til, at modellen er positioneret til effektiv serving.
- Hybrid attention til lang kontekst: Arkitekturen veksler fem SWA-lag med ét globalt attention-lag og bruger et 128-token vindue til at reducere KV-cache-omkostninger.
- Multi-token-forudsigelse for hurtigere dekodning: Modellen indeholder 3 MTP-lag, og de tekniske materialer beskriver dette som en optimering af hastighed og gennemløb for generering.
- Bygget til agent-baserede arbejdsgange: Xiaomi positionerer den til ræsonnement, kodning og agent-brugssager, og evalueringssuiten inkluderer SWE-Bench, Terminal-Bench og BrowseComp.
- Understøttelse af lang kontekst: Repoet rapporterer understøttelse op til 256K, mens vLLM-opskriften giver praktisk serveringsvejledning for lavere
max-model-len-værdier afhængigt af hukommelsesbudget.
Benchmark-ydelse
Grundmodeltabellen i repoet viser, at MiMo-V2-Flash præsterer konkurrencedygtigt mod større åbne modeller på generel viden, matematik, kodning og langkontekst-opgaver. Eftertræningstabellen fremhæver stærke agent- og ræsonnementsresultater.
| Benchmark | MiMo-V2-Flash | Hvad det indikerer |
|---|---|---|
| MMLU-Pro | 84.9 | Stærkt bredt ræsonnement |
| GPQA-Diamond | 83.7 | Solid præstation på svære QA-opgaver |
| AIME 2025 | 94.1 | Stærkt matematisk ræsonnement |
| LiveCodeBench-v6 | 80.6 | Konkurrencedygtig kodningsevne |
| SWE-Bench Verified | 73.4 | Stærk software-agentpræstation |
| SWE-Bench Multilingual | 71.7 | God flersproget kodnings-/agentdækning |
| Terminal-Bench 2.0 | 38.5 | Nyttig men ikke i topklassen på terminaltunge opgaver |
| NIAH-Multi 256K | 96.7 | Langkontekst-hentning forbliver stærk ved 256K |
MiMo-V2-Flash vs nærliggende ræsonnementsmodeller
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Bemærkninger |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Effektiv open-weight ræsonnementsmodel |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Tæt på i ræsonnement, svagere på terminalopgaver |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Stærk terminalpræstation, tilsvarende ræsonnementsniveau |
Bedste brugsscenarier
MiMo-V2-Flash passer bedst, når du har brug for en model, der kan ræsonnere over lange input, hjælpe med kodningsopgaver og forblive effektiv i produktion. Det er et stærkt valg til dokumenttung RAG, flertrins agent-arbejdsgange, kodeassistance og langkontekst-analyse, hvor servingsomkostninger er vigtige.
Begrænsninger
MiMo-V2-Flash er optimeret til inferens-effektivitet, så den reelle gennemløb afhænger af batching, tensor-parallelisme og serveringskonfigurationen. vLLM-guiden viser også, at praktiske max-model-len-indstillinger kan være lavere end de profilerede 256K afhængigt af hukommelses- og latensafvejninger.