Overzicht van MiMo-V2-Flash
MiMo-V2-Flash is Xiaomi MiMo’s open-weight Mixture-of-Experts-redeneermodel voor de MiMo-V2-Flash API, gebouwd rond snelle inferentie, coderen en agentische workflows. De modelkaart en het technische rapport beschrijven het als een MoE met 309B parameters, 15B actieve parameters, een hybride attention-ontwerp en multi-tokenvoorspelling voor snellere decodering.
Technische specificaties
| Item | MiMo-V2-Flash |
|---|---|
| Provider | Xiaomi MiMo |
| Modelfamilie | MiMo-V2 |
| Modeltype | Mixture-of-Experts (MoE)-taalmodel |
| Totaal aantal parameters | 309B |
| Actieve parameters | 15B |
| Native contextlengte | 32K |
| Uitgebreide contextlengte | Tot 256K |
| Attention-ontwerp | Hybride Sliding Window Attention (5:1 SWA tot Global Attention) |
| Grootte van sliding window | 128 tokens |
| MTP-lagen | 3 |
| Trainingsschaal | 27T tokens |
| Outputmodaliteit | Tekst |
| Releasedatum | 2025-12-16 |
| Repositorylicentie | Apache-2.0 (GitHub-repo) |
Wat is MiMo-V2-Flash?
MiMo-V2-Flash is Xiaomi’s inferentie-efficiënte foundation model voor workloads met veel redeneerwerk. Het is ontworpen om de verwerking van lange contexten in balans te brengen met lagere serveerkosten, door sliding window attention te gebruiken om cachedruk te verminderen en multi-tokenvoorspelling om decodering te versnellen.
Belangrijkste kenmerken van MiMo-V2-Flash
- MoE-efficiëntie met een kleine actieve footprint: 309B totale parameters maar slechts 15B actief per token, wat een belangrijke reden is waarom het model is gepositioneerd voor efficiënte serving.
- Hybride attention voor lange context: De architectuur wisselt vijf SWA-lagen af met één global-attentionlaag en gebruikt een venster van 128 tokens om de kosten van de KV-cache te verlagen.
- Multi-tokenvoorspelling voor snellere decodering: Het model bevat 3 MTP-lagen, en het technische materiaal beschrijft dit als een optimalisatie voor snelheid en throughput bij generatie.
- Gebouwd voor agentische workflows: Xiaomi positioneert het voor redeneren, coderen en agent-use-cases, en de evaluatiesuite omvat SWE-Bench, Terminal-Bench en BrowseComp.
- Ondersteuning voor lange context: De repo meldt ondersteuning tot 256K, terwijl het vLLM-recept praktische servingrichtlijnen biedt voor lagere
max-model-len-waarden afhankelijk van het geheugenbudget.
Benchmarkprestaties
De basismodeltabel in de repo laat zien dat MiMo-V2-Flash concurrerend presteert ten opzichte van grotere open modellen op het gebied van algemene kennis, wiskunde, coderen en taken met lange context. De post-trainingtabel benadrukt sterke agentische en redeneerresultaten.
| Benchmark | MiMo-V2-Flash | Wat het suggereert |
|---|---|---|
| MMLU-Pro | 84.9 | Sterk breed redeneervermogen |
| GPQA-Diamond | 83.7 | Solide prestaties op moeilijke QA |
| AIME 2025 | 94.1 | Sterk wiskundig redeneervermogen |
| LiveCodeBench-v6 | 80.6 | Concurrerend codeervermogen |
| SWE-Bench Verified | 73.4 | Sterke prestaties als software-agent |
| SWE-Bench Multilingual | 71.7 | Goede meertalige dekking voor coderen/agenten |
| Terminal-Bench 2.0 | 38.5 | Nuttig maar niet toonaangevend bij terminalzware taken |
| NIAH-Multi 256K | 96.7 | Long-context retrieval blijft sterk op 256K |
MiMo-V2-Flash versus nabije redeneermodellen
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Opmerkingen |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Efficiënt open-weight-redeneermodel |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Dicht bij op redeneren, zwakker op terminaltaken |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Sterke terminalprestaties, vergelijkbaar redeneerniveau |
Beste use-cases
MiMo-V2-Flash past het best wanneer je een model nodig hebt dat kan redeneren over lange invoer, kan helpen bij codeertaken en efficiënt blijft in productie. Het is een sterke keuze voor documentzware RAG, agentische workflows met meerdere stappen, code-assistentie en analyse met lange context waarbij serveerkosten belangrijk zijn.
Beperkingen
MiMo-V2-Flash is geoptimaliseerd voor inferentie-efficiëntie, dus de throughput in de praktijk hangt af van batching, tensorparallellisme en de servingconfiguratie. De vLLM-gids laat ook zien dat praktische max-model-len-instellingen lager kunnen zijn dan de headline-waarde van 256K, afhankelijk van afwegingen tussen geheugen en latentie.