Überblick über MiMo-V2-Flash
MiMo-V2-Flash ist Xiaomi MiMos Open-Weight-Mixture-of-Experts-Reasoning-Modell für die MiMo-V2-Flash-API, das auf schnelle Inferenz, Coding und agentische Workflows ausgelegt ist. Die Model Card und der technische Bericht beschreiben es als ein MoE mit 309B Parametern, 15B aktiven Parametern, einem hybriden Attention-Design und Multi-Token-Prediction für schnelleres Decoding.
Technische Spezifikationen
| Item | MiMo-V2-Flash |
|---|---|
| Provider | Xiaomi MiMo |
| Model family | MiMo-V2 |
| Model type | Mixture-of-Experts-(MoE-)Sprachmodell |
| Total parameters | 309B |
| Active parameters | 15B |
| Native context length | 32K |
| Extended context length | Bis zu 256K |
| Attention design | Hybrid Sliding Window Attention (5:1 SWA zu Global Attention) |
| Sliding window size | 128 Tokens |
| MTP layers | 3 |
| Training scale | 27T Tokens |
| Output modality | Text |
| Release date | 2025-12-16 |
| Repository license | Apache-2.0 (GitHub-Repo) |
Was ist MiMo-V2-Flash?
MiMo-V2-Flash ist Xiaomis inferenzeffizientes Foundation Model für rechenintensive Workloads mit hohem Reasoning-Anteil. Es wurde entwickelt, um die Verarbeitung langer Kontexte mit geringeren Bereitstellungskosten auszubalancieren, indem Sliding Window Attention zur Reduzierung des Cache-Drucks und Multi-Token-Prediction zur Beschleunigung des Decodings eingesetzt werden.
Hauptmerkmale von MiMo-V2-Flash
- MoE-Effizienz mit kleinem aktivem Footprint: 309B Gesamtparameter, aber nur 15B aktive Parameter pro Token, was ein wesentlicher Grund dafür ist, warum das Modell für effiziente Bereitstellung positioniert ist.
- Hybride Attention für langen Kontext: Die Architektur wechselt zwischen fünf SWA-Layern und einem Global-Attention-Layer und verwendet ein 128-Token-Fenster, um die KV-Cache-Kosten zu senken.
- Multi-Token-Prediction für schnelleres Decoding: Das Modell enthält 3 MTP-Layer, und die technischen Unterlagen beschreiben dies als Geschwindigkeits- und Durchsatzoptimierung für die Generierung.
- Für agentische Workflows entwickelt: Xiaomi positioniert es für Reasoning-, Coding- und Agent-Anwendungsfälle, und die Evaluierungssuite umfasst SWE-Bench, Terminal-Bench und BrowseComp.
- Unterstützung für langen Kontext: Das Repo meldet Unterstützung bis zu 256K, während das vLLM-Rezept praktische Hinweise für das Serving mit niedrigeren
max-model-len-Werten je nach Speicherbudget bietet.
Benchmark-Leistung
Die Basismodell-Tabelle im Repo zeigt, dass MiMo-V2-Flash im Vergleich zu größeren offenen Modellen bei allgemeinem Wissen, Mathematik, Coding und Long-Context-Aufgaben wettbewerbsfähig abschneidet. Die Post-Training-Tabelle hebt starke agentische und Reasoning-Ergebnisse hervor.
| Benchmark | MiMo-V2-Flash | Was darauf hindeutet |
|---|---|---|
| MMLU-Pro | 84.9 | Starkes allgemeines Reasoning |
| GPQA-Diamond | 83.7 | Solide Leistung bei schwierigen QA-Aufgaben |
| AIME 2025 | 94.1 | Starkes mathematisches Reasoning |
| LiveCodeBench-v6 | 80.6 | Wettbewerbsfähige Coding-Fähigkeiten |
| SWE-Bench Verified | 73.4 | Starke Software-Agent-Leistung |
| SWE-Bench Multilingual | 71.7 | Gute mehrsprachige Abdeckung für Coding/Agenten |
| Terminal-Bench 2.0 | 38.5 | Nützlich, aber nicht Spitzenklasse bei terminallastigen Aufgaben |
| NIAH-Multi 256K | 96.7 | Long-Context-Retrieval bleibt auch bei 256K stark |
MiMo-V2-Flash im Vergleich zu nahegelegenen Reasoning-Modellen
| Model | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Notes |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Effizientes Open-Weight-Reasoning-Modell |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Nahe bei Reasoning, schwächer bei Terminal-Aufgaben |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Starke Terminal-Leistung, ähnliche Reasoning-Klasse |
Beste Anwendungsfälle
MiMo-V2-Flash eignet sich am besten, wenn Sie ein Modell benötigen, das über lange Eingaben hinweg schlussfolgern kann, bei Coding-Aufgaben hilft und in der Produktion effizient bleibt. Es ist eine starke Wahl für dokumentenlastiges RAG, mehrstufige agentische Workflows, Code-Unterstützung und Long-Context-Analysen, bei denen die Serving-Kosten wichtig sind.
Einschränkungen
MiMo-V2-Flash ist auf Inferenz-Effizienz optimiert, daher hängt der reale Durchsatz von Batching, Tensor Parallelism und der Serving-Konfiguration ab. Der vLLM-Leitfaden zeigt außerdem, dass praktische Einstellungen für max-model-len je nach Speicher- und Latenz-Trade-offs niedriger sein können als die nominellen 256K.