Überblick über MiMo-V2-Flash

MiMo-V2-Flash ist Xiaomi MiMos Open-Weight-Mixture-of-Experts-Reasoning-Modell für die MiMo-V2-Flash-API, das auf schnelle Inferenz, Coding und agentische Workflows ausgelegt ist. Die Model Card und der technische Bericht beschreiben es als ein MoE mit 309B Parametern, 15B aktiven Parametern, einem hybriden Attention-Design und Multi-Token-Prediction für schnelleres Decoding.

Technische Spezifikationen

Item	MiMo-V2-Flash
Provider	Xiaomi MiMo
Model family	MiMo-V2
Model type	Mixture-of-Experts-(MoE-)Sprachmodell
Total parameters	309B
Active parameters	15B
Native context length	32K
Extended context length	Bis zu 256K
Attention design	Hybrid Sliding Window Attention (5:1 SWA zu Global Attention)
Sliding window size	128 Tokens
MTP layers	3
Training scale	27T Tokens
Output modality	Text
Release date	2025-12-16
Repository license	Apache-2.0 (GitHub-Repo)

Was ist MiMo-V2-Flash?

MiMo-V2-Flash ist Xiaomis inferenzeffizientes Foundation Model für rechenintensive Workloads mit hohem Reasoning-Anteil. Es wurde entwickelt, um die Verarbeitung langer Kontexte mit geringeren Bereitstellungskosten auszubalancieren, indem Sliding Window Attention zur Reduzierung des Cache-Drucks und Multi-Token-Prediction zur Beschleunigung des Decodings eingesetzt werden.

Hauptmerkmale von MiMo-V2-Flash

MoE-Effizienz mit kleinem aktivem Footprint: 309B Gesamtparameter, aber nur 15B aktive Parameter pro Token, was ein wesentlicher Grund dafür ist, warum das Modell für effiziente Bereitstellung positioniert ist.
Hybride Attention für langen Kontext: Die Architektur wechselt zwischen fünf SWA-Layern und einem Global-Attention-Layer und verwendet ein 128-Token-Fenster, um die KV-Cache-Kosten zu senken.
Multi-Token-Prediction für schnelleres Decoding: Das Modell enthält 3 MTP-Layer, und die technischen Unterlagen beschreiben dies als Geschwindigkeits- und Durchsatzoptimierung für die Generierung.
Für agentische Workflows entwickelt: Xiaomi positioniert es für Reasoning-, Coding- und Agent-Anwendungsfälle, und die Evaluierungssuite umfasst SWE-Bench, Terminal-Bench und BrowseComp.
Unterstützung für langen Kontext: Das Repo meldet Unterstützung bis zu 256K, während das vLLM-Rezept praktische Hinweise für das Serving mit niedrigeren max-model-len-Werten je nach Speicherbudget bietet.

Benchmark-Leistung

Die Basismodell-Tabelle im Repo zeigt, dass MiMo-V2-Flash im Vergleich zu größeren offenen Modellen bei allgemeinem Wissen, Mathematik, Coding und Long-Context-Aufgaben wettbewerbsfähig abschneidet. Die Post-Training-Tabelle hebt starke agentische und Reasoning-Ergebnisse hervor.

Benchmark	MiMo-V2-Flash	Was darauf hindeutet
MMLU-Pro	84.9	Starkes allgemeines Reasoning
GPQA-Diamond	83.7	Solide Leistung bei schwierigen QA-Aufgaben
AIME 2025	94.1	Starkes mathematisches Reasoning
LiveCodeBench-v6	80.6	Wettbewerbsfähige Coding-Fähigkeiten
SWE-Bench Verified	73.4	Starke Software-Agent-Leistung
SWE-Bench Multilingual	71.7	Gute mehrsprachige Abdeckung für Coding/Agenten
Terminal-Bench 2.0	38.5	Nützlich, aber nicht Spitzenklasse bei terminallastigen Aufgaben
NIAH-Multi 256K	96.7	Long-Context-Retrieval bleibt auch bei 256K stark

MiMo-V2-Flash im Vergleich zu nahegelegenen Reasoning-Modellen

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Notes
MiMo-V2-Flash	84.9	73.4	38.5	Effizientes Open-Weight-Reasoning-Modell
Kimi-K2 Thinking	84.6	71.3	35.7	Nahe bei Reasoning, schwächer bei Terminal-Aufgaben
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Starke Terminal-Leistung, ähnliche Reasoning-Klasse

Beste Anwendungsfälle

MiMo-V2-Flash eignet sich am besten, wenn Sie ein Modell benötigen, das über lange Eingaben hinweg schlussfolgern kann, bei Coding-Aufgaben hilft und in der Produktion effizient bleibt. Es ist eine starke Wahl für dokumentenlastiges RAG, mehrstufige agentische Workflows, Code-Unterstützung und Long-Context-Analysen, bei denen die Serving-Kosten wichtig sind.

Einschränkungen

MiMo-V2-Flash ist auf Inferenz-Effizienz optimiert, daher hängt der reale Durchsatz von Batching, Tensor Parallelism und der Serving-Konfiguration ab. Der vLLM-Leitfaden zeigt außerdem, dass praktische Einstellungen für max-model-len je nach Speicher- und Latenz-Trade-offs niedriger sein können als die nominellen 256K.

mimo-v2-flash

Überblick über MiMo-V2-Flash

Technische Spezifikationen

Was ist MiMo-V2-Flash?

Hauptmerkmale von MiMo-V2-Flash

Benchmark-Leistung

MiMo-V2-Flash im Vergleich zu nahegelegenen Reasoning-Modellen

Beste Anwendungsfälle

Einschränkungen

FAQ

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

Funktionen für mimo-v2-flash

Preise für mimo-v2-flash

Beispielcode und API für mimo-v2-flash

Weitere Modelle