MiMo-V2-Flash Oversikt

MiMo-V2-Flash er Xiaomi MiMo sin open-weight Mixture-of-Experts-resonneringsmodell for MiMo-V2-Flash API-et, bygget rundt rask inferanse, koding og agent-baserte arbeidsflyter. Modellkortet og den tekniske rapporten beskriver den som en MoE med 309B parametre, 15B aktive parametre, et hybrid attention-design og multi-token-prediksjon for raskere dekoding.

Tekniske spesifikasjoner

Punkt	MiMo-V2-Flash
Leverandør	Xiaomi MiMo
Modellfamilie	MiMo-V2
Modelltype	Mixture-of-Experts (MoE) språkmodell
Totalt antall parametre	309B
Aktive parametre	15B
Naturlig kontekstlengde	32K
Utvidet kontekstlengde	Opptil 256K
Attention-design	Hybrid Sliding Window Attention (5:1 SWA to Global Attention)
Størrelse på glidende vindu	128 tokens
MTP-lag	3
Treningsskala	27T tokens
Utdatamodalitet	Tekst
Utgivelsesdato	2025-12-16
Repository-lisens	Apache-2.0 (GitHub repo)

Hva er MiMo-V2-Flash?

MiMo-V2-Flash er Xiaomis inferanse-effektive grunnmodell for arbeidslaster med tung resonnering. Den er utformet for å balansere håndtering av lang kontekst med lavere serving-kostnad, ved å bruke Sliding Window Attention for å redusere cache-press og multi-token-prediksjon for å akselerere dekoding.

Hovedfunksjoner ved MiMo-V2-Flash

MoE-effektivitet med lite aktivt fotavtrykk: 309B totale parametre, men bare 15B aktive per token, noe som i stor grad forklarer hvorfor modellen er posisjonert for effektiv serving.
Hybrid attention for lang kontekst: Arkitekturen alternerer fem SWA-lag med ett globalt attention-lag og bruker et 128-token-vindu for å kutte KV-cache-kostnad.
Multi-token-prediksjon for raskere dekoding: Modellen inkluderer 3 MTP-lag, og det tekniske materialet beskriver dette som en optimalisering for hastighet og gjennomstrømning ved generering.
Bygget for agent-baserte arbeidsflyter: Xiaomi posisjonerer den for resonnering, koding og agent-brukstilfeller, og evalueringspakken inkluderer SWE-Bench, Terminal-Bench og BrowseComp.
Støtte for lang kontekst: Repoet rapporterer støtte opp til 256K, mens vLLM-oppskriften gir praktiske råd for lavere max-model-len-verdier avhengig av minnebudsjett.

Benchmark-ytelse

Tabellen for grunnmodellen i repoet viser at MiMo-V2-Flash presterer konkurransedyktig mot større åpne modeller på allmennkunnskap, matematikk, koding og oppgaver med lang kontekst. Ettertreningstabellen fremhever sterke agent- og resonneringsresultater.

Benchmark	MiMo-V2-Flash	Hva det indikerer
MMLU-Pro	84.9	Sterk bred resonnering
GPQA-Diamond	83.7	Solid ytelse på vanskelige QA-oppgaver
AIME 2025	94.1	Sterk matematisk resonnering
LiveCodeBench-v6	80.6	Konkurransedyktig kodingsevne
SWE-Bench Verified	73.4	Sterk programvare-agent-ytelse
SWE-Bench Multilingual	71.7	God flerspråklig dekning for koding/agent
Terminal-Bench 2.0	38.5	Nyttig, men ikke i toppsjiktet på terminal-tunge oppgaver
NIAH-Multi 256K	96.7	Gjenfinning med lang kontekst forblir sterk ved 256K

MiMo-V2-Flash vs nærliggende resonneringsmodeller

Modell	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Notater
MiMo-V2-Flash	84.9	73.4	38.5	Effektiv open-weight resonneringsmodell
Kimi-K2 Thinking	84.6	71.3	35.7	Nær på resonnering, svakere på terminaloppgaver
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Sterk terminal-ytelse, tilsvarende nivå på resonnering

Beste brukstilfeller

MiMo-V2-Flash passer best når du trenger en modell som kan resonnerer over lange inndata, hjelpe med kodeoppgaver og være effektiv i produksjon. Den er et sterkt valg for dokumenttunge RAG, flertrinns agent-arbeidsflyter, kodeassistanse og langkontekst-analyse der serving-kostnad betyr mye.

Begrensninger

MiMo-V2-Flash er optimalisert for inferanseffektivitet, så gjennomstrømning i praksis avhenger av batching, tensor-parallellisme og serving-konfigurasjonen. vLLM-veiledningen viser også at praktiske max-model-len-innstillinger kan være lavere enn overskriftsverdien 256K, avhengig av kompromisser mellom minne og latens.

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

Support up to 256K context, with a native 32K pretraining length that was later extended.

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.