MiMo-V2-Flash Oversigt

MiMo-V2-Flash er Xiaomi MiMo’s open-weight Mixture-of-Experts ræsonnementsmodel til MiMo-V2-Flash API’et, bygget med fokus på hurtig inferens, kodning og agent-baserede arbejdsgange. Modelkortet og den tekniske rapport beskriver den som en 309B-parameter MoE med 15B aktive parametre, et hybridt attention-design og multi-token-forudsigelse for hurtigere dekodning.

Tekniske specifikationer

Element	MiMo-V2-Flash
Udbyder	Xiaomi MiMo
Modelfamilie	MiMo-V2
Modeltype	Mixture-of-Experts (MoE) sprogmodel
Samlede parametre	309B
Aktive parametre	15B
Oprindelig kontekstlængde	32K
Udvidet kontekstlængde	Op til 256K
Attention-design	Hybrid Sliding Window Attention (5:1 SWA til Global Attention)
Sliding window-størrelse	128 tokens
MTP-lag	3
Træningsskala	27T tokens
Output-modalitet	Tekst
Udgivelsesdato	2025-12-16
Repository-licens	Apache-2.0 (GitHub repo)

Hvad er MiMo-V2-Flash?

MiMo-V2-Flash er Xiaomis inferens-effektive grundmodel til arbejdsgange med tungt ræsonnement. Den er designet til at balancere håndtering af lange kontekster med lavere servingsomkostninger ved at bruge sliding window attention for at reducere cachepres og multi-token-forudsigelse for at accelerere dekodning.

Hovedfunktioner i MiMo-V2-Flash

MoE-effektivitet med et lille aktivt fodaftryk: 309B samlede parametre, men kun 15B aktive pr. token, hvilket er en stor del af grunden til, at modellen er positioneret til effektiv serving.
Hybrid attention til lang kontekst: Arkitekturen veksler fem SWA-lag med ét globalt attention-lag og bruger et 128-token vindue til at reducere KV-cache-omkostninger.
Multi-token-forudsigelse for hurtigere dekodning: Modellen indeholder 3 MTP-lag, og de tekniske materialer beskriver dette som en optimering af hastighed og gennemløb for generering.
Bygget til agent-baserede arbejdsgange: Xiaomi positionerer den til ræsonnement, kodning og agent-brugssager, og evalueringssuiten inkluderer SWE-Bench, Terminal-Bench og BrowseComp.
Understøttelse af lang kontekst: Repoet rapporterer understøttelse op til 256K, mens vLLM-opskriften giver praktisk serveringsvejledning for lavere max-model-len-værdier afhængigt af hukommelsesbudget.

Benchmark-ydelse

Grundmodeltabellen i repoet viser, at MiMo-V2-Flash præsterer konkurrencedygtigt mod større åbne modeller på generel viden, matematik, kodning og langkontekst-opgaver. Eftertræningstabellen fremhæver stærke agent- og ræsonnementsresultater.

Benchmark	MiMo-V2-Flash	Hvad det indikerer
MMLU-Pro	84.9	Stærkt bredt ræsonnement
GPQA-Diamond	83.7	Solid præstation på svære QA-opgaver
AIME 2025	94.1	Stærkt matematisk ræsonnement
LiveCodeBench-v6	80.6	Konkurrencedygtig kodningsevne
SWE-Bench Verified	73.4	Stærk software-agentpræstation
SWE-Bench Multilingual	71.7	God flersproget kodnings-/agentdækning
Terminal-Bench 2.0	38.5	Nyttig men ikke i topklassen på terminaltunge opgaver
NIAH-Multi 256K	96.7	Langkontekst-hentning forbliver stærk ved 256K

MiMo-V2-Flash vs nærliggende ræsonnementsmodeller

Model	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Bemærkninger
MiMo-V2-Flash	84.9	73.4	38.5	Effektiv open-weight ræsonnementsmodel
Kimi-K2 Thinking	84.6	71.3	35.7	Tæt på i ræsonnement, svagere på terminalopgaver
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Stærk terminalpræstation, tilsvarende ræsonnementsniveau

Bedste brugsscenarier

MiMo-V2-Flash passer bedst, når du har brug for en model, der kan ræsonnere over lange input, hjælpe med kodningsopgaver og forblive effektiv i produktion. Det er et stærkt valg til dokumenttung RAG, flertrins agent-arbejdsgange, kodeassistance og langkontekst-analyse, hvor servingsomkostninger er vigtige.

Begrænsninger

MiMo-V2-Flash er optimeret til inferens-effektivitet, så den reelle gennemløb afhænger af batching, tensor-parallelisme og serveringskonfigurationen. vLLM-guiden viser også, at praktiske max-model-len-indstillinger kan være lavere end de profilerede 256K afhængigt af hukommelses- og latensafvejninger.

mimo-v2-flash

MiMo-V2-Flash Oversigt

Tekniske specifikationer

Hvad er MiMo-V2-Flash?

Hovedfunktioner i MiMo-V2-Flash

Benchmark-ydelse

MiMo-V2-Flash vs nærliggende ræsonnementsmodeller

Bedste brugsscenarier

Begrænsninger

FAQ

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

Funktioner til mimo-v2-flash

Priser for mimo-v2-flash

Eksempelkode og API til mimo-v2-flash

Flere modeller