Panoramica di MiMo-V2-Flash

MiMo-V2-Flash è il modello di ragionamento a pesi aperti Mixture-of-Experts di Xiaomi MiMo per l'API MiMo-V2-Flash, progettato per inferenza veloce, programmazione e flussi di lavoro agentici. La scheda del modello e il rapporto tecnico lo descrivono come un MoE da 309B parametri con 15B attivi, un design di attenzione ibrido e previsione multi-token per una decodifica più rapida.

Specifiche tecniche

Voce	MiMo-V2-Flash
Fornitore	Xiaomi MiMo
Famiglia di modelli	MiMo-V2
Tipo di modello	Modello linguistico a miscela di esperti (MoE)
Parametri totali	309B
Parametri attivi	15B
Lunghezza del contesto nativa	32K
Lunghezza del contesto estesa	Fino a 256K
Progettazione dell'attenzione	Attenzione ibrida con finestra scorrevole (rapporto 5:1 tra SWA e attenzione globale)
Dimensione della finestra scorrevole	128 token
Livelli MTP	3
Scala di addestramento	27T token
Modalità di output	Testo
Data di rilascio	2025-12-16
Licenza del repository	Apache-2.0 (repository GitHub)

Che cos'è MiMo-V2-Flash?

MiMo-V2-Flash è il modello foundation di Xiaomi ottimizzato per l'efficienza in inferenza, pensato per carichi di lavoro con forte componente di ragionamento. È progettato per bilanciare la gestione di contesti lunghi con costi di serving ridotti, utilizzando attenzione a finestra scorrevole per diminuire la pressione sulla cache e previsione multi-token per accelerare la decodifica.

Caratteristiche principali di MiMo-V2-Flash

Efficienza MoE con un'impronta attiva ridotta: 309B parametri totali ma solo 15B attivi per token, una delle ragioni principali per cui il modello è posizionato per un serving efficiente.
Attenzione ibrida per contesti lunghi: L'architettura alterna cinque strati SWA con uno strato di attenzione globale, usando una finestra da 128 token per ridurre il costo della KV-cache.
Previsione multi-token per una decodifica più veloce: Il modello include 3 livelli MTP e i materiali tecnici la descrivono come un'ottimizzazione di velocità e throughput per la generazione.
Progettato per flussi di lavoro agentici: Xiaomi lo posiziona per casi d'uso di ragionamento, programmazione e agenti, e la suite di valutazione include SWE-Bench, Terminal-Bench e BrowseComp.
Supporto a contesti lunghi: Il repository riporta il supporto fino a 256K, mentre la ricetta vLLM fornisce indicazioni pratiche di serving per valori max-model-len inferiori a seconda del budget di memoria.

Prestazioni sui benchmark

La tabella del modello base nel repository mostra che MiMo-V2-Flash si comporta in modo competitivo rispetto a modelli open più grandi su conoscenza generale, matematica, programmazione e compiti a contesto lungo. La tabella post-addestramento evidenzia risultati solidi per agenti e ragionamento.

Benchmark	MiMo-V2-Flash	Cosa suggerisce
MMLU-Pro	84.9	Forte capacità di ragionamento generale
GPQA-Diamond	83.7	Solide prestazioni su QA difficile
AIME 2025	94.1	Forte ragionamento matematico
LiveCodeBench-v6	80.6	Capacità di programmazione competitiva
SWE-Bench Verified	73.4	Forti prestazioni come agente software
SWE-Bench Multilingual	71.7	Buona copertura multilingue per coding/agent
Terminal-Bench 2.0	38.5	Utile ma non al top sui task orientati al terminale
NIAH-Multi 256K	96.7	Il recupero su contesti lunghi rimane solido a 256K

MiMo-V2-Flash vs modelli di ragionamento affini

Modello	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Note
MiMo-V2-Flash	84.9	73.4	38.5	Modello di ragionamento open-weight efficiente
Kimi-K2 Thinking	84.6	71.3	35.7	Vicino sul ragionamento, più debole sui task da terminale
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Forti prestazioni su terminale, livello di ragionamento simile

Casi d'uso migliori

MiMo-V2-Flash è ideale quando serve un modello che sappia ragionare su input lunghi, aiutare nei compiti di programmazione e restare efficiente in produzione. È una scelta solida per RAG orientato ai documenti, flussi di lavoro agentici a più fasi, assistenza al codice e analisi con contesti lunghi in cui il costo di serving è rilevante.

Limitazioni

MiMo-V2-Flash è ottimizzato per l'efficienza in inferenza, quindi il throughput reale dipende da batching, parallelismo su tensori e configurazione di serving. La guida vLLM mostra anche che impostazioni pratiche di max-model-len possono essere inferiori rispetto ai 256K dichiarati, in base ai compromessi tra memoria e latenza.

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

Support up to 256K context, with a native 32K pretraining length that was later extended.

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.