Panoramica di MiMo-V2-Flash
MiMo-V2-Flash è il modello di ragionamento a pesi aperti Mixture-of-Experts di Xiaomi MiMo per l'API MiMo-V2-Flash, progettato per inferenza veloce, programmazione e flussi di lavoro agentici. La scheda del modello e il rapporto tecnico lo descrivono come un MoE da 309B parametri con 15B attivi, un design di attenzione ibrido e previsione multi-token per una decodifica più rapida.
Specifiche tecniche
| Voce | MiMo-V2-Flash |
|---|---|
| Fornitore | Xiaomi MiMo |
| Famiglia di modelli | MiMo-V2 |
| Tipo di modello | Modello linguistico a miscela di esperti (MoE) |
| Parametri totali | 309B |
| Parametri attivi | 15B |
| Lunghezza del contesto nativa | 32K |
| Lunghezza del contesto estesa | Fino a 256K |
| Progettazione dell'attenzione | Attenzione ibrida con finestra scorrevole (rapporto 5:1 tra SWA e attenzione globale) |
| Dimensione della finestra scorrevole | 128 token |
| Livelli MTP | 3 |
| Scala di addestramento | 27T token |
| Modalità di output | Testo |
| Data di rilascio | 2025-12-16 |
| Licenza del repository | Apache-2.0 (repository GitHub) |
Che cos'è MiMo-V2-Flash?
MiMo-V2-Flash è il modello foundation di Xiaomi ottimizzato per l'efficienza in inferenza, pensato per carichi di lavoro con forte componente di ragionamento. È progettato per bilanciare la gestione di contesti lunghi con costi di serving ridotti, utilizzando attenzione a finestra scorrevole per diminuire la pressione sulla cache e previsione multi-token per accelerare la decodifica.
Caratteristiche principali di MiMo-V2-Flash
- Efficienza MoE con un'impronta attiva ridotta: 309B parametri totali ma solo 15B attivi per token, una delle ragioni principali per cui il modello è posizionato per un serving efficiente.
- Attenzione ibrida per contesti lunghi: L'architettura alterna cinque strati SWA con uno strato di attenzione globale, usando una finestra da 128 token per ridurre il costo della KV-cache.
- Previsione multi-token per una decodifica più veloce: Il modello include 3 livelli MTP e i materiali tecnici la descrivono come un'ottimizzazione di velocità e throughput per la generazione.
- Progettato per flussi di lavoro agentici: Xiaomi lo posiziona per casi d'uso di ragionamento, programmazione e agenti, e la suite di valutazione include SWE-Bench, Terminal-Bench e BrowseComp.
- Supporto a contesti lunghi: Il repository riporta il supporto fino a 256K, mentre la ricetta vLLM fornisce indicazioni pratiche di serving per valori
max-model-leninferiori a seconda del budget di memoria.
Prestazioni sui benchmark
La tabella del modello base nel repository mostra che MiMo-V2-Flash si comporta in modo competitivo rispetto a modelli open più grandi su conoscenza generale, matematica, programmazione e compiti a contesto lungo. La tabella post-addestramento evidenzia risultati solidi per agenti e ragionamento.
| Benchmark | MiMo-V2-Flash | Cosa suggerisce |
|---|---|---|
| MMLU-Pro | 84.9 | Forte capacità di ragionamento generale |
| GPQA-Diamond | 83.7 | Solide prestazioni su QA difficile |
| AIME 2025 | 94.1 | Forte ragionamento matematico |
| LiveCodeBench-v6 | 80.6 | Capacità di programmazione competitiva |
| SWE-Bench Verified | 73.4 | Forti prestazioni come agente software |
| SWE-Bench Multilingual | 71.7 | Buona copertura multilingue per coding/agent |
| Terminal-Bench 2.0 | 38.5 | Utile ma non al top sui task orientati al terminale |
| NIAH-Multi 256K | 96.7 | Il recupero su contesti lunghi rimane solido a 256K |
MiMo-V2-Flash vs modelli di ragionamento affini
| Modello | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Note |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Modello di ragionamento open-weight efficiente |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Vicino sul ragionamento, più debole sui task da terminale |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Forti prestazioni su terminale, livello di ragionamento simile |
Casi d'uso migliori
MiMo-V2-Flash è ideale quando serve un modello che sappia ragionare su input lunghi, aiutare nei compiti di programmazione e restare efficiente in produzione. È una scelta solida per RAG orientato ai documenti, flussi di lavoro agentici a più fasi, assistenza al codice e analisi con contesti lunghi in cui il costo di serving è rilevante.
Limitazioni
MiMo-V2-Flash è ottimizzato per l'efficienza in inferenza, quindi il throughput reale dipende da batching, parallelismo su tensori e configurazione di serving. La guida vLLM mostra anche che impostazioni pratiche di max-model-len possono essere inferiori rispetto ai 256K dichiarati, in base ai compromessi tra memoria e latenza.