Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Ingresso:$0.08/M
Uscita:$0.24/M
MiMo-V2-Flash è un aggiornamento completo per Thinking Mode che migliora significativamente le capacità di programmazione e di logica complessa, porta la precisione delle chiamate agli strumenti al 97% e ottimizza la Chain-of-Thought (CoT) per ridurre le allucinazioni, riducendo al contempo la latenza e i costi dei token.
Nuovo
Uso commerciale
Playground
Panoramica
Caratteristiche
Prezzi
API

Panoramica di MiMo-V2-Flash

MiMo-V2-Flash è il modello di ragionamento a pesi aperti Mixture-of-Experts di Xiaomi MiMo per l'API MiMo-V2-Flash, progettato per inferenza veloce, programmazione e flussi di lavoro agentici. La scheda del modello e il rapporto tecnico lo descrivono come un MoE da 309B parametri con 15B attivi, un design di attenzione ibrido e previsione multi-token per una decodifica più rapida.

Specifiche tecniche

VoceMiMo-V2-Flash
FornitoreXiaomi MiMo
Famiglia di modelliMiMo-V2
Tipo di modelloModello linguistico a miscela di esperti (MoE)
Parametri totali309B
Parametri attivi15B
Lunghezza del contesto nativa32K
Lunghezza del contesto estesaFino a 256K
Progettazione dell'attenzioneAttenzione ibrida con finestra scorrevole (rapporto 5:1 tra SWA e attenzione globale)
Dimensione della finestra scorrevole128 token
Livelli MTP3
Scala di addestramento27T token
Modalità di outputTesto
Data di rilascio2025-12-16
Licenza del repositoryApache-2.0 (repository GitHub)

Che cos'è MiMo-V2-Flash?

MiMo-V2-Flash è il modello foundation di Xiaomi ottimizzato per l'efficienza in inferenza, pensato per carichi di lavoro con forte componente di ragionamento. È progettato per bilanciare la gestione di contesti lunghi con costi di serving ridotti, utilizzando attenzione a finestra scorrevole per diminuire la pressione sulla cache e previsione multi-token per accelerare la decodifica.

Caratteristiche principali di MiMo-V2-Flash

  • Efficienza MoE con un'impronta attiva ridotta: 309B parametri totali ma solo 15B attivi per token, una delle ragioni principali per cui il modello è posizionato per un serving efficiente.
  • Attenzione ibrida per contesti lunghi: L'architettura alterna cinque strati SWA con uno strato di attenzione globale, usando una finestra da 128 token per ridurre il costo della KV-cache.
  • Previsione multi-token per una decodifica più veloce: Il modello include 3 livelli MTP e i materiali tecnici la descrivono come un'ottimizzazione di velocità e throughput per la generazione.
  • Progettato per flussi di lavoro agentici: Xiaomi lo posiziona per casi d'uso di ragionamento, programmazione e agenti, e la suite di valutazione include SWE-Bench, Terminal-Bench e BrowseComp.
  • Supporto a contesti lunghi: Il repository riporta il supporto fino a 256K, mentre la ricetta vLLM fornisce indicazioni pratiche di serving per valori max-model-len inferiori a seconda del budget di memoria.

Prestazioni sui benchmark

La tabella del modello base nel repository mostra che MiMo-V2-Flash si comporta in modo competitivo rispetto a modelli open più grandi su conoscenza generale, matematica, programmazione e compiti a contesto lungo. La tabella post-addestramento evidenzia risultati solidi per agenti e ragionamento.

BenchmarkMiMo-V2-FlashCosa suggerisce
MMLU-Pro84.9Forte capacità di ragionamento generale
GPQA-Diamond83.7Solide prestazioni su QA difficile
AIME 202594.1Forte ragionamento matematico
LiveCodeBench-v680.6Capacità di programmazione competitiva
SWE-Bench Verified73.4Forti prestazioni come agente software
SWE-Bench Multilingual71.7Buona copertura multilingue per coding/agent
Terminal-Bench 2.038.5Utile ma non al top sui task orientati al terminale
NIAH-Multi 256K96.7Il recupero su contesti lunghi rimane solido a 256K

MiMo-V2-Flash vs modelli di ragionamento affini

ModelloMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Note
MiMo-V2-Flash84.973.438.5Modello di ragionamento open-weight efficiente
Kimi-K2 Thinking84.671.335.7Vicino sul ragionamento, più debole sui task da terminale
DeepSeek-V3.2 Thinking85.073.146.4Forti prestazioni su terminale, livello di ragionamento simile

Casi d'uso migliori

MiMo-V2-Flash è ideale quando serve un modello che sappia ragionare su input lunghi, aiutare nei compiti di programmazione e restare efficiente in produzione. È una scelta solida per RAG orientato ai documenti, flussi di lavoro agentici a più fasi, assistenza al codice e analisi con contesti lunghi in cui il costo di serving è rilevante.

Limitazioni

MiMo-V2-Flash è ottimizzato per l'efficienza in inferenza, quindi il throughput reale dipende da batching, parallelismo su tensori e configurazione di serving. La guida vLLM mostra anche che impostazioni pratiche di max-model-len possono essere inferiori rispetto ai 256K dichiarati, in base ai compromessi tra memoria e latenza.

FAQ

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Funzionalità per mimo-v2-flash

Esplora le caratteristiche principali di mimo-v2-flash, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per mimo-v2-flash

Esplora i prezzi competitivi per mimo-v2-flash, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come mimo-v2-flash può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$0.08/M
Uscita:$0.24/M
Ingresso:$0.1/M
Uscita:$0.3/M
-20%

Codice di esempio e API per mimo-v2-flash

Accedi a codice di esempio completo e risorse API per mimo-v2-flash per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di mimo-v2-flash nei tuoi progetti.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Altri modelli