Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Inndata:$0.08/M
Utdata:$0.24/M
MiMo-V2-Flash er en omfattende oppgradering av Thinking Mode. Den forbedrer evnene innen koding og kompleks logikk betydelig, øker nøyaktigheten i verktøykall til 97 %, og optimaliserer Chain-of-Thought (CoT) for å redusere hallusinasjoner samtidig som den senker latens og token-kostnader.
Ny
Kommersiell bruk
Playground
Oversikt
Funksjoner
Priser
API

MiMo-V2-Flash Oversikt

MiMo-V2-Flash er Xiaomi MiMo sin open-weight Mixture-of-Experts-resonneringsmodell for MiMo-V2-Flash API-et, bygget rundt rask inferanse, koding og agent-baserte arbeidsflyter. Modellkortet og den tekniske rapporten beskriver den som en MoE med 309B parametre, 15B aktive parametre, et hybrid attention-design og multi-token-prediksjon for raskere dekoding.

Tekniske spesifikasjoner

PunktMiMo-V2-Flash
LeverandørXiaomi MiMo
ModellfamilieMiMo-V2
ModelltypeMixture-of-Experts (MoE) språkmodell
Totalt antall parametre309B
Aktive parametre15B
Naturlig kontekstlengde32K
Utvidet kontekstlengdeOpptil 256K
Attention-designHybrid Sliding Window Attention (5:1 SWA to Global Attention)
Størrelse på glidende vindu128 tokens
MTP-lag3
Treningsskala27T tokens
UtdatamodalitetTekst
Utgivelsesdato2025-12-16
Repository-lisensApache-2.0 (GitHub repo)

Hva er MiMo-V2-Flash?

MiMo-V2-Flash er Xiaomis inferanse-effektive grunnmodell for arbeidslaster med tung resonnering. Den er utformet for å balansere håndtering av lang kontekst med lavere serving-kostnad, ved å bruke Sliding Window Attention for å redusere cache-press og multi-token-prediksjon for å akselerere dekoding.

Hovedfunksjoner ved MiMo-V2-Flash

  • MoE-effektivitet med lite aktivt fotavtrykk: 309B totale parametre, men bare 15B aktive per token, noe som i stor grad forklarer hvorfor modellen er posisjonert for effektiv serving.
  • Hybrid attention for lang kontekst: Arkitekturen alternerer fem SWA-lag med ett globalt attention-lag og bruker et 128-token-vindu for å kutte KV-cache-kostnad.
  • Multi-token-prediksjon for raskere dekoding: Modellen inkluderer 3 MTP-lag, og det tekniske materialet beskriver dette som en optimalisering for hastighet og gjennomstrømning ved generering.
  • Bygget for agent-baserte arbeidsflyter: Xiaomi posisjonerer den for resonnering, koding og agent-brukstilfeller, og evalueringspakken inkluderer SWE-Bench, Terminal-Bench og BrowseComp.
  • Støtte for lang kontekst: Repoet rapporterer støtte opp til 256K, mens vLLM-oppskriften gir praktiske råd for lavere max-model-len-verdier avhengig av minnebudsjett.

Benchmark-ytelse

Tabellen for grunnmodellen i repoet viser at MiMo-V2-Flash presterer konkurransedyktig mot større åpne modeller på allmennkunnskap, matematikk, koding og oppgaver med lang kontekst. Ettertreningstabellen fremhever sterke agent- og resonneringsresultater.

BenchmarkMiMo-V2-FlashHva det indikerer
MMLU-Pro84.9Sterk bred resonnering
GPQA-Diamond83.7Solid ytelse på vanskelige QA-oppgaver
AIME 202594.1Sterk matematisk resonnering
LiveCodeBench-v680.6Konkurransedyktig kodingsevne
SWE-Bench Verified73.4Sterk programvare-agent-ytelse
SWE-Bench Multilingual71.7God flerspråklig dekning for koding/agent
Terminal-Bench 2.038.5Nyttig, men ikke i toppsjiktet på terminal-tunge oppgaver
NIAH-Multi 256K96.7Gjenfinning med lang kontekst forblir sterk ved 256K

MiMo-V2-Flash vs nærliggende resonneringsmodeller

ModellMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Notater
MiMo-V2-Flash84.973.438.5Effektiv open-weight resonneringsmodell
Kimi-K2 Thinking84.671.335.7Nær på resonnering, svakere på terminaloppgaver
DeepSeek-V3.2 Thinking85.073.146.4Sterk terminal-ytelse, tilsvarende nivå på resonnering

Beste brukstilfeller

MiMo-V2-Flash passer best når du trenger en modell som kan resonnerer over lange inndata, hjelpe med kodeoppgaver og være effektiv i produksjon. Den er et sterkt valg for dokumenttunge RAG, flertrinns agent-arbeidsflyter, kodeassistanse og langkontekst-analyse der serving-kostnad betyr mye.

Begrensninger

MiMo-V2-Flash er optimalisert for inferanseffektivitet, så gjennomstrømning i praksis avhenger av batching, tensor-parallellisme og serving-konfigurasjonen. vLLM-veiledningen viser også at praktiske max-model-len-innstillinger kan være lavere enn overskriftsverdien 256K, avhengig av kompromisser mellom minne og latens.

FAQ

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Funksjoner for mimo-v2-flash

Utforsk nøkkelfunksjonene til mimo-v2-flash, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for mimo-v2-flash

Utforsk konkurransedyktige priser for mimo-v2-flash, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan mimo-v2-flash kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$0.08/M
Utdata:$0.24/M
Inndata:$0.1/M
Utdata:$0.3/M
-20%

Eksempelkode og API for mimo-v2-flash

Få tilgang til omfattende eksempelkode og API-ressurser for mimo-v2-flash for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til mimo-v2-flash i prosjektene dine.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Flere modeller