Xiaomi utvidet MiMo fra en enkeltmodell-lansering til en serie med tre modeller rettet mot ulike produktbehov. Flash kom 16. desember 2025 som en åpen kildekode MoE-modell for resonnering, koding og agentoppgaver, mens Pro og Omni ble offisielt lansert 18. mars 2026 som henholdsvis flaggskipet for resonnering og den fullverdige multimodale modellen.
Hva er MiMo V2 og hvorfor betyr det noe?
MiMo V2-serien fra Xiaomi representerer det kinesiske teknologiselskapets satsing på banebrytende AI-grunnmodeller optimalisert for agentiske arbeidslaster i den virkelige verden. Serien ble lansert i faser (Flash mot slutten av 2025/tidlig 2026, etterfulgt av Pro og Omni 18. mars 2026) og utnytter Mixture-of-Experts (MoE)-arkitektur for effektivitet: enorme totale parametre med langt færre aktive under inferens.
MiMo-V2-Omni: «øyne og ører» – en samlet multimodal modell som samler tekst, syn, video og utvidet lyd.
MiMo-V2-Flash: «den raske arbeideren» – lettvekter, åpen kildekode, svært rimelig.
MiMo-V2-Pro: «resonnerings-flaggskipet» – hjerne med billioner av parametre for komplekse, flertrinnsoppgaver.
Alle modellene vektlegger verktøykall, resonnering med lang kontekst og integrasjon med agent-rammeverk som OpenClaw, OpenCode og KiloCode. De oppnår dette til dramatisk lavere priser enn tilsvarende fra OpenAI, Anthropic eller Google—ofte 5–10x billigere—samtidig som de ligger blant de beste globalt og i Kina på nøkkelbenchmarker.
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: Rask sammenligning
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | des. 2025 | 18. mars 2026 | 19. mars 2026 |
| Parameters | 309B totalt / 15B aktive (MoE) | ~1T totalt / 42B aktive (MoE) | Multimodal (eksakte parametre ikke offentliggjort) |
| Context Window | 256K tokens | 1M tokens (pris etter nivå) | 256K tokens |
| Primary Strength | Hastighet og kostnad (koding/agentoppgaver) | Resonnering og komplekse agenter | Multimodal persepsjon (bilde/lyd) |
| Benchmarks (Key Examples) | SWE-Bench: 73.4% (#1 open-source); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 globalt); PinchBench: 81.0; Global plassering #7–8 | Sterk i bilde-/lydoppgaver (f.eks. nettleserhandel, fareidentifikasjon) |
| Official Pricing (per 1M tokens) | $0.09 input / $0.29 output | ≤256K: $1/$3; >256K: $2/$6 | $0.40 input / $2 output |
| Open-Source | Ja (MIT på HF) | Nei (kun API) | Nei (kun API) |
| Best For | Høyvolum, raske oppgaver | Produksjonsagenter og lange arbeidsflyter | Bilde/lyd + tekstagenter |
| Inference Speed | ~150 tokens/s | Høy (MTP-optimalisert) | Multimodal latens ~2–5s |
Hva er MiMo V2-Omni, MiMo V2-Pro og MiMo V2-Flash
Hva er MiMo-V2-Flash? modellen som setter effektivitet først
MiMo-V2-Flash er det mest kjente tidlige medlemmet av familien. På Hugging Face-modellkortet beskriver Xiaomi den som en Mixture-of-Experts-modell med 309B totale parametre og 15B aktive parametre, som bruker Hybrid Attention og Multi-Token Prediction for å øke utdatahastighet og redusere inferenskostnad. Den ble trent på 27T tokens med FP8 mikspresisjon, støtter opptil 256K kontekst, og er optimalisert for høyhastighetsresonnering og agentiske arbeidsflyter.
Den praktiske konklusjonen er at Flash er den mest balanserte «hverdags»-MiMo-modellen for teksttunge bruksområder. MiMo-V2-Flash er sterk på lang-kontekstresonnering, kodehjelp og agentarbeidsflyter; den rangerer som den beste åpen kildekode-modellen globalt på SWE-bench Verified og SWE-bench Multilingual, mens den bare koster om lag 3.5% så mye som Claude Sonnet 4.5. Den kombinasjonen gjør Flash til det naturlige startpunktet hvis du vil teste familien uten å brenne budsjettet.
Hva er MiMo-V2-Pro? flaggskipets agent-hjerne
MiMo-V2-Pro er flaggskipet for tekst først i familien. Xiaomi sier den har mer enn 1T totale parametre, 42B aktive parametre, et utvidet Hybrid Attention-forhold på 7:1, og et 1M-token kontekstvindu; dens kodeevne overgår Claude 4.6 Sonnet, mens dens generelle agentytelse på ClawEval nærmer seg Opus 4.6. Viktig er det at Xiaomi sier stabilitet og nøyaktighet for verktøykall er betydelig forbedret, noe som er akkurat den typen signal utviklere ser etter når de går fra demoer til produksjon.
Hva er MiMo-V2-Omni? den multimodale agentmodellen
MiMo-V2-Omni er Xiaomis multimodale svar på agentproblemet. Den slår bilde-, video- og lydkodere sammen i en felles backbone, slik at modellen kan se, høre og lese som én perseptuell strøm. Xiaomi sier også at den støtter strukturert verktøykalling, funksjonsutførelse og UI-forankring, hvilket er grunnen til at Omni posisjoneres som en agentmodell snarere enn en allmenn multimodal chatbot.
Omni går utover transkripsjon i lydforståelse, håndterer kontinuerlig lyd som overstiger 10 timer, og den overgår Gemini 3 Pro på lydoppgaver samtidig som den overgår Claude Opus 4.6 på bildeforståelse og når nivået til topp lukkede modeller som Gemini 3. Omni presterer sterkt i nettleser- og mobilarbeidsflyter, og agentdemoene ble kjørt med OpenClaw som håndterte nettleserkontroll, filsystemtilgang og terminalinteraksjon.
Rankable Long-Tail Keyword Insight: Utviklere som søker «MiMo V2 Pro vs Flash for agentisk koding» velger Flash for hastighet/kostnad og Pro for pålitelighet i produksjon.

MiMo V2 API-prising 2026
Prissammenligning (per 1M tokens)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | Fast sats | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | Trinnvis etter kontekstlengde; cache-prising tilgjengelig | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | Fast sats (multimodale tokens faktureres deretter) | ~$0.06 |
Eksempler:
- Flash vinner for høyt volum, enkle oppgaver (f.eks. 1M tokens/dag koster småpenger).
- Omni gir sterk verdi for multimodalt (billigere enn Gemini 3.1-ekvivalenter).
- Pro koster ~1/5–1/6 av prisen til Claude Sonnet 4.6, samtidig som den matcher eller overgår den i mange agent-/kodebenchmarker. Cache-prising reduserer ytterligere kostnader for lang kontekst.
Hva er prisen på Mimo V2-seriens API på CometAPI?
På CometAPI tilbyr Mimo API en lavere pris enn den offisielle nettsiden, omtrent 20% av den offisielle prisen (tilnærmet gratis). MImo-v2 pro, mimo-V2-omni, og mimo-v2-flash kan også brukes i openclaw.Such as:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| Input:$0.8/MOutput:$2.4/M | Input:$1/MOutput:$3/M | 20% |
Viktig forbehold er at «billigst» ikke alltid betyr «best verdi». Pro kan være det mest kostnadseffektive valget når et enkelt modellanrop erstatter flere nye forsøk, verktøykall eller manuelle inngrep. Omni kan være et bedre kjøp når multimodal forankring gjør at man slipper å bygge separate OCR-, lyd- og visjonspipelines. Flash er verdilederen når du trenger høyt volum og forutsigbare utgifter.
Sammenligning av ytelsesbenchmarks
Generell intelligens og resonneringsbenchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, Chinese #2) | Not primary focus | Pro viser et betydelig hopp over Flash |
| AIME 2025 (Math) | 94.1% | ~94.0% | N/A | Flash er svært konkurransedyktig for sin størrelse |
| Hallucination Rate | ~48% | ~30% | N/A | Pro demonstrerer forbedret pålitelighet |
| LongBench V2 (Long Context) | 60.6 | Sterk (1M kontekstfordel) | N/A | Pro utmerker seg i ultralange oppgaver |
Koding og agent-benchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (Top open-source) | 78.0% | ~74.8% | Pro leder; Flash #1 blant åpne modeller |
| SWE-Bench Multilingual | 71.7% | 57.1% (multilingual variant) | N/A | Flash er spesielt sterk her |
| ClawEval (Agentic Tool Use) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Pro matcher/overgår ofte Claude Sonnet 4.6 i kodingsscenarier |
| GDPVal-AA / PinchBench | 1040 – 1426 range | 1426 | 81.2 (variant) | Pro sterk i virkelige agentoppgaver |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni konkurransedyktig i multimodale agenter |
Multimodale benchmarks (Omni-fokusert)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro (Audio) | 76.8 | Claude Opus 4.6 (73.9) | Omni leder |
| BigBench Audio / Speech Reasoning | Up to 80.1 – 94.0 | Varies | Sterk lang-lydkapasitet (10+ timer) |
| MMMU-Pro (Image) | 85.3 | Varies (edges some leaders) | Utmerket diagram- og visuell forståelse |
| Video-MME | 94.0 | Strong vs. Gemini 3 Pro in select areas | Høy video-hendelsesprognose |
| CharXiv (Charts) | 66.7 | Beats Gemini 3 Pro in some reports | Solid strukturert visuell resonnering |
Ytelsessammenligning: Hvilken er bedre?
For resonnering og koding ser Mimo-V2-Flash ekstremt sterk ut på papiret. Mimo-V2-Flash er i toppsjiktet på AIME 2025, GPQA-Diamond, SWE-bench Verified og SWE-bench Multilingual, og Mimo-V2-Flash som den beste åpen kildekode-modellen globalt på SWE-bench Verified og sammenlignbar med Claude Sonnet 4.5 samtidig som den koster om lag 3.5% så mye. Det gjør Flash til et klart valg for utviklere som bryr seg om gjennomstrømning og kostnadseffektivitet.
For ren agentkontroll er Pro flaggskipet. Xiaomi vektlegger stabilitet i verktøykall, langsiktig oppgaveplanlegging og produksjonsorienterte arbeidsflyter, med et 1M-token kontekstvindu som er spesielt nyttig i store kodebaser, multi-dokumentanalyse og langvarige nettleser- eller verktøykjeder.
For multimodal persepsjon er Omni den som tydelig endrer produktets form. Dens differensiator er ikke «å være litt bedre på chat»; det er innebygd bilde-, video- og lydforståelse kombinert med verktøybruk og UI-forankring. Hvis produktet ditt må se på skjermbilder, tolke diagrammer, inspisere video, lytte til lyd eller styre et grensesnitt, er Omni den eneste modellen i trioen som er bygget for akkurat det.
På tvers av intelligens-, kode-, agent- og multimodale metrikker skaper modellene tydelige nisjer:
- Reasoning/Intelligence: Pro leder (AA Index 49); Flash konkurransedyktig for størrelsen; Omni sterk på tvers av modaliteter.
- Coding/Agentic: Pro overgår ofte Claude Sonnet 4.6 (SWE-Bench, ClawEval); Omni tett bak i multimodale agenter; Flash topper åpen kildekode.
- Speed: Flash raskest på grunn av mindre aktive parametre.
- Context: Pro dominerer med 1M tokens.
- Multimodal: Omni er uten sidestykke i familien.
Pro og Omni leverer 5–10x kostnadsbesparelser sammenlignet med amerikanske frontier-modeller, samtidig som de rangerer topp 10 globalt. Flash gir tilnærmet tilsvarende åpen kildekode-ytelse til en tiendedel av prisen på mange lukkede modeller.
Hvordan bør du velge?
Velg MiMo V2 Pro hvis …
du trenger det beste for langhorisont, høyrisiko agentarbeid: store programvareoppgaver, dyp arbeidsflyt-orkestrering, store kontekstvinduer og robust verktøybruk. Pro er riktig valg når ytelse betyr mer enn kostnad per token og når oppgaven hovedsakelig er tekst eller strukturert verktøysamhandling snarere enn bilder og lyd.
Velg MiMo V2 Omni hvis …
produktet ditt trenger multimodal persepsjon som førsteklasses funksjon: skjermbilder, dashbord, bilder, videoer, lyd, nettlesertilstand eller tverrenhetshandlinger. Omni er den søte flekken for «se, høre, handle»-applikasjoner, og er lettere å forsvare enn Pro hvis du ikke trenger 1M-token kontekstvinduet.
Velg MiMo V2 Flash hvis …
du vil ha best verdi. Flash er den beste kandidaten for kodekopiloter, batch-agenter, høyt volum kundestøtte, intern automatisering og eksperimenter der åpne vekter, hastighet og lav kostnad betyr mest. Det er også den enkleste modellen i serien å forsvare i en budsjettgjennomgang, fordi publiserte tokenpriser er dramatisk lavere enn de to andre.
Nøkkelforskjeller og når hver modell skinner
| Factor | Flash (Best For) | Pro (Best For) | Omni (Best For) |
|---|---|---|---|
| Budget | Ekstremt lav kostnad / høyt volum | Høyverdi-resonnering | Multimodal verdi |
| Task Type | Enkle forespørsler, lokal utrulling | Komplekse agenter, koding, planlegging | Bilde/video/lyd + agenter |
| Context | Middels | Lengst (1M) | Middels |
| Open-Source | Ja | Nei | Nei |
| Speed | Raskest | Balansert | Balansert (multimodal overhead) |
Beslutningsrammeverk
Step 1: Trenger du multimodal (bilder/video/lyd)? → Omni ($0.40/$2.00).
Step 2: Ren tekst + maksimal resonnerings-/agentkraft? → Pro ($1–2/$3–6).
Step 3: Budsjett, hastighet eller selvhosting kritisk? → Flash ($0.09/$0.29, open-source).
Hybrid Strategy (anbefalt av API-leverandører): Bruk Flash for 80% av rutineoppgaver, rut komplekse resonneringsoppgaver til Pro, og multimodalt til Omni via én API-nøkkel (f.eks. via CometAPI). Dette optimaliserer kostnader samtidig som du får tilgang til hele familien.
Endelig vurdering: Din personlige anbefaling
MiMo V2 er Xiaomis måte å si at de vil ha en full AI-stakk, ikke bare én hero-modell. Pro er flaggskipets resonneringsmotor, Omni er den multimodale operatøren, og Flash er den effektive åpen kildekode-arbeidshesten. Det beste valget avhenger mindre av rå benchmark-sammenligning og mer av formen på arbeidslasten din: teksttunge agenter peker mot Flash eller Pro, multimodale systemer peker mot Omni, og produksjonsarbeidsflyter med gigantisk kontekst peker mot Pro.
MiMo V2-familien beviser at høyytelses-AI ikke lenger krever premium vestlige priser. Start med Flash eller Omni for de fleste brukere, skaler til Pro etter hvert som behovene øker, og følg Xiaomis veikart for enda flere gjennombrudd.
Klar til å teste? Få tilgang til alle tre via plattformer som CometAPI med én nøkkel. Eksperimenter i dag—riktig valg kan transformere AI-produktiviteten din over natten.
