Xiaomi udvidede MiMo fra en enkelt modeludgivelse til en serie med tre modeller målrettet forskellige produktbehov. Flash kom den 16. december 2025 som en open source MoE-model til ræsonnering, kodning og agentiske opgaver, mens Pro og Omni officielt blev lanceret den 18. marts 2026 som henholdsvis flagskibet for ræsonnering og den fuldt multimodale model.
Hvad er MiMo V2, og hvorfor er det vigtigt?
Xiaomis MiMo V2-serie repræsenterer den kinesiske teknologigigants satsning på banebrydende AI-fundamentmodeller optimeret til agentiske workloads i den virkelige verden. Udgivet i faser (Flash i slutningen af 2025/begyndelsen af 2026, efterfulgt af Pro og Omni den 18. marts 2026) udnytter serien en Mixture-of-Experts (MoE)-arkitektur for effektivitet: massive samlede parametre med langt færre aktive under inferens.
MiMo-V2-Omni: “øjne og ører” – samlet multimodal model, der forener tekst, vision, video og udvidet lyd.
MiMo-V2-Flash: “den hurtige arbejder” – letvægts, open source, ultra-overkommelig.
MiMo-V2-Pro: “flagskibet for ræsonnering” – trillion-parameter hjerne til komplekse, flertrinsopgaver.
Alle modeller vægter værktøjsopkald, langkontekst-ræsonnering og integration med agent-frameworks som OpenClaw, OpenCode og KiloCode. De opnår dette til dramatisk lavere priser end tilsvarende fra OpenAI, Anthropic eller Google—ofte 5–10x billigere—samtidig med at de placerer sig blandt globale og kinesiske frontløbere på nøglebenchmarks.
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: Hurtig sammenligning
| Funktion / Metrik | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Udgivelse | Dec 2025 | 18. mar. 2026 | 19. mar. 2026 |
| Parametre | 309B total / 15B aktive (MoE) | ~1T total / 42B aktive (MoE) | Multimodal (eksakte parametre ikke oplyst) |
| Kontekstvindue | 256K tokens | 1M tokens (trinsopdelt prissætning) | 256K tokens |
| Primær styrke | Hastighed og omkostning (kodning/agents) | Ræsonnering og komplekse agenter | Multimodal perception (vision/lyd) |
| Benchmarks (nøgleeksempler) | SWE-Bench: 73.4% (#1 open source); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 globalt); PinchBench: 81.0; Global plac. #7–8 | Stærk i vision-/lydopgaver (f.eks. browser-shopping, risikodetektion) |
| Officiel pris (per 1M tokens) | $0.09 input / $0.29 output | ≤256K: $1/$3; >256K: $2/$6 | $0.40 input / $2 output |
| Open source | Ja (MIT på HF) | Nej (kun API) | Nej (kun API) |
| Bedst til | Høj volumen, hurtige opgaver | Produktionsagenter og lange workflows | Vision/lyd + tekstbaserede agenter |
| Inferenshastighed | ~150 tokens/s | Høj (MTP-optimeret) | Multimodal latenstid ~2–5 s |
Hvad er MiMo V2-Omni, MiMo V2-Pro og MiMo V2-Flash
Hvad er MiMo-V2-Flash? den effektivitetsfokuserede model
MiMo-V2-Flash er det tidligst kendte medlem af familien. På Hugging Face-modelkortet beskriver Xiaomi den som en Mixture-of-Experts-model med 309B samlede parametre og 15B aktive parametre, der bruger Hybrid Attention og Multi-Token Prediction til at forbedre outputhastighed og reducere inferensomkostninger. Den blev trænet på 27T tokens med FP8 mixed precision, understøtter op til 256K kontekst og er optimeret til højhastighedsræsonnering og agentiske workflows.
Den praktiske konklusion er, at Flash er den mest balancerede “hverdagens” MiMo-model til teksttunge anvendelser. MiMo-V2-Flash er stærk til langkontekst-ræsonnering, kodningshjælp og agent-workflows; den rangerer som den #1 open source-model globalt på SWE-bench Verified og SWE-bench Multilingual, mens den kun koster omkring 3,5% af prisen på Claude Sonnet 4.5. Den kombination gør Flash til det naturlige startpunkt, hvis du vil teste familien uden at sprænge budgettet.
Hvad er MiMo-V2-Pro? flagskibets agenthjerne
MiMo-V2-Pro er familiens flagskib inden for tekst-først-modeller. Xiaomi siger, at den har mere end 1T samlede parametre, 42B aktive parametre, et udvidet Hybrid Attention-forhold på 7:1 og et kontekstvindue på 1M tokens; dens kodningsevne overgår Claude 4.6 Sonnet, mens dens generelle agentpræstation på ClawEval nærmer sig Opus 4.6. Vigtigt er det, at Xiaomi siger, at stabilitet og nøjagtighed i værktøjsopkald er blevet markant forbedret—præcis den slags signal, udviklere kigger efter, når de går fra demoer til produktion.
Hvad er MiMo-V2-Omni? den multimodale agentmodel
MiMo-V2-Omni er Xiaomis multimodale svar på agent-problemet. Den sammensmelter billede-, video- og lyd-encodere i en enkelt delt backbone, så modellen kan se, høre og læse som én perceptuel strøm. Xiaomi siger også, at den oprindeligt understøtter strukturerede værktøjsopkald, funktionsekvering og UI-forankring, hvilket er grunden til, at Omni positioneres som en agentmodel frem for en generel multimodal chatbot.
Omni går ud over transskription i lydforståelse, håndterer kontinuerlig lyd, der overstiger 10 timer, og overgår Gemini 3 Pro i lydopgaver, mens den overgår Claude Opus 4.6 i billedforståelse og når niveauet for top lukkede modeller som Gemini 3. Omni præsterer stærkt i browser- og mobil-workflows, og dens agent-demoer blev kørt med OpenClaw, der håndterede browserstyring, filsystemadgang og terminalinteraktion.
Rankable Long-Tail Keyword Insight: Udviklere, der søger “MiMo V2 Pro vs Flash for agentic coding”, vælger Flash for hastighed/omkostning og Pro for pålidelighed i produktion.

MiMo V2 API-priser 2026
Prissammenligning (per 1M tokens)
| Model | Inddata-pris | Uddata-pris | Noter om kontekst-niveauer | Blandede omkostninger (100K ind + 10K ud) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | Fast pris | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | Trinopdelt efter kontekstlængde; cache-priser | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | Fast pris (multimodale tokens faktureres tils.) | ~$0.06 |
Eksempler:
- Flash vinder ved høj volumen simple opgaver (f.eks. 1M tokens/dag koster næsten ingenting).
- Omni tilbyder stærk værdi for multimodalt (billigere end Gemini 3.1-ækvivalenter).
- Pro koster ~1/5–1/6 af Claude Sonnet 4.6 og matcher eller overgår den i mange agentiske/kodningsbenchmarks. Cache-priser reducerer yderligere omkostninger ved lang kontekst.
Hvad koster Mimo V2-seriens API på CometAPI?
På CometAPI tilbyder Mimo API en lavere pris end den officielle hjemmeside, cirka 20% af den officielle pris (næsten gratis). MImo-v2 pro, mimo-V2-omni, og mimo-v2-flash kan også bruges i OpenClaw. For eksempel:
| Comet-pris (USD / M tokens) | Officiel pris (USD / M tokens) | Rabat |
|---|---|---|
| Inddata:$0.8/M Uddata:$2.4/M | Inddata:$1/M Uddata:$3/M | 20% |
Den vigtige forbehold er, at “billigst” ikke altid betyder “bedst værdi.” Pro kan være det mest omkostningseffektive valg, når ét modelkald erstatter flere retries, værktøjsopkald eller menneskelige indgreb. Omni kan være det bedre køb, når multimodal grounding undgår at bygge separate OCR-, lyd- og vision-pipelines. Flash er værdi-lederen, når du har brug for høj volumen og forudsigelige udgifter.
Sammenligning af performance-benchmarks
Generel intelligens og ræsonneringsbenchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Noter / sammenligningskontekst |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, Kina #2) | Ikke primært fokus | Pro viser markant spring over Flash |
| AIME 2025 (Matematik) | 94.1% | ~94.0% | N/A | Flash yderst konkurrencedygtig for sin størrelse |
| Hallucinationsrate | ~48% | ~30% | N/A | Pro demonstrerer forbedret pålidelighed |
| LongBench V2 (Lang kontekst) | 60.6 | Stærk (1M kontekst-fordel) | N/A | Pro excellerer i ultra-lange opgaver |
Kodnings- og agentiske benchmarks
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Sammenligningshøjdepunkter |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (Top open source) | 78.0% | ~74.8% | Pro fører; Flash #1 blandt open source-modeller |
| SWE-Bench Multilingual | 71.7% | 57.1% (multilingual variant) | N/A | Flash særligt stærk her |
| ClawEval (Agentisk værktøjsbrug) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Pro matcher/overgår ofte Claude Sonnet 4.6 i kodningsscenarier |
| GDPVal-AA / PinchBench | 1040 – 1426 interval | 1426 | 81.2 (variant) | Pro stærk i virkelige agentopgaver |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni konkurrencedygtig i multimodale agenter |
Multimodale benchmarks (Omni-fokuseret)
| Benchmark | MiMo-V2-Omni-score | Bemærkelsesværdige konkurrenter | Højdepunkter |
|---|---|---|---|
| MMAU-Pro (Lyd) | 76.8 | Claude Opus 4.6 (73.9) | Omni fører |
| BigBench Audio / Speech Reasoning | Op til 80.1 – 94.0 | Varierer | Stærk lang-lyd-kapacitet (10+ timer) |
| MMMU-Pro (Billede) | 85.3 | Varierer (overgår nogle ledere) | Fremragende diagram- og visuel forståelse |
| Video-MME | 94.0 | Stærk vs. Gemini 3 Pro i udvalgte områder | Høj præcision i forudsigelse af videohændelser |
| CharXiv (Diagrammer) | 66.7 | Slår Gemini 3 Pro i nogle rapporter | Solid struktureret visuel ræsonnering |
Performance-sammenligning: Hvilken er bedre?
Til ræsonnering og kodning ser Mimo-V2-Flash ekstremt stærk ud på papiret. Mimo-V2-Flash er topniveau på AIME 2025, GPQA-Diamond, SWE-bench Verified og SWE-bench Multilingual, og Mimo-V2-Flash som den bedste open source-model globalt på SWE-bench Verified og sammenlignelig med Claude Sonnet 4.5, mens den koster omkring 3,5% så meget. Det gør Flash til det oplagte valg for udviklere, der går op i throughput og omkostningseffektivitet.
Til ren agentisk kontrol er Pro flagskibet. Xiaomi fremhæver stabilitet i værktøjsopkald, langhorisont-planlægning og produktions-ingeniør-workflows, med et kontekstvindue på 1M tokens, der er særligt nyttigt i store kodebaser, multi-dokumentanalyse og langvarige browser- eller værktøjskæder.
Til multimodal perception er Omni den, der tydeligt ændrer produktets form. Dens differentiering er ikke “at være lidt bedre til chat”; det er oprindelig billed-, video- og lydforståelse kombineret med værktøjsbrug og UI-forankring. Hvis dit produkt skal kigge på screenshots, parse diagrammer, inspicere video, lytte til lyd eller styre et interface, er Omni den eneste model i trioen, der er formålsbygget til den stak.
På tværs af intelligens-, kodnings-, agentiske og multimodale metrikker skærer modellerne tydelige nicher:
- Ræsonnering/Intelligens: Pro fører (AA Index 49); Flash konkurrencedygtig for sin størrelse; Omni stærk i tværmodal.
- Kodning/Agentisk: Pro overgår ofte Claude Sonnet 4.6 (SWE-Bench, ClawEval); Omni tæt efter i multimodale agenter; Flash topper open source.
- Hastighed: Flash hurtigst pga. færre aktive parametre.
- Kontekst: Pro dominerer med 1M tokens.
- Multimodal: Omni er uden sidestykke i familien.
Pro og Omni giver 5–10x omkostningsbesparelser sammenlignet med amerikanske frontmodeller, mens de placerer sig i top-10 globalt. Flash leverer næsten tilsvarende open source-performance til en tiendedel af prisen på mange lukkede modeller.
Hvordan bør du vælge?
Vælg MiMo V2 Pro hvis…
du har brug for den bedste chance for langhorisont, højrisiko agentarbejde: store softwareopgaver, dyb workflow-orkestrering, store kontekstvinduer og robust værktøjsbrug. Pro er det rigtige valg, når performance betyder mere end pris per token, og når opgaven primært er tekst eller struktureret værktøjsinteraktion snarere end billeder og lyd.
Vælg MiMo V2 Omni hvis…
dit produkt har brug for multimodal perception som kernefunktion: screenshots, dashboards, fotos, videoer, lyd, browser-tilstand eller tværenheds-handlinger. Omni er det søde punkt for “se, høre, handle”-applikationer og er lettere at retfærdiggøre end Pro, hvis du ikke behøver 1M-token flagskibskonteksten.
Vælg MiMo V2 Flash hvis…
du vil have den bedste værdi. Flash er det bedste bud til kodningscopilots, batch-agenter, højvolumen support, intern automatisering og eksperimenter, hvor open source-vægte, hastighed og lave omkostninger betyder noget. Den er også den letteste model i serien at forsvare i en budgetgennemgang, fordi de publicerede tokenpriser er dramatisk lavere end de to andre.
Nøgleforskelle og hvornår hver model skinner
| Faktor | Flash (bedst til) | Pro (bedst til) | Omni (bedst til) |
|---|---|---|---|
| Budget | Ekstrem lav pris / høj volumen | Højværdiræsonnering | Multimodal værdi |
| Opgavetype | Enkle forespørgsler, lokal deploy | Komplekse agenter, kodning, planlægning | Vision/video/lyd + agenter |
| Kontekst | Mellem | Længst (1M) | Mellem |
| Open source | Ja | Nej | Nej |
| Hastighed | Hurtigst | Afbalanceret | Afbalanceret (multimodal overhead) |
Beslutningsramme
Trin 1: Har du brug for multimodal (billeder/video/lyd)? → Omni ($0.40/$2.00).
Trin 2: Ren tekst + maksimal ræsonnerings-/agentisk kraft? → Pro ($1–2/$3–6).
Trin 3: Er budget, hastighed eller selv-hosting kritisk? → Flash ($0.09/$0.29, open source).
Hybridstrategi (anbefalet af API-udbydere): Brug Flash til 80% af rutineopgaver, send kompleks ræsonnering til Pro og multimodalt til Omni via én API-nøgle (f.eks. via CometAPI). Dette optimerer omkostningerne, mens du får adgang til hele familien.
Endelig dom: Din personlige anbefaling
MiMo V2 er Xiaomis måde at sige, at de vil have en fuld AI-stak, ikke kun en enkelt helt-model. Pro er flagskibets ræsonneringsmotor, Omni er den multimodale operatør, og Flash er den effektive open source-arbejdshest. Det bedste valg afhænger mindre af rå benchmark-pral og mere af din workload-form: teksttunge agenter peger mod Flash eller Pro, multimodale systemer peger mod Omni, og kæmpe-kontekst produktionsworkflows peger mod Pro.
MiMo V2-familien beviser, at højtydende AI ikke længere kræver premium vestlig prissætning. Start med Flash eller Omni for de fleste brugere, skaler til Pro efter behov, og følg Xiaomis roadmap for endnu flere gennembrud.
Klar til at teste? Få adgang til alle tre via platforme som CometAPI med én nøgle. Eksperimentér i dag—det rigtige valg kan transformere din AI-produktivitet natten over.
