MiMo-V2-Omni-oversikt
MiMo-V2-Omni er Xiaomi MiMos omni-grunnlagsmodell for API-plattformen, bygget for å se, høre, lese og handle i samme arbeidsflyt. Xiaomi posisjonerer den som en multimodal agentmodell som kombinerer bilde-, video-, lyd- og tekstforståelse med strukturert verktøykalling, funksjonsutførelse og UI-forankring.
Tekniske spesifikasjoner
| Element | MiMo-V2-Omni |
|---|---|
| Leverandør | Xiaomi MiMo |
| Modellfamilie | MiMo-V2 |
| Modalitet | Bilde, video, lyd, tekst |
| Utdatatype | Tekst |
| Innebygd lydstøtte | Ja |
| Innebygd kombinert lyd‑video-inngang | Ja |
| Strukturert verktøykalling | Ja |
| Funksjonsutførelse | Ja |
| UI-forankring | Ja |
| Håndtering av lange lydopptak | Over 10 timer kontinuerlig lydforståelse |
| Utgivelsesdato | 2026-03-18 |
| Offentlig numerisk kontekstlengde | Ikke oppgitt på den offisielle Omni-siden |
Hva er MiMo-V2-Omni?
MiMo-V2-Omni er designet for agentbaserte systemer som trenger persepsjon og handling i én modell. Xiaomi sier at modellen smelter dedikerte bilde-, video- og lydenkodere sammen i én felles ryggrad, og deretter trener den til å forutse hva som bør skje videre snarere enn bare å beskrive det som allerede er synlig.
Hovedfunksjoner i MiMo-V2-Omni
- Enhetlig multimodal persepsjon: bilde, video, lyd og tekst behandles som én perseptuell strøm i stedet for separate tillegg.
- Agentklare utdata: modellen støtter nativt strukturert verktøykalling, funksjonsutførelse og UI-forankring for reelle agentrammeverk.
- Forståelse av langvarig lyd: Xiaomi hevder at den kan håndtere kontinuerlig lyd i over 10 timer, noe som er uvanlig sterkt for en generell omni-modell.
- Innebygd lyd‑video-resonnering: den offisielle siden fremhever kombinert lyd‑video-inngang for videoforståelse i stedet for en kun tekstbasert transkripsjonsprosess.
- Nettleser- og arbeidsflytutførelse: Xiaomi demonstrerer ende-til-ende nettleserhandel og TikTok-opplastingsflyter ved hjelp av MiMo-V2-Omni pluss OpenClaw.
- Persepsjon‑til‑handling-ramme: modellen er trent til å koble det den ser til hva den bør gjøre neste, som er kjerneforskjellen mellom en demomodell og en agentmodell.
Benchmark-ytelse

Det fremgår tydelig at Omni overgår Gemini 3 Pro på lydforståelse, overgår Claude Opus 4.6 på bildeforståelse, og yter på nivå med de sterkeste resonneringsmodellene på agentbaserte produktivitetsbenchmarker.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Modell | Kjernestyrke | Kontekst / skala | Best egnet |
|---|---|---|---|
| MiMo-V2-Omni | Multimodal persepsjon + agenthandling | Offentlig kontekstlengde ikke oppgitt på Omni-siden | Lyd-, bilde-, video-, UI- og nettleseragenter |
| MiMo-V2-Pro | Største flaggskip-agentmodell | Opptil 1M-token kontekst; 1T+ parametere, 42B aktive | Tung agentorkestrering og arbeid med lange horisonter |
| MiMo-V2-Flash | Rask resonnering og koding | 256K kontekst; 309B totalt, 15B aktiv | Effektiv resonnering, koding og agentoppgaver med høy gjennomstrømning |
Beste bruksområder
MiMo-V2-Omni er det riktige valget når arbeidsflyten din avhenger av ikke-tekstlige inndata eller utdata: skjermforståelse, stemme- og lydanalyse, videogjennomgang, nettleserautomatisering, multimodale assistenter og robotikk-lignende agentløkker. Hvis arbeidsbelastningen din er mest tekstbasert og du bryr deg mer om rå hastighet eller maksimal kontekst, er søsknene Pro og Flash de mer åpenbare alternativene.