MiMo-V2-Omni Oversigt
MiMo-V2-Omni er Xiaomi MiMo’s omni-grundmodel til API-platformen, bygget til at se, høre, læse og handle i samme arbejdsgang. Xiaomi positionerer den som en multimodal agentmodel, der kombinerer billed-, video-, lyd- og tekstforståelse med struktureret værktøjskald, funktionsudførelse og UI-forankring.
Tekniske specifikationer
| Punkt | MiMo-V2-Omni |
|---|---|
| Udbyder | Xiaomi MiMo |
| Modelfamilie | MiMo-V2 |
| Modalitet | Billede, video, lyd, tekst |
| Outputtype | Tekst |
| Indbygget lydunderstøttelse | Ja |
| Indbygget fælles lyd-video-input | Ja |
| Struktureret værktøjskald | Ja |
| Funktionsudførelse | Ja |
| UI-forankring | Ja |
| Håndtering af lange lydoptagelser | Over 10 timers kontinuerlig lydforståelse |
| Udgivelsesdato | 2026-03-18 |
| Offentligt oplyst numerisk kontekstlængde | Ikke angivet på den officielle Omni-side |
Hvad er MiMo-V2-Omni?
MiMo-V2-Omni er designet til agentbaserede systemer, der har brug for perception og handling i én model. Xiaomi siger, at modellen sammenfletter dedikerede billed-, video- og lydenkodere i en fælles backbone og derefter trænes til at forudse, hvad der bør ske næste gang, frem for kun at beskrive det, der allerede er synligt.
Hovedfunktioner i MiMo-V2-Omni
- Samlet multimodal perception: billede, video, lyd og tekst håndteres som én perceptionsstrøm frem for separate tilføjelser.
- Agentklare output: modellen understøtter indbygget struktureret værktøjskald, funktionsudførelse og UI-forankring til reelle agentrammeværker.
- Langformat lydforståelse: Xiaomi hævder, at den kan håndtere kontinuerlig lyd på over 10 timer, hvilket er usædvanligt stærkt for en generel omni-model.
- Indbygget lyd-video-resonnering: den officielle side fremhæver fælles lyd-video-input til videoforståelse i stedet for en tekst-only transkriptpipeline.
- Browser- og arbejdsgangsudførelse: Xiaomi demonstrerer ende-til-ende browsershopping og TikTok-upload-forløb ved hjælp af MiMo-V2-Omni plus OpenClaw.
- Fra perception til handling: modellen er trænet til at forbinde det, den ser, med hvad den bør gøre næste gang, hvilket er kerneforskellen mellem en demo-model og en agentmodel.
Benchmark-resultater

Det fremgår tydeligt, at Omni overgår Gemini 3 Pro i lydforståelse, overgår Claude Opus 4.6 i billedforståelse, og præsterer på niveau med de stærkeste ræsonneringsmodeller på agentorienterede produktivitetsbenchmarks.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Model | Kernestyrke | Kontekst / skala | Bedst egnet |
|---|---|---|---|
| MiMo-V2-Omni | Multimodal perception + agenthandling | Offentlig kontekstlængde ikke angivet på Omni-siden | Lyd-, billede-, video-, UI- og browseragenter |
| MiMo-V2-Pro | Største flagskibsagentmodel | Op til 1M-token kontekst; 1T+ parametre, 42B aktive | Tung agentorkestrering og arbejde med lange horisonter |
| MiMo-V2-Flash | Hurtig ræsonnering og kodning | 256K kontekst; 309B i alt, 15B aktive | Effektiv ræsonnering, kodning og agentopgaver med høj gennemstrømning |
Bedste anvendelsesområder
MiMo-V2-Omni er det rigtige valg, når din arbejdsgang afhænger af ikke-tekst input eller output: skærmforståelse, stemme- og lydanalyse, videogennemgang, browserautomatisering, multimodale assistenter og robotiklignende agent-loops. Hvis din arbejdsbyrde mest er tekst-only, og du vægter rå hastighed eller maksimal kontekst højere, er søskendemodellerne Pro og Flash de mere oplagte alternativer.