Gambaran keseluruhan MiMo-V2-Omni
MiMo-V2-Omni ialah model asas omni Xiaomi MiMo untuk platform API, dibina untuk melihat, mendengar, membaca dan bertindak dalam aliran kerja yang sama. Xiaomi meletakkannya sebagai model ejen multimodal yang menggabungkan kefahaman imej, video, audio dan teks dengan pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding.
Spesifikasi teknikal
| Perkara | MiMo-V2-Omni |
|---|---|
| Penyedia | Xiaomi MiMo |
| Keluarga model | MiMo-V2 |
| Modaliti | Imej, video, audio, teks |
| Jenis keluaran | Teks |
| Sokongan audio natif | Ya |
| Input gabungan audio-video natif | Ya |
| Pemanggilan alat berstruktur | Ya |
| Pelaksanaan fungsi | Ya |
| UI grounding | Ya |
| Pengendalian audio jangka panjang | Pemahaman audio berterusan melebihi 10 jam |
| Tarikh keluaran | 2026-03-18 |
| Panjang konteks yang dinyatakan secara awam | Tidak dinyatakan pada halaman Omni rasmi |
Apakah MiMo-V2-Omni?
MiMo-V2-Omni direka untuk sistem ejen yang memerlukan persepsi dan tindakan dalam satu model. Xiaomi menyatakan bahawa model ini menggabungkan pengekod imej, video dan audio khusus ke dalam satu backbone bersama, kemudian melatihnya untuk menjangka apa yang sepatutnya berlaku seterusnya berbanding hanya menghuraikan apa yang sudah kelihatan.
Ciri utama MiMo-V2-Omni
- Persepsi multimodal bersatu: imej, video, audio dan teks dikendalikan sebagai satu aliran persepsi, bukannya tambahan berasingan.
- Output sedia untuk ejen: model ini secara natif menyokong pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding untuk rangka kerja ejen sebenar.
- Pemahaman audio jangka panjang: Xiaomi mendakwa ia boleh mengendalikan audio berterusan melebihi 10 jam, sesuatu yang luar biasa kuat bagi model omni umum.
- Penaakulan audio-video natif: halaman rasmi menekankan input gabungan audio-video untuk pemahaman video, bukannya saluran transkrip berasaskan teks sahaja.
- Pelaksanaan pelayar dan aliran kerja: Xiaomi menunjukkan aliran membeli-belah dalam pelayar hujung-ke-hujung dan muat naik TikTok menggunakan MiMo-V2-Omni bersama OpenClaw.
- Kerangka persepsi-ke-tindakan: model ini dilatih untuk mengaitkan apa yang dilihatnya dengan apa yang sepatutnya dilakukannya seterusnya, iaitu perbezaan teras antara model demo dan model ejen.
Prestasi penanda aras

Ia menyatakan dengan jelas bahawa Omni mengatasi Gemini 3 Pro dalam pemahaman audio, mengatasi Claude Opus 4.6 dalam pemahaman imej, dan berprestasi setara dengan model penaakulan terkuat pada penanda aras produktiviti ejen.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Model | Kekuatan teras | Konteks / skala | Kesesuaian terbaik |
|---|---|---|---|
| MiMo-V2-Omni | Persepsi multimodal + tindakan ejen | Panjang konteks awam tidak dinyatakan pada halaman Omni | Ejen audio, imej, video, UI dan pelayar |
| MiMo-V2-Pro | Model ejen perdana terbesar | Konteks sehingga 1M token; 1T+ parameter, 42B aktif | Orkestrasi ejen berskala besar dan kerja jangka panjang |
| MiMo-V2-Flash | Penaakulan dan pengekodan pantas | Konteks 256K; 309B keseluruhan, 15B aktif | Penaakulan cekap, pengekodan dan tugasan ejen berkapasiti tinggi |
Kes penggunaan terbaik
MiMo-V2-Omni ialah pilihan yang tepat apabila aliran kerja anda bergantung pada input atau output bukan teks: pemahaman skrin, analisis suara dan audio, semakan video, automasi pelayar, pembantu multimodal, dan gelung ejen gaya robotik. Jika beban kerja anda kebanyakannya berasaskan teks sahaja dan anda lebih mementingkan kelajuan mentah atau konteks maksimum, model saudara Pro dan Flash ialah alternatif yang lebih jelas.