Gambaran Umum MiMo-V2-Omni
MiMo-V2-Omni adalah model fondasi omni milik Xiaomi MiMo untuk platform API, dibangun untuk melihat, mendengar, membaca, dan bertindak dalam alur kerja yang sama. Xiaomi memposisikannya sebagai model agen multimodal yang menggabungkan pemahaman gambar, video, audio, dan teks dengan pemanggilan alat terstruktur, eksekusi fungsi, dan UI grounding.
Spesifikasi teknis
| Item | MiMo-V2-Omni |
|---|---|
| Penyedia | Xiaomi MiMo |
| Keluarga model | MiMo-V2 |
| Modalitas | Gambar, video, audio, teks |
| Jenis keluaran | Teks |
| Dukungan audio natif | Ya |
| Input gabungan audio-video natif | Ya |
| Pemanggilan alat terstruktur | Ya |
| Eksekusi fungsi | Ya |
| UI grounding | Ya |
| Penanganan audio panjang | Pemahaman audio kontinu lebih dari 10 jam |
| Tanggal rilis | 2026-03-18 |
| Panjang konteks numerik publik | Tidak disebutkan pada halaman Omni resmi |
Apa itu MiMo-V2-Omni?
MiMo-V2-Omni dirancang untuk sistem berbasis agen yang memerlukan persepsi dan tindakan dalam satu model. Xiaomi mengatakan model ini menggabungkan encoder gambar, video, dan audio khusus ke dalam satu backbone bersama, lalu melatihnya untuk mengantisipasi apa yang seharusnya terjadi berikutnya alih-alih hanya mendeskripsikan apa yang sudah terlihat.
Fitur utama MiMo-V2-Omni
- Persepsi multimodal terpadu: gambar, video, audio, dan teks ditangani sebagai satu aliran persepsi, bukan add-on terpisah.
- Keluaran siap untuk agen: model ini secara natif mendukung pemanggilan alat terstruktur, eksekusi fungsi, dan UI grounding untuk kerangka kerja agen nyata.
- Pemahaman audio bentuk panjang: Xiaomi mengklaim model ini dapat menangani audio kontinu lebih dari 10 jam, yang luar biasa kuat untuk model omni umum.
- Penalaran audio-video natif: halaman resmi menyoroti input gabungan audio-video untuk pemahaman video alih-alih pipeline transkrip yang hanya berbasis teks.
- Eksekusi peramban dan alur kerja: Xiaomi mendemonstrasikan alur belanja di peramban end-to-end dan unggah TikTok menggunakan MiMo-V2-Omni plus OpenClaw.
- Framing persepsi-ke-tindakan: model ini dilatih untuk menghubungkan apa yang dilihatnya dengan apa yang harus dilakukan selanjutnya, yang merupakan perbedaan inti antara model demo dan model agen.
Kinerja benchmark

Disebutkan dengan jelas bahwa Omni melampaui Gemini 3 Pro dalam pemahaman audio, melampaui Claude Opus 4.6 dalam pemahaman gambar, dan berkinerja setara dengan model penalaran terkuat pada benchmark produktivitas berbasis agen.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Model | Kekuatan inti | Konteks / skala | Kesesuaian terbaik |
|---|---|---|---|
| MiMo-V2-Omni | Persepsi multimodal + aksi agen | Panjang konteks publik tidak disebutkan pada halaman Omni | Agen audio, gambar, video, UI, dan peramban |
| MiMo-V2-Pro | Model agen andalan terbesar | Hingga konteks 1M token; 1T+ parameter, 42B aktif | Orkestrasi agen berat dan pekerjaan berjangka panjang |
| MiMo-V2-Flash | Penalaran dan pengodean cepat | Konteks 256K; 309B total, 15B aktif | Penalaran efisien, pengodean, dan tugas agen ber-throughput tinggi |
Kasus penggunaan terbaik
MiMo-V2-Omni adalah pilihan tepat ketika alur kerja Anda bergantung pada input atau output non-teks: pemahaman layar, analisis suara dan audio, tinjauan video, otomatisasi peramban, asisten multimodal, dan loop agen bergaya robotik. Jika beban kerja Anda sebagian besar hanya teks dan Anda lebih mengutamakan kecepatan mentah atau konteks maksimum, model saudara Pro dan Flash adalah alternatif yang lebih jelas.