MiMo-V2-Omni Genel Bakış
MiMo-V2-Omni, Xiaomi MiMo’nun API platformu için geliştirilen, aynı iş akışında görme, duyma, okuma ve eyleme geçme yeteneklerine sahip omni temel modelidir. Xiaomi, görüntü, video, ses ve metin anlayışını yapılandırılmış araç çağırma, fonksiyon yürütme ve UI temellendirme ile birleştiren çok modlu bir ajan modeli olarak konumlandırıyor.
Teknik özellikler
| Öğe | MiMo-V2-Omni |
|---|---|
| Sağlayıcı | Xiaomi MiMo |
| Model ailesi | MiMo-V2 |
| Modalite | Görüntü, video, ses, metin |
| Çıkış türü | Metin |
| Yerel ses desteği | Evet |
| Yerel ses-video birleşik girdi | Evet |
| Yapılandırılmış araç çağırma | Evet |
| Fonksiyon yürütme | Evet |
| UI temellendirme | Evet |
| Uzun süreli ses işleme | 10 saati aşan kesintisiz ses anlama |
| Yayın tarihi | 2026-03-18 |
| Kamuya açık sayısal bağlam uzunluğu | Resmî Omni sayfasında belirtilmemiştir |
MiMo-V2-Omni nedir?
MiMo-V2-Omni, algı ve eylemi tek bir modelde gerektiren ajan odaklı sistemler için tasarlanmıştır. Xiaomi, modelin özel görüntü, video ve ses kodlayıcılarını tek bir paylaşılan omurgada birleştirdiğini ve sadece görüneni tanımlamak yerine sırada ne olması gerektiğini öngörmesi için eğitildiğini söylüyor.
MiMo-V2-Omni’nin başlıca özellikleri
- Birleşik çok modlu algı: görüntü, video, ses ve metin ayrı eklentiler olarak değil, tek bir algısal akış olarak ele alınır.
- Ajanlara hazır çıktılar: model, gerçek ajan çerçeveleri için yapılandırılmış araç çağırma, fonksiyon yürütme ve UI temellendirmeyi yerel olarak destekler.
- Uzun biçimli ses anlama: Xiaomi, 10 saatten daha uzun kesintisiz sesi işleyebildiğini iddia ediyor; bu, genel amaçlı bir omni model için olağanüstü güçlüdür.
- Yerel ses‑video akıl yürütme: resmî sayfa, yalnızca metin transkript hattı yerine video kavrayışı için birleşik ses‑video girdisini vurgular.
- Tarayıcı ve iş akışı yürütme: Xiaomi, MiMo-V2-Omni ve OpenClaw kullanarak uçtan uca tarayıcı alışverişi ve TikTok yükleme akışlarını gösteriyor.
- Algıdan eyleme çerçeveleme: model, gördüklerini bir sonraki adımda ne yapması gerektiğiyle ilişkilendirmek üzere eğitilmiştir; bu, demo modeli ile ajan odaklı bir model arasındaki temel farktır.
Kıyaslama performansı

Açıkça şunu belirtir: Omni, ses anlama konusunda Gemini 3 Pro’yu, görüntü anlama konusunda Claude Opus 4.6’yı geride bırakıyor ve ajan odaklı üretkenlik kıyaslamalarında en güçlü akıl yürütme modelleriyle başa baş performans gösteriyor.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Model | Temel yetenek | Bağlam / ölçek | En uygun kullanım |
|---|---|---|---|
| MiMo-V2-Omni | Çok modlu algı + ajan eylemi | Omni sayfasında kamuya açık bağlam uzunluğu belirtilmemiş | Ses, görüntü, video, UI ve tarayıcı ajanları |
| MiMo-V2-Pro | En büyük amiral gemisi ajan modeli | 1M jetona kadar bağlam; 1T+ parametre, 42B aktif | Yoğun ajan orkestrasyonu ve uzun vadeli işler |
| MiMo-V2-Flash | Hızlı akıl yürütme ve kodlama | 256K bağlam; 309B toplam, 15B aktif | Verimli akıl yürütme, kodlama ve yüksek verimli ajan görevleri |
En iyi kullanım senaryoları
İş akışınız metin dışı girdilere veya çıktılara dayanıyorsa MiMo-V2-Omni doğru tercihtir: ekran anlama, ses ve konuşma analizi, video incelemesi, tarayıcı otomasyonu, çok modlu asistanlar ve robotik tarzı ajan döngüleri. İş yükünüz çoğunlukla yalnızca metinse ve ham hız veya maksimum bağlam sizin için daha önemliyse, kardeş Pro ve Flash modelleri daha bariz alternatiflerdir.