Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Giriş:$0.32/M
Çıktı:$1.6/M
MiMo-V2-Omni, birleşik bir mimari içinde görüntü, video ve ses girdilerini yerel olarak işleyen, öncü bir omni-modal modeldir. Güçlü çok modlu algıyı aracısal yetenekle birleştirir - görsel temellendirme, çok adımlı planlama, araç kullanımı ve kod yürütme - bu da onu modaliteler arasında uzanan karmaşık gerçek dünya görevleri için çok uygun hale getirir. 256K bağlam penceresi.
Yeni
Ticari kullanım
Playground
Genel Bakış
Özellikler
Fiyatlandırma
API

MiMo-V2-Omni Genel Bakış

MiMo-V2-Omni, Xiaomi MiMo’nun API platformu için geliştirilen, aynı iş akışında görme, duyma, okuma ve eyleme geçme yeteneklerine sahip omni temel modelidir. Xiaomi, görüntü, video, ses ve metin anlayışını yapılandırılmış araç çağırma, fonksiyon yürütme ve UI temellendirme ile birleştiren çok modlu bir ajan modeli olarak konumlandırıyor.

Teknik özellikler

ÖğeMiMo-V2-Omni
SağlayıcıXiaomi MiMo
Model ailesiMiMo-V2
ModaliteGörüntü, video, ses, metin
Çıkış türüMetin
Yerel ses desteğiEvet
Yerel ses-video birleşik girdiEvet
Yapılandırılmış araç çağırmaEvet
Fonksiyon yürütmeEvet
UI temellendirmeEvet
Uzun süreli ses işleme10 saati aşan kesintisiz ses anlama
Yayın tarihi2026-03-18
Kamuya açık sayısal bağlam uzunluğuResmî Omni sayfasında belirtilmemiştir

MiMo-V2-Omni nedir?

MiMo-V2-Omni, algı ve eylemi tek bir modelde gerektiren ajan odaklı sistemler için tasarlanmıştır. Xiaomi, modelin özel görüntü, video ve ses kodlayıcılarını tek bir paylaşılan omurgada birleştirdiğini ve sadece görüneni tanımlamak yerine sırada ne olması gerektiğini öngörmesi için eğitildiğini söylüyor.

MiMo-V2-Omni’nin başlıca özellikleri

  • Birleşik çok modlu algı: görüntü, video, ses ve metin ayrı eklentiler olarak değil, tek bir algısal akış olarak ele alınır.
  • Ajanlara hazır çıktılar: model, gerçek ajan çerçeveleri için yapılandırılmış araç çağırma, fonksiyon yürütme ve UI temellendirmeyi yerel olarak destekler.
  • Uzun biçimli ses anlama: Xiaomi, 10 saatten daha uzun kesintisiz sesi işleyebildiğini iddia ediyor; bu, genel amaçlı bir omni model için olağanüstü güçlüdür.
  • Yerel ses‑video akıl yürütme: resmî sayfa, yalnızca metin transkript hattı yerine video kavrayışı için birleşik ses‑video girdisini vurgular.
  • Tarayıcı ve iş akışı yürütme: Xiaomi, MiMo-V2-Omni ve OpenClaw kullanarak uçtan uca tarayıcı alışverişi ve TikTok yükleme akışlarını gösteriyor.
  • Algıdan eyleme çerçeveleme: model, gördüklerini bir sonraki adımda ne yapması gerektiğiyle ilişkilendirmek üzere eğitilmiştir; bu, demo modeli ile ajan odaklı bir model arasındaki temel farktır.

Kıyaslama performansı

mimo-v2-omni

Açıkça şunu belirtir: Omni, ses anlama konusunda Gemini 3 Pro’yu, görüntü anlama konusunda Claude Opus 4.6’yı geride bırakıyor ve ajan odaklı üretkenlik kıyaslamalarında en güçlü akıl yürütme modelleriyle başa baş performans gösteriyor.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModelTemel yetenekBağlam / ölçekEn uygun kullanım
MiMo-V2-OmniÇok modlu algı + ajan eylemiOmni sayfasında kamuya açık bağlam uzunluğu belirtilmemişSes, görüntü, video, UI ve tarayıcı ajanları
MiMo-V2-ProEn büyük amiral gemisi ajan modeli1M jetona kadar bağlam; 1T+ parametre, 42B aktifYoğun ajan orkestrasyonu ve uzun vadeli işler
MiMo-V2-FlashHızlı akıl yürütme ve kodlama256K bağlam; 309B toplam, 15B aktifVerimli akıl yürütme, kodlama ve yüksek verimli ajan görevleri

En iyi kullanım senaryoları

İş akışınız metin dışı girdilere veya çıktılara dayanıyorsa MiMo-V2-Omni doğru tercihtir: ekran anlama, ses ve konuşma analizi, video incelemesi, tarayıcı otomasyonu, çok modlu asistanlar ve robotik tarzı ajan döngüleri. İş yükünüz çoğunlukla yalnızca metinse ve ham hız veya maksimum bağlam sizin için daha önemliyse, kardeş Pro ve Flash modelleri daha bariz alternatiflerdir.

SSS

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

mimo-v2-omni için Özellikler

mimo-v2-omni'in performansı ve kullanılabilirliği artırmak için tasarlanmış temel özelliklerini keşfedin. Bu yeteneklerin projelerinize nasıl fayda sağlayabileceğini ve kullanıcı deneyimini nasıl geliştirebileceğini öğrenin.

mimo-v2-omni için Fiyatlandırma

mimo-v2-omni için çeşitli bütçelere ve kullanım ihtiyaçlarına uygun rekabetçi fiyatlandırmayı keşfedin. Esnek planlarımız sadece kullandığınız kadar ödeme yapmanızı sağlar ve ihtiyaçlarınız büyüdükçe kolayca ölçeklendirme imkanı sunar. mimo-v2-omni'in maliyetleri yönetilebilir tutarken projelerinizi nasıl geliştirebileceğini keşfedin.
Comet Fiyatı (USD / M Tokens)Resmi Fiyat (USD / M Tokens)İndirim
Giriş:$0.32/M
Çıktı:$1.6/M
Giriş:$0.4/M
Çıktı:$2/M
-20%

mimo-v2-omni için örnek kod ve API

mimo-v2-omni için kapsamlı örnek kodlara ve API kaynaklarına erişerek entegrasyon sürecinizi kolaylaştırın. Ayrıntılı dokümantasyonumuz adım adım rehberlik sağlayarak projelerinizde mimo-v2-omni'in tüm potansiyelinden yararlanmanıza yardımcı olur.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Daha Fazla Model