Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Masukan:$0.32/M
Keluaran:$1.6/M
MiMo-V2-Omni adalah model omni-modal mutakhir yang secara native memproses input gambar, video, dan audio dalam satu arsitektur terpadu. Model ini menggabungkan persepsi multimodal yang kuat dengan kapabilitas agentik - visual grounding, perencanaan multi-langkah, penggunaan alat, dan eksekusi kode - sehingga sangat cocok untuk tugas dunia nyata yang kompleks dan mencakup berbagai modalitas. Jendela konteks 256K.
Baru
Penggunaan komersial
Playground
Ikhtisar
Fitur
Harga
API

Gambaran Umum MiMo-V2-Omni

MiMo-V2-Omni adalah model fondasi omni milik Xiaomi MiMo untuk platform API, dibangun untuk melihat, mendengar, membaca, dan bertindak dalam alur kerja yang sama. Xiaomi memposisikannya sebagai model agen multimodal yang menggabungkan pemahaman gambar, video, audio, dan teks dengan pemanggilan alat terstruktur, eksekusi fungsi, dan UI grounding.

Spesifikasi teknis

ItemMiMo-V2-Omni
PenyediaXiaomi MiMo
Keluarga modelMiMo-V2
ModalitasGambar, video, audio, teks
Jenis keluaranTeks
Dukungan audio natifYa
Input gabungan audio-video natifYa
Pemanggilan alat terstrukturYa
Eksekusi fungsiYa
UI groundingYa
Penanganan audio panjangPemahaman audio kontinu lebih dari 10 jam
Tanggal rilis2026-03-18
Panjang konteks numerik publikTidak disebutkan pada halaman Omni resmi

Apa itu MiMo-V2-Omni?

MiMo-V2-Omni dirancang untuk sistem berbasis agen yang memerlukan persepsi dan tindakan dalam satu model. Xiaomi mengatakan model ini menggabungkan encoder gambar, video, dan audio khusus ke dalam satu backbone bersama, lalu melatihnya untuk mengantisipasi apa yang seharusnya terjadi berikutnya alih-alih hanya mendeskripsikan apa yang sudah terlihat.

Fitur utama MiMo-V2-Omni

  • Persepsi multimodal terpadu: gambar, video, audio, dan teks ditangani sebagai satu aliran persepsi, bukan add-on terpisah.
  • Keluaran siap untuk agen: model ini secara natif mendukung pemanggilan alat terstruktur, eksekusi fungsi, dan UI grounding untuk kerangka kerja agen nyata.
  • Pemahaman audio bentuk panjang: Xiaomi mengklaim model ini dapat menangani audio kontinu lebih dari 10 jam, yang luar biasa kuat untuk model omni umum.
  • Penalaran audio-video natif: halaman resmi menyoroti input gabungan audio-video untuk pemahaman video alih-alih pipeline transkrip yang hanya berbasis teks.
  • Eksekusi peramban dan alur kerja: Xiaomi mendemonstrasikan alur belanja di peramban end-to-end dan unggah TikTok menggunakan MiMo-V2-Omni plus OpenClaw.
  • Framing persepsi-ke-tindakan: model ini dilatih untuk menghubungkan apa yang dilihatnya dengan apa yang harus dilakukan selanjutnya, yang merupakan perbedaan inti antara model demo dan model agen.

Kinerja benchmark

mimo-v2-omni

Disebutkan dengan jelas bahwa Omni melampaui Gemini 3 Pro dalam pemahaman audio, melampaui Claude Opus 4.6 dalam pemahaman gambar, dan berkinerja setara dengan model penalaran terkuat pada benchmark produktivitas berbasis agen.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModelKekuatan intiKonteks / skalaKesesuaian terbaik
MiMo-V2-OmniPersepsi multimodal + aksi agenPanjang konteks publik tidak disebutkan pada halaman OmniAgen audio, gambar, video, UI, dan peramban
MiMo-V2-ProModel agen andalan terbesarHingga konteks 1M token; 1T+ parameter, 42B aktifOrkestrasi agen berat dan pekerjaan berjangka panjang
MiMo-V2-FlashPenalaran dan pengodean cepatKonteks 256K; 309B total, 15B aktifPenalaran efisien, pengodean, dan tugas agen ber-throughput tinggi

Kasus penggunaan terbaik

MiMo-V2-Omni adalah pilihan tepat ketika alur kerja Anda bergantung pada input atau output non-teks: pemahaman layar, analisis suara dan audio, tinjauan video, otomatisasi peramban, asisten multimodal, dan loop agen bergaya robotik. Jika beban kerja Anda sebagian besar hanya teks dan Anda lebih mengutamakan kecepatan mentah atau konteks maksimum, model saudara Pro dan Flash adalah alternatif yang lebih jelas.

FAQ

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Fitur untuk mimo-v2-omni

Jelajahi fitur-fitur utama dari mimo-v2-omni, yang dirancang untuk meningkatkan performa dan kegunaan. Temukan bagaimana kemampuan-kemampuan ini dapat menguntungkan proyek Anda dan meningkatkan pengalaman pengguna.

Harga untuk mimo-v2-omni

Jelajahi harga kompetitif untuk mimo-v2-omni, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana mimo-v2-omni dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.
Harga Comet (USD / M Tokens)Harga Resmi (USD / M Tokens)Diskon
Masukan:$0.32/M
Keluaran:$1.6/M
Masukan:$0.4/M
Keluaran:$2/M
-20%

Kode contoh dan API untuk mimo-v2-omni

Akses kode sampel komprehensif dan sumber daya API untuk mimo-v2-omni guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh mimo-v2-omni dalam proyek Anda.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Model Lainnya