mimo-v2-omni

Q: What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Q: Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

Q: How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

Q: When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Q: Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Q: Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Masukan:$0.32/M

Keluaran:$1.6/M

MiMo-V2-Omni ialah model omni-modal termaju yang memproses input imej, video dan audio secara natif dalam seni bina bersatu. Ia menggabungkan persepsi multimodal yang kukuh dengan keupayaan agentik - visual grounding, perancangan berbilang langkah, penggunaan alat dan pelaksanaan kod - menjadikannya sangat sesuai untuk tugasan dunia sebenar yang kompleks merentas modaliti. Tetingkap konteks 256K.

Baru

Penggunaan komersial

Playground

Gambaran Keseluruhan

Ciri-ciri

Harga

API

Gambaran keseluruhan MiMo-V2-Omni

MiMo-V2-Omni ialah model asas omni Xiaomi MiMo untuk platform API, dibina untuk melihat, mendengar, membaca dan bertindak dalam aliran kerja yang sama. Xiaomi meletakkannya sebagai model ejen multimodal yang menggabungkan kefahaman imej, video, audio dan teks dengan pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding.

Spesifikasi teknikal

Perkara	MiMo-V2-Omni
Penyedia	Xiaomi MiMo
Keluarga model	MiMo-V2
Modaliti	Imej, video, audio, teks
Jenis keluaran	Teks
Sokongan audio natif	Ya
Input gabungan audio-video natif	Ya
Pemanggilan alat berstruktur	Ya
Pelaksanaan fungsi	Ya
UI grounding	Ya
Pengendalian audio jangka panjang	Pemahaman audio berterusan melebihi 10 jam
Tarikh keluaran	2026-03-18
Panjang konteks yang dinyatakan secara awam	Tidak dinyatakan pada halaman Omni rasmi

Apakah MiMo-V2-Omni?

MiMo-V2-Omni direka untuk sistem ejen yang memerlukan persepsi dan tindakan dalam satu model. Xiaomi menyatakan bahawa model ini menggabungkan pengekod imej, video dan audio khusus ke dalam satu backbone bersama, kemudian melatihnya untuk menjangka apa yang sepatutnya berlaku seterusnya berbanding hanya menghuraikan apa yang sudah kelihatan.

Ciri utama MiMo-V2-Omni

Persepsi multimodal bersatu: imej, video, audio dan teks dikendalikan sebagai satu aliran persepsi, bukannya tambahan berasingan.
Output sedia untuk ejen: model ini secara natif menyokong pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding untuk rangka kerja ejen sebenar.
Pemahaman audio jangka panjang: Xiaomi mendakwa ia boleh mengendalikan audio berterusan melebihi 10 jam, sesuatu yang luar biasa kuat bagi model omni umum.
Penaakulan audio-video natif: halaman rasmi menekankan input gabungan audio-video untuk pemahaman video, bukannya saluran transkrip berasaskan teks sahaja.
Pelaksanaan pelayar dan aliran kerja: Xiaomi menunjukkan aliran membeli-belah dalam pelayar hujung-ke-hujung dan muat naik TikTok menggunakan MiMo-V2-Omni bersama OpenClaw.
Kerangka persepsi-ke-tindakan: model ini dilatih untuk mengaitkan apa yang dilihatnya dengan apa yang sepatutnya dilakukannya seterusnya, iaitu perbezaan teras antara model demo dan model ejen.

Prestasi penanda aras

mimo-v2-omni

Ia menyatakan dengan jelas bahawa Omni mengatasi Gemini 3 Pro dalam pemahaman audio, mengatasi Claude Opus 4.6 dalam pemahaman imej, dan berprestasi setara dengan model penaakulan terkuat pada penanda aras produktiviti ejen.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Model	Kekuatan teras	Konteks / skala	Kesesuaian terbaik
MiMo-V2-Omni	Persepsi multimodal + tindakan ejen	Panjang konteks awam tidak dinyatakan pada halaman Omni	Ejen audio, imej, video, UI dan pelayar
MiMo-V2-Pro	Model ejen perdana terbesar	Konteks sehingga 1M token; 1T+ parameter, 42B aktif	Orkestrasi ejen berskala besar dan kerja jangka panjang
MiMo-V2-Flash	Penaakulan dan pengekodan pantas	Konteks 256K; 309B keseluruhan, 15B aktif	Penaakulan cekap, pengekodan dan tugasan ejen berkapasiti tinggi

Kes penggunaan terbaik

MiMo-V2-Omni ialah pilihan yang tepat apabila aliran kerja anda bergantung pada input atau output bukan teks: pemahaman skrin, analisis suara dan audio, semakan video, automasi pelayar, pembantu multimodal, dan gelung ejen gaya robotik. Jika beban kerja anda kebanyakannya berasaskan teks sahaja dan anda lebih mementingkan kelajuan mentah atau konteks maksimum, model saudara Pro dan Flash ialah alternatif yang lebih jelas.

Soalan Lazim

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Harga untuk mimo-v2-omni

Terokai harga yang kompetitif untuk mimo-v2-omni, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana mimo-v2-omni boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.

Harga Comet (USD / M Tokens)	Harga Rasmi (USD / M Tokens)	Diskaun
Masukan:$0.32/M Keluaran:$1.6/M	Masukan:$0.4/M Keluaran:$2/M	-20%

Kod contoh dan API untuk mimo-v2-omni

Akses kod sampel yang komprehensif dan sumber API untuk mimo-v2-omni bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh mimo-v2-omni dalam projek anda.

POST

/v1/chat/completions

POST

/v1/messages

Python
JavaScript
Curl

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("\n--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";

// mimo-v2-omni: use fetch for web_search (non-standard tool type unsupported by openai SDK)
const resp = await fetch("https://api.cometapi.com/v1/chat/completions", {
  method: "POST",
  headers: { Authorization: `Bearer ${api_key}`, "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "mimo-v2-omni",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "Who is Lei Jun?" },
    ],
    tools: [{ type: "web_search", force_search: true, max_keyword: 3, limit: 1 }],
    tool_choice: "auto",
    thinking: { type: "disabled" },
  }),
});

const data = await resp.json();
const msg = data.choices[0].message;
if (msg.content) console.log(msg.content);

const annotations = msg.annotations ?? [];
if (annotations.length) {
  console.log("\n--- Sources ---");
  for (const ann of annotations) {
    const c = ann.url_citation ?? {};
    console.log(`[${c.title}] ${c.url}`);
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-omni",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Who is Lei Jun?"}
    ],
    "tools": [{"type": "web_search", "force_search": true, "max_keyword": 3, "limit": 1}],
    "thinking": {"type": "disabled"}
  }'

mimo-v2-omni

Masukan:$0.32/M

Keluaran:$1.6/M

Baru

Penggunaan komersial

Playground

Gambaran Keseluruhan

Ciri-ciri

Harga

API

Gambaran keseluruhan MiMo-V2-Omni

Spesifikasi teknikal

Perkara	MiMo-V2-Omni
Penyedia	Xiaomi MiMo
Keluarga model	MiMo-V2
Modaliti	Imej, video, audio, teks
Jenis keluaran	Teks
Sokongan audio natif	Ya
Input gabungan audio-video natif	Ya
Pemanggilan alat berstruktur	Ya
Pelaksanaan fungsi	Ya
UI grounding	Ya
Pengendalian audio jangka panjang	Pemahaman audio berterusan melebihi 10 jam
Tarikh keluaran	2026-03-18
Panjang konteks yang dinyatakan secara awam	Tidak dinyatakan pada halaman Omni rasmi

Apakah MiMo-V2-Omni?

Ciri utama MiMo-V2-Omni

Persepsi multimodal bersatu: imej, video, audio dan teks dikendalikan sebagai satu aliran persepsi, bukannya tambahan berasingan.
Output sedia untuk ejen: model ini secara natif menyokong pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding untuk rangka kerja ejen sebenar.
Pemahaman audio jangka panjang: Xiaomi mendakwa ia boleh mengendalikan audio berterusan melebihi 10 jam, sesuatu yang luar biasa kuat bagi model omni umum.
Penaakulan audio-video natif: halaman rasmi menekankan input gabungan audio-video untuk pemahaman video, bukannya saluran transkrip berasaskan teks sahaja.
Pelaksanaan pelayar dan aliran kerja: Xiaomi menunjukkan aliran membeli-belah dalam pelayar hujung-ke-hujung dan muat naik TikTok menggunakan MiMo-V2-Omni bersama OpenClaw.
Kerangka persepsi-ke-tindakan: model ini dilatih untuk mengaitkan apa yang dilihatnya dengan apa yang sepatutnya dilakukannya seterusnya, iaitu perbezaan teras antara model demo dan model ejen.

Prestasi penanda aras

mimo-v2-omni

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Model	Kekuatan teras	Konteks / skala	Kesesuaian terbaik
MiMo-V2-Omni	Persepsi multimodal + tindakan ejen	Panjang konteks awam tidak dinyatakan pada halaman Omni	Ejen audio, imej, video, UI dan pelayar
MiMo-V2-Pro	Model ejen perdana terbesar	Konteks sehingga 1M token; 1T+ parameter, 42B aktif	Orkestrasi ejen berskala besar dan kerja jangka panjang
MiMo-V2-Flash	Penaakulan dan pengekodan pantas	Konteks 256K; 309B keseluruhan, 15B aktif	Penaakulan cekap, pengekodan dan tugasan ejen berkapasiti tinggi

Kes penggunaan terbaik

Soalan Lazim

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Harga untuk mimo-v2-omni

Harga Comet (USD / M Tokens)	Harga Rasmi (USD / M Tokens)	Diskaun
Masukan:$0.32/M Keluaran:$1.6/M	Masukan:$0.4/M Keluaran:$2/M	-20%

Kod contoh dan API untuk mimo-v2-omni

POST

/v1/chat/completions

POST

/v1/messages

Python
JavaScript
Curl

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("\n--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";

// mimo-v2-omni: use fetch for web_search (non-standard tool type unsupported by openai SDK)
const resp = await fetch("https://api.cometapi.com/v1/chat/completions", {
  method: "POST",
  headers: { Authorization: `Bearer ${api_key}`, "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "mimo-v2-omni",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "Who is Lei Jun?" },
    ],
    tools: [{ type: "web_search", force_search: true, max_keyword: 3, limit: 1 }],
    tool_choice: "auto",
    thinking: { type: "disabled" },
  }),
});

const data = await resp.json();
const msg = data.choices[0].message;
if (msg.content) console.log(msg.content);

const annotations = msg.annotations ?? [];
if (annotations.length) {
  console.log("\n--- Sources ---");
  for (const ann of annotations) {
    const c = ann.url_citation ?? {};
    console.log(`[${c.title}] ${c.url}`);
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-omni",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Who is Lei Jun?"}
    ],
    "tools": [{"type": "web_search", "force_search": true, "max_keyword": 3, "limit": 1}],
    "thinking": {"type": "disabled"}
  }'