ModelHargaPerusahaan
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Syarikat
Tentang kamiPerusahaan
Sumber
Model AIBlogLog PerubahanSokongan
Terma PerkhidmatanDasar Privasi
© 2026 CometAPI · All rights reserved
Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Masukan:$0.32/M
Keluaran:$1.6/M
MiMo-V2-Omni ialah model omni-modal termaju yang memproses input imej, video dan audio secara natif dalam seni bina bersatu. Ia menggabungkan persepsi multimodal yang kukuh dengan keupayaan agentik - visual grounding, perancangan berbilang langkah, penggunaan alat dan pelaksanaan kod - menjadikannya sangat sesuai untuk tugasan dunia sebenar yang kompleks merentas modaliti. Tetingkap konteks 256K.
Baru
Penggunaan komersial
Playground
Gambaran Keseluruhan
Ciri-ciri
Harga
API

Gambaran keseluruhan MiMo-V2-Omni

MiMo-V2-Omni ialah model asas omni Xiaomi MiMo untuk platform API, dibina untuk melihat, mendengar, membaca dan bertindak dalam aliran kerja yang sama. Xiaomi meletakkannya sebagai model ejen multimodal yang menggabungkan kefahaman imej, video, audio dan teks dengan pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding.

Spesifikasi teknikal

PerkaraMiMo-V2-Omni
PenyediaXiaomi MiMo
Keluarga modelMiMo-V2
ModalitiImej, video, audio, teks
Jenis keluaranTeks
Sokongan audio natifYa
Input gabungan audio-video natifYa
Pemanggilan alat berstrukturYa
Pelaksanaan fungsiYa
UI groundingYa
Pengendalian audio jangka panjangPemahaman audio berterusan melebihi 10 jam
Tarikh keluaran2026-03-18
Panjang konteks yang dinyatakan secara awamTidak dinyatakan pada halaman Omni rasmi

Apakah MiMo-V2-Omni?

MiMo-V2-Omni direka untuk sistem ejen yang memerlukan persepsi dan tindakan dalam satu model. Xiaomi menyatakan bahawa model ini menggabungkan pengekod imej, video dan audio khusus ke dalam satu backbone bersama, kemudian melatihnya untuk menjangka apa yang sepatutnya berlaku seterusnya berbanding hanya menghuraikan apa yang sudah kelihatan.

Ciri utama MiMo-V2-Omni

  • Persepsi multimodal bersatu: imej, video, audio dan teks dikendalikan sebagai satu aliran persepsi, bukannya tambahan berasingan.
  • Output sedia untuk ejen: model ini secara natif menyokong pemanggilan alat berstruktur, pelaksanaan fungsi dan UI grounding untuk rangka kerja ejen sebenar.
  • Pemahaman audio jangka panjang: Xiaomi mendakwa ia boleh mengendalikan audio berterusan melebihi 10 jam, sesuatu yang luar biasa kuat bagi model omni umum.
  • Penaakulan audio-video natif: halaman rasmi menekankan input gabungan audio-video untuk pemahaman video, bukannya saluran transkrip berasaskan teks sahaja.
  • Pelaksanaan pelayar dan aliran kerja: Xiaomi menunjukkan aliran membeli-belah dalam pelayar hujung-ke-hujung dan muat naik TikTok menggunakan MiMo-V2-Omni bersama OpenClaw.
  • Kerangka persepsi-ke-tindakan: model ini dilatih untuk mengaitkan apa yang dilihatnya dengan apa yang sepatutnya dilakukannya seterusnya, iaitu perbezaan teras antara model demo dan model ejen.

Prestasi penanda aras

mimo-v2-omni

Ia menyatakan dengan jelas bahawa Omni mengatasi Gemini 3 Pro dalam pemahaman audio, mengatasi Claude Opus 4.6 dalam pemahaman imej, dan berprestasi setara dengan model penaakulan terkuat pada penanda aras produktiviti ejen.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModelKekuatan terasKonteks / skalaKesesuaian terbaik
MiMo-V2-OmniPersepsi multimodal + tindakan ejenPanjang konteks awam tidak dinyatakan pada halaman OmniEjen audio, imej, video, UI dan pelayar
MiMo-V2-ProModel ejen perdana terbesarKonteks sehingga 1M token; 1T+ parameter, 42B aktifOrkestrasi ejen berskala besar dan kerja jangka panjang
MiMo-V2-FlashPenaakulan dan pengekodan pantasKonteks 256K; 309B keseluruhan, 15B aktifPenaakulan cekap, pengekodan dan tugasan ejen berkapasiti tinggi

Kes penggunaan terbaik

MiMo-V2-Omni ialah pilihan yang tepat apabila aliran kerja anda bergantung pada input atau output bukan teks: pemahaman skrin, analisis suara dan audio, semakan video, automasi pelayar, pembantu multimodal, dan gelung ejen gaya robotik. Jika beban kerja anda kebanyakannya berasaskan teks sahaja dan anda lebih mementingkan kelajuan mentah atau konteks maksimum, model saudara Pro dan Flash ialah alternatif yang lebih jelas.

Soalan Lazim

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Harga untuk mimo-v2-omni

Terokai harga yang kompetitif untuk mimo-v2-omni, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana mimo-v2-omni boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Masukan:$0.32/M
Keluaran:$1.6/M
Masukan:$0.4/M
Keluaran:$2/M
-20%

Kod contoh dan API untuk mimo-v2-omni

Akses kod sampel yang komprehensif dan sumber API untuk mimo-v2-omni bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh mimo-v2-omni dalam projek anda.
POST
/v1/chat/completions
POST
/v1/messages
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("\n--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";

// mimo-v2-omni: use fetch for web_search (non-standard tool type unsupported by openai SDK)
const resp = await fetch("https://api.cometapi.com/v1/chat/completions", {
  method: "POST",
  headers: { Authorization: `Bearer ${api_key}`, "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "mimo-v2-omni",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "Who is Lei Jun?" },
    ],
    tools: [{ type: "web_search", force_search: true, max_keyword: 3, limit: 1 }],
    tool_choice: "auto",
    thinking: { type: "disabled" },
  }),
});

const data = await resp.json();
const msg = data.choices[0].message;
if (msg.content) console.log(msg.content);

const annotations = msg.annotations ?? [];
if (annotations.length) {
  console.log("\n--- Sources ---");
  for (const ann of annotations) {
    const c = ann.url_citation ?? {};
    console.log(`[${c.title}] ${c.url}`);
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-omni",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Who is Lei Jun?"}
    ],
    "tools": [{"type": "web_search", "force_search": true, "max_keyword": 3, "limit": 1}],
    "thinking": {"type": "disabled"}
  }'