Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Енгізу:$0.32/M
Шығыс:$1.6/M
MiMo-V2-Omni — біртұтас архитектурада кескін, бейне және аудио енгізулерін тікелей өңдейтін алдыңғы қатарлы омнимодальды модель. Ол қуатты көпмодальды қабылдауды агенттік мүмкіндіктерімен — визуалды бекіту, көпқадамды жоспарлау, құралдарды пайдалану және кодты орындау — ұштастырады, бұл оны бірнеше модальдылықты қамтитын шынайы әлемдегі күрделі тапсырмалар үшін өте қолайлы етеді. 256K контекстік терезе.
Жаңа
Коммерциялық пайдалану
Playground
Шолу
Мүмкіндіктер
Баға белгілеу
API

MiMo-V2-Omni шолуы

MiMo-V2-Omni — API платформасына арналған Xiaomi MiMo-ның omni іргелі моделі, бір жұмыс ағынында көру, есту, оқу және әрекет ету үшін жасалған. Xiaomi оны кескін, видео, аудио және мәтінді түсінуді құралдарды құрылымдық шақырумен, функцияларды орындаумен және UI-ге байлаумен біріктіретін көпмодальды агенттік модель ретінде ұсынады.

Техникалық сипаттамалар

ЭлементMiMo-V2-Omni
ҰсынушыXiaomi MiMo
Модель отбасыMiMo-V2
МодальдылықКескін, видео, аудио, мәтін
Шығыс түріМәтін
Аудиоға жергілікті қолдауИә
Аудио-бейненің жергілікті бірлескен енгізуіИә
Құралдарды құрылымдық шақыруИә
Функцияларды орындауИә
UI-ге байлауИә
Ұзақ аудионы өңдеу10 сағаттан астам үздіксіз аудионы түсіну
Шығарылған күні2026-03-18
Жарияланған сандық контекст ұзындығыРесми Omni бетінде көрсетілмеген

MiMo-V2-Omni деген не?

MiMo-V2-Omni қабылдау мен әрекет бір модельде қажет болатын агенттік жүйелерге арналған. Xiaomi айтуынша, модель арнайы кескін, видео және аудио энкодерлерін ортақ арқауға біріктіреді, содан кейін тек көрініп тұрғанды сипаттаумен шектелмей, келесіде не болуы тиіс екенін болжауға үйретіледі.

MiMo-V2-Omni негізгі мүмкіндіктері

  • Біріктірілген көпмодальды қабылдау: кескін, видео, аудио және мәтін бөлек қондырмалар емес, бір қабылдау ағыны ретінде өңделеді.
  • Агенттікке дайын шығыстар: модель нақты агенттік фреймворктер үшін құралдарды құрылымдық шақыруды, функцияларды орындауды және UI-ге байлауды бастапқыдан қолдайды.
  • Ұзақ пішінді аудионы түсіну: Xiaomi оның 10 сағаттан астам үздіксіз аудионы өңдей алатынын мәлімдейді, бұл жалпы omni модель үшін әдеттен тыс мықты.
  • Жергілікті аудио-видео пайымдау: ресми бет видеоны түсіну үшін тек мәтіндік транскрипт құбырының орнына бірлескен аудио-видео енгізуді ерекше атап көрсетеді.
  • Браузер және жұмыс ағындарын орындау: Xiaomi MiMo-V2-Omni және OpenClaw көмегімен толық циклді браузер арқылы сатып алу және TikTok-қа жүктеу ағындарын көрсетеді.
  • Қабылдаудан әрекетке бағдарлау: модель көргенін келесіде не істеуі керектігімен байланыстыруға үйретіледі, бұл демо модель мен агенттік модель арасындағы негізгі айырмашылық.

Бенчмарк нәтижелері

mimo-v2-omni

Мұнда Omni аудионы түсіну бойынша Gemini 3 Pro-дан озық, кескінді түсіну бойынша Claude Opus 4.6-дан озық екені және агенттік өнімділік бенчмарктерінде ең мықты пайымдау модельдерімен бір деңгейде жұмыс істейтіні анық көрсетілген.

MiMo-V2-Omni, MiMo-V2-Pro және MiMo-V2-Flash салыстыруы

МодельНегізгі артықшылықКонтекст / ауқымЕң қолайлы
MiMo-V2-OmniКөпмодальды қабылдау + агент әрекетіOmni бетінде жария контекст ұзындығы көрсетілмегенАудио, кескін, видео, UI және браузер агенттері
MiMo-V2-ProЕң ірі флагмандық агенттік модель1M-токенге дейін контекст; 1T+ параметр, 42B белсендіКүрделі агенттік оркестрация және ұзақ көкжиегі бар жұмыс
MiMo-V2-FlashЖылдам пайымдау және код жазу256K контекст; барлығы 309B, белсенді 15BТиімді пайымдау, код жазу және өткізу қабілеті жоғары агенттік тапсырмалар

Ең жақсы қолдану сценарийлері

MiMo-V2-Omni мәтіннен бөлек енгізулерге немесе шығуларға сүйенетін жұмыс ағындары үшін дұрыс таңдау: экранды түсіну, дауыс пен аудионы талдау, видеоны қарау, браузерді автоматтандыру, көпмодальды ассистенттер және робототехникаға ұқсас агенттік циклдер. Егер жүктемеңіз көбіне тек мәтіннен тұрса және сіз үшін таза жылдамдық немесе ең үлкен контекст маңызды болса, туыстас Pro және Flash модельдері неғұрлым айқын балама болады.

ЖҚС

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

mimo-v2-omni үшін мүмкіндіктер

[Модель атауы] негізгі мүмкіндіктерін зерттеңіз, олар өнімділік пен пайдалану ыңғайлылығын арттыруға арналған. Бұл мүмкіндіктердің сіздің жобаларыңызға қалай пайда әкелетінін және пайдаланушы тәжірибесін қалай жақсартатынын біліңіз.

mimo-v2-omni үшін баға белгілеу

[Модель атауы] үшін әртүрлі бюджеттер мен пайдалану қажеттіліктеріне сәйкес келетін бәсекеге қабілетті баға белгілеуді зерттеңіз. Біздің икемді жоспарларымыз сіз тек пайдаланған нәрсеңіз үшін ғана төлеуіңізді қамтамасыз етеді, бұл сіздің талаптарыңыз өскен сайын масштабтауды жеңілдетеді. [Модель атауы] шығындарды басқарылатын деңгейде ұстай отырып, сіздің жобаларыңызды қалай жақсарта алатынын біліңіз.
Комета бағасы (USD / M Tokens)Ресми баға (USD / M Tokens)Жеңілдік
Енгізу:$0.32/M
Шығыс:$1.6/M
Енгізу:$0.4/M
Шығыс:$2/M
-20%

mimo-v2-omni үшін үлгі код және API

[Модель атауы] үшін кешенді үлгі кодтары мен API ресурстарына қол жеткізіп, интеграция процесіңізді жеңілдетіңіз. Біздің толық құжаттама қадам-қадаммен нұсқаулық береді, жобаларыңызда [Модель атауы] мүмкіндіктерін толық пайдалануға көмектеседі.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Көбірек модельдер