Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Ввод:$0.32/M
Вывод:$1.6/M
MiMo-V2-Omni — это передовая омнимодальная модель, которая изначально обрабатывает входные данные в виде изображений, видео и аудио в рамках единой архитектуры. Она сочетает мощное мультимодальное восприятие с агентными возможностями — визуальной привязкой, многошаговым планированием, использованием инструментов и выполнением кода, — что делает её хорошо подходящей для сложных реальных задач, охватывающих разные модальности. Контекстное окно: 256K.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API

Обзор MiMo-V2-Omni

MiMo-V2-Omni — это омни-базовая модель Xiaomi MiMo для API-платформы, созданная для того, чтобы видеть, слышать, читать и действовать в рамках одного рабочего процесса. Xiaomi позиционирует её как мультимодальную агентную модель, которая сочетает понимание изображений, видео, аудио и текста со структурированным вызовом инструментов, выполнением функций и UI-grounding.

Технические характеристики

ПунктMiMo-V2-Omni
ПоставщикXiaomi MiMo
Семейство моделейMiMo-V2
МодальностьИзображение, видео, аудио, текст
Тип выводаТекст
Нативная поддержка аудиоДа
Нативный совместный аудио-видео вводДа
Структурированный вызов инструментовДа
Выполнение функцийДа
UI-groundingДа
Обработка длинного аудиоБолее 10 часов непрерывного понимания аудио
Дата выпуска2026-03-18
Публично заявленная длина контекстаНе указана на официальной странице Omni

Что такое MiMo-V2-Omni?

MiMo-V2-Omni разработана для агентных систем, которым нужны восприятие и действие в одной модели. Xiaomi утверждает, что модель объединяет специализированные энкодеры изображений, видео и аудио в одну общую backbone-архитектуру, а затем обучает её предвосхищать, что должно произойти дальше, а не только описывать то, что уже видно.

Основные возможности MiMo-V2-Omni

  • Единое мультимодальное восприятие: изображения, видео, аудио и текст обрабатываются как единый поток восприятия, а не как отдельные надстройки.
  • Выходы, готовые для агентов: модель нативно поддерживает структурированный вызов инструментов, выполнение функций и UI-grounding для реальных агентных фреймворков.
  • Понимание длинного аудио: Xiaomi заявляет, что модель может обрабатывать непрерывное аудио длительностью более 10 часов, что необычно сильно для универсальной омни-модели.
  • Нативное аудио-видео рассуждение: официальная страница подчёркивает совместный аудио-видео ввод для понимания видео вместо конвейера только с текстовой транскрипцией.
  • Выполнение в браузере и рабочих процессах: Xiaomi демонстрирует сквозные сценарии покупок в браузере и загрузки в TikTok с использованием MiMo-V2-Omni вместе с OpenClaw.
  • Парадигма от восприятия к действию: модель обучена связывать то, что она видит, с тем, что ей следует сделать дальше; в этом и состоит ключевое отличие между демонстрационной моделью и агентной моделью.

Результаты на бенчмарках

mimo-v2-omni

Там ясно указано, что Omni превосходит Gemini 3 Pro в понимании аудио, превосходит Claude Opus 4.6 в понимании изображений и показывает результаты на уровне сильнейших reasoning-моделей в бенчмарках агентной продуктивности.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

МодельКлючевая силаКонтекст / масштабЛучше всего подходит для
MiMo-V2-OmniМультимодальное восприятие + агентные действияПубличная длина контекста не указана на странице OmniАгенты для аудио, изображений, видео, UI и браузера
MiMo-V2-ProКрупнейшая флагманская агентная модельДо 1M токенов контекста; 1T+ параметров, 42B активныхСложная оркестрация агентов и долгосрочные задачи
MiMo-V2-FlashБыстрое рассуждение и кодированиеКонтекст 256K; всего 309B, 15B активныхЭффективное рассуждение, кодирование и высокопроизводительные агентные задачи

Лучшие сценарии использования

MiMo-V2-Omni — правильный выбор, когда ваш рабочий процесс зависит от нетекстовых входов или выходов: понимание экрана, анализ голоса и аудио, проверка видео, автоматизация браузера, мультимодальные ассистенты и агентные циклы в стиле робототехники. Если ваша нагрузка в основном текстовая и вам важнее чистая скорость или максимальный контекст, то родственные модели Pro и Flash будут более очевидными альтернативами.

ЧАВО

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Функции для mimo-v2-omni

Изучите ключевые функции mimo-v2-omni, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для mimo-v2-omni

Изучите конкурентоспособные цены на mimo-v2-omni, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как mimo-v2-omni может улучшить ваши проекты, сохраняя при этом управляемые расходы.
Цена Comet (USD / M Tokens)Официальная цена (USD / M Tokens)Скидка
Ввод:$0.32/M
Вывод:$1.6/M
Ввод:$0.4/M
Вывод:$2/M
-20%

Пример кода и API для mimo-v2-omni

Получите доступ к исчерпывающим примерам кода и ресурсам API для mimo-v2-omni, чтобы упростить процесс интеграции. Наша подробная документация предоставляет пошаговые инструкции, помогая вам использовать весь потенциал mimo-v2-omni в ваших проектах.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Больше моделей