mimo-v2-omni

Q: What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Q: Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

Q: How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

Q: When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Q: Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Q: Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Entrada:$0.32/M

Saída:$1.6/M

MiMo-V2-Omni é um modelo omni-modal de ponta que processa nativamente entradas de imagem, vídeo e áudio em uma arquitetura unificada. Ele combina forte percepção multimodal com capacidade agêntica — grounding visual, planejamento em múltiplas etapas, uso de ferramentas e execução de código — tornando-o altamente adequado para tarefas complexas do mundo real que abrangem múltiplas modalidades. Janela de contexto de 256K.

Novo

Uso comercial

Playground

Visão Geral

Recursos

Preços

API

Visão geral do MiMo-V2-Omni

O MiMo-V2-Omni é o modelo base omni da Xiaomi MiMo para a plataforma de API, criado para ver, ouvir, ler e agir no mesmo fluxo de trabalho. A Xiaomi o posiciona como um modelo de agente multimodal que combina compreensão de imagem, vídeo, áudio e texto com chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI.

Especificações técnicas

Item	MiMo-V2-Omni
Fornecedor	Xiaomi MiMo
Família de modelos	MiMo-V2
Modalidade	Imagem, vídeo, áudio, texto
Tipo de saída	Texto
Suporte nativo a áudio	Sim
Entrada conjunta áudio-vídeo nativa	Sim
Chamadas estruturadas de ferramentas	Sim
Execução de funções	Sim
Ancoragem de UI	Sim
Tratamento de áudio longo	Compreensão contínua de áudio por mais de 10 horas
Data de lançamento	2026-03-18
Comprimento de contexto público	Não informado na página oficial do Omni

O que é o MiMo-V2-Omni?

O MiMo-V2-Omni foi projetado para sistemas orientados a agentes que precisam de percepção e ação em um único modelo. A Xiaomi afirma que o modelo funde codificadores dedicados de imagem, vídeo e áudio em um backbone compartilhado e, em seguida, o treina para antecipar o que deve acontecer em seguida, em vez de apenas descrever o que já está visível.

Principais recursos do MiMo-V2-Omni

Percepção multimodal unificada: imagem, vídeo, áudio e texto são tratados como um único fluxo perceptual, e não como complementos separados.
Saídas preparadas para agentes: o modelo oferece suporte nativo a chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI para frameworks de agentes reais.
Compreensão de áudio de longa duração: a Xiaomi afirma que ele pode lidar com áudio contínuo por mais de 10 horas, o que é incomumente forte para um modelo omni geral.
Raciocínio áudio-vídeo nativo: a página oficial destaca entrada conjunta áudio-vídeo para compreensão de vídeo em vez de um pipeline de transcrição apenas em texto.
Execução de navegador e fluxos de trabalho: a Xiaomi demonstra fluxos de compra no navegador e upload no TikTok de ponta a ponta usando o MiMo-V2-Omni mais o OpenClaw.
Enquadramento de percepção para ação: o modelo é treinado para conectar o que vê com o que deve fazer em seguida, que é a diferença central entre um modelo de demonstração e um modelo orientado a agentes.

Desempenho em benchmarks

mimo-v2-omni

Afirma claramente que o Omni supera o Gemini 3 Pro em compreensão de áudio, supera o Claude Opus 4.6 em compreensão de imagens e tem desempenho equivalente aos modelos de raciocínio mais fortes em benchmarks de produtividade orientada a agentes.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Modelo	Ponto forte principal	Contexto / escala	Melhor adequação
MiMo-V2-Omni	Percepção multimodal + ação de agente	Comprimento de contexto público não informado na página do Omni	Agentes de áudio, imagem, vídeo, UI e navegador
MiMo-V2-Pro	Maior modelo agente carro-chefe	Contexto de até 1M tokens; 1T+ parâmetros, 42B ativos	Orquestração pesada de agentes e trabalho de longo horizonte
MiMo-V2-Flash	Raciocínio e codificação rápidos	Contexto de 256K; 309B total, 15B ativos	Raciocínio eficiente, codificação e tarefas de agentes de alto rendimento

Melhores casos de uso

O MiMo-V2-Omni é a escolha certa quando seu fluxo de trabalho depende de entradas ou saídas que não são apenas texto: compreensão de tela, análise de voz e áudio, revisão de vídeo, automação de navegador, assistentes multimodais e loops de agente no estilo robótica. Se sua carga de trabalho for predominantemente apenas texto e você se importar mais com velocidade bruta ou contexto máximo, os modelos irmãos Pro e Flash são as alternativas mais óbvias.

FAQ

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Preços para mimo-v2-omni

Explore preços competitivos para mimo-v2-omni, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como mimo-v2-omni pode aprimorar seus projetos mantendo os custos gerenciáveis.

Preço do Comet (USD / M Tokens)	Preço Oficial (USD / M Tokens)	Desconto
Entrada:$0.32/M Saída:$1.6/M	Entrada:$0.4/M Saída:$2/M	-20%

Código de exemplo e API para mimo-v2-omni

Acesse código de exemplo abrangente e recursos de API para mimo-v2-omni para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do mimo-v2-omni em seus projetos.

POST

/v1/chat/completions

POST

/v1/messages

Python
JavaScript
Curl

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("\n--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";

// mimo-v2-omni: use fetch for web_search (non-standard tool type unsupported by openai SDK)
const resp = await fetch("https://api.cometapi.com/v1/chat/completions", {
  method: "POST",
  headers: { Authorization: `Bearer ${api_key}`, "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "mimo-v2-omni",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "Who is Lei Jun?" },
    ],
    tools: [{ type: "web_search", force_search: true, max_keyword: 3, limit: 1 }],
    tool_choice: "auto",
    thinking: { type: "disabled" },
  }),
});

const data = await resp.json();
const msg = data.choices[0].message;
if (msg.content) console.log(msg.content);

const annotations = msg.annotations ?? [];
if (annotations.length) {
  console.log("\n--- Sources ---");
  for (const ann of annotations) {
    const c = ann.url_citation ?? {};
    console.log(`[${c.title}] ${c.url}`);
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-omni",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Who is Lei Jun?"}
    ],
    "tools": [{"type": "web_search", "force_search": true, "max_keyword": 3, "limit": 1}],
    "thinking": {"type": "disabled"}
  }'

mimo-v2-omni

Entrada:$0.32/M

Saída:$1.6/M

Novo

Uso comercial

Playground

Visão Geral

Recursos

Preços

API

Visão geral do MiMo-V2-Omni

Especificações técnicas

Item	MiMo-V2-Omni
Fornecedor	Xiaomi MiMo
Família de modelos	MiMo-V2
Modalidade	Imagem, vídeo, áudio, texto
Tipo de saída	Texto
Suporte nativo a áudio	Sim
Entrada conjunta áudio-vídeo nativa	Sim
Chamadas estruturadas de ferramentas	Sim
Execução de funções	Sim
Ancoragem de UI	Sim
Tratamento de áudio longo	Compreensão contínua de áudio por mais de 10 horas
Data de lançamento	2026-03-18
Comprimento de contexto público	Não informado na página oficial do Omni

O que é o MiMo-V2-Omni?

Principais recursos do MiMo-V2-Omni

Percepção multimodal unificada: imagem, vídeo, áudio e texto são tratados como um único fluxo perceptual, e não como complementos separados.
Saídas preparadas para agentes: o modelo oferece suporte nativo a chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI para frameworks de agentes reais.
Compreensão de áudio de longa duração: a Xiaomi afirma que ele pode lidar com áudio contínuo por mais de 10 horas, o que é incomumente forte para um modelo omni geral.
Raciocínio áudio-vídeo nativo: a página oficial destaca entrada conjunta áudio-vídeo para compreensão de vídeo em vez de um pipeline de transcrição apenas em texto.
Execução de navegador e fluxos de trabalho: a Xiaomi demonstra fluxos de compra no navegador e upload no TikTok de ponta a ponta usando o MiMo-V2-Omni mais o OpenClaw.
Enquadramento de percepção para ação: o modelo é treinado para conectar o que vê com o que deve fazer em seguida, que é a diferença central entre um modelo de demonstração e um modelo orientado a agentes.

Desempenho em benchmarks

mimo-v2-omni

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Modelo	Ponto forte principal	Contexto / escala	Melhor adequação
MiMo-V2-Omni	Percepção multimodal + ação de agente	Comprimento de contexto público não informado na página do Omni	Agentes de áudio, imagem, vídeo, UI e navegador
MiMo-V2-Pro	Maior modelo agente carro-chefe	Contexto de até 1M tokens; 1T+ parâmetros, 42B ativos	Orquestração pesada de agentes e trabalho de longo horizonte
MiMo-V2-Flash	Raciocínio e codificação rápidos	Contexto de 256K; 309B total, 15B ativos	Raciocínio eficiente, codificação e tarefas de agentes de alto rendimento

Melhores casos de uso

FAQ

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Preços para mimo-v2-omni

Preço do Comet (USD / M Tokens)	Preço Oficial (USD / M Tokens)	Desconto
Entrada:$0.32/M Saída:$1.6/M	Entrada:$0.4/M Saída:$2/M	-20%

Código de exemplo e API para mimo-v2-omni

POST

/v1/chat/completions

POST

/v1/messages

Python
JavaScript
Curl

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("\n--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";

// mimo-v2-omni: use fetch for web_search (non-standard tool type unsupported by openai SDK)
const resp = await fetch("https://api.cometapi.com/v1/chat/completions", {
  method: "POST",
  headers: { Authorization: `Bearer ${api_key}`, "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "mimo-v2-omni",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "Who is Lei Jun?" },
    ],
    tools: [{ type: "web_search", force_search: true, max_keyword: 3, limit: 1 }],
    tool_choice: "auto",
    thinking: { type: "disabled" },
  }),
});

const data = await resp.json();
const msg = data.choices[0].message;
if (msg.content) console.log(msg.content);

const annotations = msg.annotations ?? [];
if (annotations.length) {
  console.log("\n--- Sources ---");
  for (const ann of annotations) {
    const c = ann.url_citation ?? {};
    console.log(`[${c.title}] ${c.url}`);
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-omni",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Who is Lei Jun?"}
    ],
    "tools": [{"type": "web_search", "force_search": true, "max_keyword": 3, "limit": 1}],
    "thinking": {"type": "disabled"}
  }'