ModelosPreçosEmpresarial
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Empresa
Sobre nósEmpresarial
Recursos
Modelos de IABlogRegistro de AlteraçõesSuporte
Termos de ServiçoPolítica de Privacidade
© 2026 CometAPI · All rights reserved
Home/Models/Xiaomi/mimo-v2-omni
X

mimo-v2-omni

Entrada:$0.32/M
Saída:$1.6/M
MiMo-V2-Omni é um modelo omni-modal de ponta que processa nativamente entradas de imagem, vídeo e áudio em uma arquitetura unificada. Ele combina forte percepção multimodal com capacidade agêntica — grounding visual, planejamento em múltiplas etapas, uso de ferramentas e execução de código — tornando-o altamente adequado para tarefas complexas do mundo real que abrangem múltiplas modalidades. Janela de contexto de 256K.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Visão geral do MiMo-V2-Omni

O MiMo-V2-Omni é o modelo base omni da Xiaomi MiMo para a plataforma de API, criado para ver, ouvir, ler e agir no mesmo fluxo de trabalho. A Xiaomi o posiciona como um modelo de agente multimodal que combina compreensão de imagem, vídeo, áudio e texto com chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI.

Especificações técnicas

ItemMiMo-V2-Omni
FornecedorXiaomi MiMo
Família de modelosMiMo-V2
ModalidadeImagem, vídeo, áudio, texto
Tipo de saídaTexto
Suporte nativo a áudioSim
Entrada conjunta áudio-vídeo nativaSim
Chamadas estruturadas de ferramentasSim
Execução de funçõesSim
Ancoragem de UISim
Tratamento de áudio longoCompreensão contínua de áudio por mais de 10 horas
Data de lançamento2026-03-18
Comprimento de contexto públicoNão informado na página oficial do Omni

O que é o MiMo-V2-Omni?

O MiMo-V2-Omni foi projetado para sistemas orientados a agentes que precisam de percepção e ação em um único modelo. A Xiaomi afirma que o modelo funde codificadores dedicados de imagem, vídeo e áudio em um backbone compartilhado e, em seguida, o treina para antecipar o que deve acontecer em seguida, em vez de apenas descrever o que já está visível.

Principais recursos do MiMo-V2-Omni

  • Percepção multimodal unificada: imagem, vídeo, áudio e texto são tratados como um único fluxo perceptual, e não como complementos separados.
  • Saídas preparadas para agentes: o modelo oferece suporte nativo a chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI para frameworks de agentes reais.
  • Compreensão de áudio de longa duração: a Xiaomi afirma que ele pode lidar com áudio contínuo por mais de 10 horas, o que é incomumente forte para um modelo omni geral.
  • Raciocínio áudio-vídeo nativo: a página oficial destaca entrada conjunta áudio-vídeo para compreensão de vídeo em vez de um pipeline de transcrição apenas em texto.
  • Execução de navegador e fluxos de trabalho: a Xiaomi demonstra fluxos de compra no navegador e upload no TikTok de ponta a ponta usando o MiMo-V2-Omni mais o OpenClaw.
  • Enquadramento de percepção para ação: o modelo é treinado para conectar o que vê com o que deve fazer em seguida, que é a diferença central entre um modelo de demonstração e um modelo orientado a agentes.

Desempenho em benchmarks

mimo-v2-omni

Afirma claramente que o Omni supera o Gemini 3 Pro em compreensão de áudio, supera o Claude Opus 4.6 em compreensão de imagens e tem desempenho equivalente aos modelos de raciocínio mais fortes em benchmarks de produtividade orientada a agentes.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

ModeloPonto forte principalContexto / escalaMelhor adequação
MiMo-V2-OmniPercepção multimodal + ação de agenteComprimento de contexto público não informado na página do OmniAgentes de áudio, imagem, vídeo, UI e navegador
MiMo-V2-ProMaior modelo agente carro-chefeContexto de até 1M tokens; 1T+ parâmetros, 42B ativosOrquestração pesada de agentes e trabalho de longo horizonte
MiMo-V2-FlashRaciocínio e codificação rápidosContexto de 256K; 309B total, 15B ativosRaciocínio eficiente, codificação e tarefas de agentes de alto rendimento

Melhores casos de uso

O MiMo-V2-Omni é a escolha certa quando seu fluxo de trabalho depende de entradas ou saídas que não são apenas texto: compreensão de tela, análise de voz e áudio, revisão de vídeo, automação de navegador, assistentes multimodais e loops de agente no estilo robótica. Se sua carga de trabalho for predominantemente apenas texto e você se importar mais com velocidade bruta ou contexto máximo, os modelos irmãos Pro e Flash são as alternativas mais óbvias.

FAQ

What can the MiMo-V2-Omni API understand besides text?

MiMo-V2-Omni is built for image, video, audio, and undfied perceptual system rather than separate modality add-ons, which makes it a better fit for multimodal agents than a text-only LLM.

Can MiMo-V2-Omni API process audio and video together?

Yes. the model supports native audio-video joint input for video comprehension, so it can reason over what is happening on screen and in the soundtrack at the same time.

How long of an audio file can MiMo-V2-Omni API handle?

MiMo-V2-Omni supports continuous audio understanding beyond 10 hours. That is a strong signal that it is meant for long-form audio analysis rather than short clip transcription only.

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Use MiMo-V2-Omni when the job depends on multimodal perception: screens, videos, voice, or audio-visual workflow mostly agentic text work and you want the largest flagship context window, which Xiaomi says reaches 1M tokens.

Does MiMo-V2-Omni API support structured tool?

Yes. MiMo-V2-Omni natively supports structured tool calling, function execution, and UI grounding, which is exactly what you want for agent automation.

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Yes. Xiaomi’s demos show it scanning shopping adviceing on JD.com, and completing a TikTok upload workflow through OpenClaw. That makes it a strong fit for browser agents, workflow automation, and UI-driven tasks.

Preços para mimo-v2-omni

Explore preços competitivos para mimo-v2-omni, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como mimo-v2-omni pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.32/M
Saída:$1.6/M
Entrada:$0.4/M
Saída:$2/M
-20%

Código de exemplo e API para mimo-v2-omni

Acesse código de exemplo abrangente e recursos de API para mimo-v2-omni para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do mimo-v2-omni em seus projetos.
POST
/v1/chat/completions
POST
/v1/messages
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("
--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-omni: built-in web_search tool (pass as top-level tools param)
completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who is Lei Jun?"},
    ],
    tools=[{"type": "web_search", "force_search": True, "max_keyword": 3, "limit": 1}],
    tool_choice="auto",
    extra_body={"thinking": {"type": "disabled"}},
)

msg = completion.choices[0].message
if msg.content:
    print(msg.content)

# annotations are populated when web_search runs (content may be null on search-only responses)
raw = completion.model_dump()
annotations = raw["choices"][0]["message"].get("annotations") or []
if annotations:
    print("\n--- Sources ---")
    for ann in annotations:
        c = ann.get("url_citation") or {}
        print(f"[{c.get('title')}] {c.get('url')}")

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";

// mimo-v2-omni: use fetch for web_search (non-standard tool type unsupported by openai SDK)
const resp = await fetch("https://api.cometapi.com/v1/chat/completions", {
  method: "POST",
  headers: { Authorization: `Bearer ${api_key}`, "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "mimo-v2-omni",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: "Who is Lei Jun?" },
    ],
    tools: [{ type: "web_search", force_search: true, max_keyword: 3, limit: 1 }],
    tool_choice: "auto",
    thinking: { type: "disabled" },
  }),
});

const data = await resp.json();
const msg = data.choices[0].message;
if (msg.content) console.log(msg.content);

const annotations = msg.annotations ?? [];
if (annotations.length) {
  console.log("\n--- Sources ---");
  for (const ann of annotations) {
    const c = ann.url_citation ?? {};
    console.log(`[${c.title}] ${c.url}`);
  }
}

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2-omni",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Who is Lei Jun?"}
    ],
    "tools": [{"type": "web_search", "force_search": true, "max_keyword": 3, "limit": 1}],
    "thinking": {"type": "disabled"}
  }'