Visão geral do MiMo-V2-Omni

O MiMo-V2-Omni é o modelo base omni da Xiaomi MiMo para a plataforma de API, criado para ver, ouvir, ler e agir no mesmo fluxo de trabalho. A Xiaomi o posiciona como um modelo de agente multimodal que combina compreensão de imagem, vídeo, áudio e texto com chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI.

Especificações técnicas

Item	MiMo-V2-Omni
Fornecedor	Xiaomi MiMo
Família de modelos	MiMo-V2
Modalidade	Imagem, vídeo, áudio, texto
Tipo de saída	Texto
Suporte nativo a áudio	Sim
Entrada conjunta áudio-vídeo nativa	Sim
Chamadas estruturadas de ferramentas	Sim
Execução de funções	Sim
Ancoragem de UI	Sim
Tratamento de áudio longo	Compreensão contínua de áudio por mais de 10 horas
Data de lançamento	2026-03-18
Comprimento de contexto público	Não informado na página oficial do Omni

O que é o MiMo-V2-Omni?

O MiMo-V2-Omni foi projetado para sistemas orientados a agentes que precisam de percepção e ação em um único modelo. A Xiaomi afirma que o modelo funde codificadores dedicados de imagem, vídeo e áudio em um backbone compartilhado e, em seguida, o treina para antecipar o que deve acontecer em seguida, em vez de apenas descrever o que já está visível.

Principais recursos do MiMo-V2-Omni

Percepção multimodal unificada: imagem, vídeo, áudio e texto são tratados como um único fluxo perceptual, e não como complementos separados.
Saídas preparadas para agentes: o modelo oferece suporte nativo a chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI para frameworks de agentes reais.
Compreensão de áudio de longa duração: a Xiaomi afirma que ele pode lidar com áudio contínuo por mais de 10 horas, o que é incomumente forte para um modelo omni geral.
Raciocínio áudio-vídeo nativo: a página oficial destaca entrada conjunta áudio-vídeo para compreensão de vídeo em vez de um pipeline de transcrição apenas em texto.
Execução de navegador e fluxos de trabalho: a Xiaomi demonstra fluxos de compra no navegador e upload no TikTok de ponta a ponta usando o MiMo-V2-Omni mais o OpenClaw.
Enquadramento de percepção para ação: o modelo é treinado para conectar o que vê com o que deve fazer em seguida, que é a diferença central entre um modelo de demonstração e um modelo orientado a agentes.

Desempenho em benchmarks

mimo-v2-omni

Afirma claramente que o Omni supera o Gemini 3 Pro em compreensão de áudio, supera o Claude Opus 4.6 em compreensão de imagens e tem desempenho equivalente aos modelos de raciocínio mais fortes em benchmarks de produtividade orientada a agentes.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Modelo	Ponto forte principal	Contexto / escala	Melhor adequação
MiMo-V2-Omni	Percepção multimodal + ação de agente	Comprimento de contexto público não informado na página do Omni	Agentes de áudio, imagem, vídeo, UI e navegador
MiMo-V2-Pro	Maior modelo agente carro-chefe	Contexto de até 1M tokens; 1T+ parâmetros, 42B ativos	Orquestração pesada de agentes e trabalho de longo horizonte
MiMo-V2-Flash	Raciocínio e codificação rápidos	Contexto de 256K; 309B total, 15B ativos	Raciocínio eficiente, codificação e tarefas de agentes de alto rendimento

Melhores casos de uso

O MiMo-V2-Omni é a escolha certa quando seu fluxo de trabalho depende de entradas ou saídas que não são apenas texto: compreensão de tela, análise de voz e áudio, revisão de vídeo, automação de navegador, assistentes multimodais e loops de agente no estilo robótica. Se sua carga de trabalho for predominantemente apenas texto e você se importar mais com velocidade bruta ou contexto máximo, os modelos irmãos Pro e Flash são as alternativas mais óbvias.

mimo-v2-omni

Visão geral do MiMo-V2-Omni

Especificações técnicas

O que é o MiMo-V2-Omni?

Principais recursos do MiMo-V2-Omni

Desempenho em benchmarks

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Melhores casos de uso

FAQ

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Recursos para mimo-v2-omni

Preços para mimo-v2-omni

Código de exemplo e API para mimo-v2-omni

Mais modelos