Visão geral do MiMo-V2-Omni
O MiMo-V2-Omni é o modelo base omni da Xiaomi MiMo para a plataforma de API, criado para ver, ouvir, ler e agir no mesmo fluxo de trabalho. A Xiaomi o posiciona como um modelo de agente multimodal que combina compreensão de imagem, vídeo, áudio e texto com chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI.
Especificações técnicas
| Item | MiMo-V2-Omni |
|---|---|
| Fornecedor | Xiaomi MiMo |
| Família de modelos | MiMo-V2 |
| Modalidade | Imagem, vídeo, áudio, texto |
| Tipo de saída | Texto |
| Suporte nativo a áudio | Sim |
| Entrada conjunta áudio-vídeo nativa | Sim |
| Chamadas estruturadas de ferramentas | Sim |
| Execução de funções | Sim |
| Ancoragem de UI | Sim |
| Tratamento de áudio longo | Compreensão contínua de áudio por mais de 10 horas |
| Data de lançamento | 2026-03-18 |
| Comprimento de contexto público | Não informado na página oficial do Omni |
O que é o MiMo-V2-Omni?
O MiMo-V2-Omni foi projetado para sistemas orientados a agentes que precisam de percepção e ação em um único modelo. A Xiaomi afirma que o modelo funde codificadores dedicados de imagem, vídeo e áudio em um backbone compartilhado e, em seguida, o treina para antecipar o que deve acontecer em seguida, em vez de apenas descrever o que já está visível.
Principais recursos do MiMo-V2-Omni
- Percepção multimodal unificada: imagem, vídeo, áudio e texto são tratados como um único fluxo perceptual, e não como complementos separados.
- Saídas preparadas para agentes: o modelo oferece suporte nativo a chamadas estruturadas de ferramentas, execução de funções e ancoragem de UI para frameworks de agentes reais.
- Compreensão de áudio de longa duração: a Xiaomi afirma que ele pode lidar com áudio contínuo por mais de 10 horas, o que é incomumente forte para um modelo omni geral.
- Raciocínio áudio-vídeo nativo: a página oficial destaca entrada conjunta áudio-vídeo para compreensão de vídeo em vez de um pipeline de transcrição apenas em texto.
- Execução de navegador e fluxos de trabalho: a Xiaomi demonstra fluxos de compra no navegador e upload no TikTok de ponta a ponta usando o MiMo-V2-Omni mais o OpenClaw.
- Enquadramento de percepção para ação: o modelo é treinado para conectar o que vê com o que deve fazer em seguida, que é a diferença central entre um modelo de demonstração e um modelo orientado a agentes.
Desempenho em benchmarks

Afirma claramente que o Omni supera o Gemini 3 Pro em compreensão de áudio, supera o Claude Opus 4.6 em compreensão de imagens e tem desempenho equivalente aos modelos de raciocínio mais fortes em benchmarks de produtividade orientada a agentes.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Modelo | Ponto forte principal | Contexto / escala | Melhor adequação |
|---|---|---|---|
| MiMo-V2-Omni | Percepção multimodal + ação de agente | Comprimento de contexto público não informado na página do Omni | Agentes de áudio, imagem, vídeo, UI e navegador |
| MiMo-V2-Pro | Maior modelo agente carro-chefe | Contexto de até 1M tokens; 1T+ parâmetros, 42B ativos | Orquestração pesada de agentes e trabalho de longo horizonte |
| MiMo-V2-Flash | Raciocínio e codificação rápidos | Contexto de 256K; 309B total, 15B ativos | Raciocínio eficiente, codificação e tarefas de agentes de alto rendimento |
Melhores casos de uso
O MiMo-V2-Omni é a escolha certa quando seu fluxo de trabalho depende de entradas ou saídas que não são apenas texto: compreensão de tela, análise de voz e áudio, revisão de vídeo, automação de navegador, assistentes multimodais e loops de agente no estilo robótica. Se sua carga de trabalho for predominantemente apenas texto e você se importar mais com velocidade bruta ou contexto máximo, os modelos irmãos Pro e Flash são as alternativas mais óbvias.