Descripción general de MiMo-V2-Omni
MiMo-V2-Omni es el modelo base omni de Xiaomi MiMo para la plataforma de API, creado para ver, oír, leer y actuar en el mismo flujo de trabajo. Xiaomi lo posiciona como un modelo de agente multimodal que combina la comprensión de imagen, video, audio y texto con invocación estructurada de herramientas, ejecución de funciones y anclaje de UI.
Especificaciones técnicas
| Elemento | MiMo-V2-Omni |
|---|---|
| Proveedor | Xiaomi MiMo |
| Familia de modelos | MiMo-V2 |
| Modalidad | Imagen, video, audio, texto |
| Tipo de salida | Texto |
| Compatibilidad nativa con audio | Sí |
| Entrada conjunta nativa de audio y video | Sí |
| Invocación estructurada de herramientas | Sí |
| Ejecución de funciones | Sí |
| Anclaje de UI | Sí |
| Manejo de audio de larga duración | Más de 10 horas de comprensión continua de audio |
| Fecha de lanzamiento | 2026-03-18 |
| Longitud numérica de contexto pública | No se indica en la página oficial de Omni |
¿Qué es MiMo-V2-Omni?
MiMo-V2-Omni está diseñado para sistemas orientados a agentes que necesitan percepción y acción en un mismo modelo. Xiaomi dice que el modelo fusiona codificadores dedicados de imagen, video y audio en un mismo backbone compartido, y luego lo entrena para anticipar lo que debería ocurrir a continuación en lugar de limitarse a describir lo que ya es visible.
Funciones principales de MiMo-V2-Omni
- Percepción multimodal unificada: imagen, video, audio y texto se gestionan como un solo flujo perceptivo en lugar de complementos separados.
- Salidas listas para agentes: el modelo admite de forma nativa la invocación estructurada de herramientas, la ejecución de funciones y el anclaje de UI para marcos de agentes reales.
- Comprensión de audio de formato largo: Xiaomi afirma que puede manejar audio continuo de más de 10 horas, lo cual es inusualmente sólido para un modelo omni general.
- Razonamiento nativo audio‑video: la página oficial destaca la entrada conjunta de audio y video para la comprensión de video en lugar de una canalización de transcripción solo en texto.
- Ejecución en navegador y flujos de trabajo: Xiaomi demuestra flujos de compra en el navegador y carga en TikTok de extremo a extremo usando MiMo-V2-Omni más OpenClaw.
- Enfoque de percepción a acción: el modelo se entrena para conectar lo que ve con lo que debería hacer a continuación, que es la diferencia central entre un modelo de demostración y un modelo orientado a agentes.
Rendimiento en benchmarks

Se afirma claramente que Omni supera a Gemini 3 Pro en comprensión de audio, supera a Claude Opus 4.6 en comprensión de imágenes y rinde a la par de los modelos de razonamiento más fuertes en benchmarks de productividad orientados a agentes.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Modelo | Fortaleza principal | Contexto / escala | Más adecuado para |
|---|---|---|---|
| MiMo-V2-Omni | Percepción multimodal + acción de agente | La longitud de contexto pública no se indica en la página de Omni | Agentes de audio, imagen, video, UI y navegador |
| MiMo-V2-Pro | El mayor modelo insignia de agente | Hasta 1M tokens de contexto; 1T+ parámetros, 42B activos | Orquestación pesada de agentes y trabajo de horizonte largo |
| MiMo-V2-Flash | Razonamiento y programación rápidos | Contexto de 256K; 309B total, 15B activos | Razonamiento eficiente, programación y tareas de agente de alto rendimiento |
Mejores casos de uso
MiMo-V2-Omni es la elección adecuada cuando tu flujo de trabajo depende de entradas o salidas que no son texto: comprensión de pantalla, análisis de voz y audio, revisión de video, automatización del navegador, asistentes multimodales y bucles de agente de estilo robótico. Si tu carga de trabajo es mayormente solo texto y te importa más la velocidad bruta o el contexto máximo, los modelos hermanos Pro y Flash son las alternativas más obvias.