Descripción general de MiMo-V2-Omni

MiMo-V2-Omni es el modelo base omni de Xiaomi MiMo para la plataforma de API, creado para ver, oír, leer y actuar en el mismo flujo de trabajo. Xiaomi lo posiciona como un modelo de agente multimodal que combina la comprensión de imagen, video, audio y texto con invocación estructurada de herramientas, ejecución de funciones y anclaje de UI.

Especificaciones técnicas

Elemento	MiMo-V2-Omni
Proveedor	Xiaomi MiMo
Familia de modelos	MiMo-V2
Modalidad	Imagen, video, audio, texto
Tipo de salida	Texto
Compatibilidad nativa con audio	Sí
Entrada conjunta nativa de audio y video	Sí
Invocación estructurada de herramientas	Sí
Ejecución de funciones	Sí
Anclaje de UI	Sí
Manejo de audio de larga duración	Más de 10 horas de comprensión continua de audio
Fecha de lanzamiento	2026-03-18
Longitud numérica de contexto pública	No se indica en la página oficial de Omni

¿Qué es MiMo-V2-Omni?

MiMo-V2-Omni está diseñado para sistemas orientados a agentes que necesitan percepción y acción en un mismo modelo. Xiaomi dice que el modelo fusiona codificadores dedicados de imagen, video y audio en un mismo backbone compartido, y luego lo entrena para anticipar lo que debería ocurrir a continuación en lugar de limitarse a describir lo que ya es visible.

Funciones principales de MiMo-V2-Omni

Percepción multimodal unificada: imagen, video, audio y texto se gestionan como un solo flujo perceptivo en lugar de complementos separados.
Salidas listas para agentes: el modelo admite de forma nativa la invocación estructurada de herramientas, la ejecución de funciones y el anclaje de UI para marcos de agentes reales.
Comprensión de audio de formato largo: Xiaomi afirma que puede manejar audio continuo de más de 10 horas, lo cual es inusualmente sólido para un modelo omni general.
Razonamiento nativo audio‑video: la página oficial destaca la entrada conjunta de audio y video para la comprensión de video en lugar de una canalización de transcripción solo en texto.
Ejecución en navegador y flujos de trabajo: Xiaomi demuestra flujos de compra en el navegador y carga en TikTok de extremo a extremo usando MiMo-V2-Omni más OpenClaw.
Enfoque de percepción a acción: el modelo se entrena para conectar lo que ve con lo que debería hacer a continuación, que es la diferencia central entre un modelo de demostración y un modelo orientado a agentes.

Rendimiento en benchmarks

mimo-v2-omni

Se afirma claramente que Omni supera a Gemini 3 Pro en comprensión de audio, supera a Claude Opus 4.6 en comprensión de imágenes y rinde a la par de los modelos de razonamiento más fuertes en benchmarks de productividad orientados a agentes.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Modelo	Fortaleza principal	Contexto / escala	Más adecuado para
MiMo-V2-Omni	Percepción multimodal + acción de agente	La longitud de contexto pública no se indica en la página de Omni	Agentes de audio, imagen, video, UI y navegador
MiMo-V2-Pro	El mayor modelo insignia de agente	Hasta 1M tokens de contexto; 1T+ parámetros, 42B activos	Orquestación pesada de agentes y trabajo de horizonte largo
MiMo-V2-Flash	Razonamiento y programación rápidos	Contexto de 256K; 309B total, 15B activos	Razonamiento eficiente, programación y tareas de agente de alto rendimiento

Mejores casos de uso

MiMo-V2-Omni es la elección adecuada cuando tu flujo de trabajo depende de entradas o salidas que no son texto: comprensión de pantalla, análisis de voz y audio, revisión de video, automatización del navegador, asistentes multimodales y bucles de agente de estilo robótico. Si tu carga de trabajo es mayormente solo texto y te importa más la velocidad bruta o el contexto máximo, los modelos hermanos Pro y Flash son las alternativas más obvias.

mimo-v2-omni

Descripción general de MiMo-V2-Omni

Especificaciones técnicas

¿Qué es MiMo-V2-Omni?

Funciones principales de MiMo-V2-Omni

Rendimiento en benchmarks

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Mejores casos de uso

Preguntas Frecuentes

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Características para mimo-v2-omni

Precios para mimo-v2-omni

Código de ejemplo y API para mimo-v2-omni

Más modelos