Aperçu de MiMo-V2-Omni
MiMo-V2-Omni est le modèle de base omni de Xiaomi MiMo pour la plateforme API, conçu pour voir, entendre, lire et agir dans le même flux de travail. Xiaomi le présente comme un modèle d’agent multimodal qui combine la compréhension des images, des vidéos, de l’audio et du texte avec l’appel d’outils structuré, l’exécution de fonctions et l’ancrage UI.
Spécifications techniques
| Élément | MiMo-V2-Omni |
|---|---|
| Fournisseur | Xiaomi MiMo |
| Famille de modèles | MiMo-V2 |
| Modalité | Image, vidéo, audio, texte |
| Type de sortie | Texte |
| Prise en charge audio native | Oui |
| Entrée audio-vidéo conjointe native | Oui |
| Appel d’outils structuré | Oui |
| Exécution de fonctions | Oui |
| Ancrage UI | Oui |
| Gestion de l’audio longue durée | Plus de 10 heures de compréhension audio continue |
| Date de sortie | 2026-03-18 |
| Longueur de contexte numérique publique | Non indiquée sur la page officielle d’Omni |
Qu’est-ce que MiMo-V2-Omni ?
MiMo-V2-Omni est conçu pour les systèmes agentiques qui ont besoin de perception et d’action dans un seul modèle. Xiaomi indique que le modèle fusionne des encodeurs dédiés pour l’image, la vidéo et l’audio dans une seule architecture partagée, puis l’entraîne à anticiper ce qui devrait se passer ensuite plutôt qu’à seulement décrire ce qui est déjà visible.
Principales fonctionnalités de MiMo-V2-Omni
- Perception multimodale unifiée : l’image, la vidéo, l’audio et le texte sont traités comme un seul flux perceptif plutôt que comme des modules séparés.
- Sorties prêtes pour les agents : le modèle prend nativement en charge l’appel d’outils structuré, l’exécution de fonctions et l’ancrage UI pour de véritables frameworks d’agents.
- Compréhension audio longue durée : Xiaomi affirme qu’il peut traiter un flux audio continu de plus de 10 heures, ce qui est inhabituellement performant pour un modèle omni généraliste.
- Raisonnement audio-vidéo natif : la page officielle met en avant l’entrée audio-vidéo conjointe pour la compréhension vidéo, au lieu d’un pipeline basé uniquement sur une transcription textuelle.
- Exécution dans le navigateur et des workflows : Xiaomi montre des flux complets d’achat dans le navigateur et de téléversement sur TikTok en utilisant MiMo-V2-Omni avec OpenClaw.
- Cadre perception-vers-action : le modèle est entraîné à relier ce qu’il voit à ce qu’il doit faire ensuite, ce qui constitue la différence essentielle entre un modèle de démonstration et un modèle agentique.
Performances de benchmark

Il est clairement indiqué qu’Omni dépasse Gemini 3 Pro en compréhension audio, dépasse Claude Opus 4.6 en compréhension d’image, et offre des performances comparables à celles des meilleurs modèles de raisonnement sur les benchmarks de productivité agentique.
MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash
| Modèle | Point fort principal | Contexte / échelle | Cas d’usage idéal |
|---|---|---|---|
| MiMo-V2-Omni | Perception multimodale + action agentique | Longueur de contexte publique non indiquée sur la page Omni | Agents audio, image, vidéo, UI et navigateur |
| MiMo-V2-Pro | Plus grand modèle agentique flagship | Jusqu’à 1M tokens de contexte ; plus de 1T de paramètres, 42B actifs | Orchestration agentique lourde et travail de longue haleine |
| MiMo-V2-Flash | Raisonnement et code rapides | Contexte de 256K ; 309B au total, 15B actifs | Raisonnement efficace, code et tâches agentiques à haut débit |
Meilleurs cas d’usage
MiMo-V2-Omni est le bon choix lorsque votre flux de travail dépend d’entrées ou de sorties non textuelles : compréhension d’écran, analyse vocale et audio, revue vidéo, automatisation du navigateur, assistants multimodaux et boucles agentiques de type robotique. Si votre charge de travail est principalement textuelle et que vous accordez plus d’importance à la vitesse brute ou au contexte maximal, les modèles Pro et Flash de la même famille sont des alternatives plus évidentes.