Aperçu de MiMo-V2-Omni

MiMo-V2-Omni est le modèle de base omni de Xiaomi MiMo pour la plateforme API, conçu pour voir, entendre, lire et agir dans le même flux de travail. Xiaomi le présente comme un modèle d’agent multimodal qui combine la compréhension des images, des vidéos, de l’audio et du texte avec l’appel d’outils structuré, l’exécution de fonctions et l’ancrage UI.

Spécifications techniques

Élément	MiMo-V2-Omni
Fournisseur	Xiaomi MiMo
Famille de modèles	MiMo-V2
Modalité	Image, vidéo, audio, texte
Type de sortie	Texte
Prise en charge audio native	Oui
Entrée audio-vidéo conjointe native	Oui
Appel d’outils structuré	Oui
Exécution de fonctions	Oui
Ancrage UI	Oui
Gestion de l’audio longue durée	Plus de 10 heures de compréhension audio continue
Date de sortie	2026-03-18
Longueur de contexte numérique publique	Non indiquée sur la page officielle d’Omni

Qu’est-ce que MiMo-V2-Omni ?

MiMo-V2-Omni est conçu pour les systèmes agentiques qui ont besoin de perception et d’action dans un seul modèle. Xiaomi indique que le modèle fusionne des encodeurs dédiés pour l’image, la vidéo et l’audio dans une seule architecture partagée, puis l’entraîne à anticiper ce qui devrait se passer ensuite plutôt qu’à seulement décrire ce qui est déjà visible.

Principales fonctionnalités de MiMo-V2-Omni

Perception multimodale unifiée : l’image, la vidéo, l’audio et le texte sont traités comme un seul flux perceptif plutôt que comme des modules séparés.
Sorties prêtes pour les agents : le modèle prend nativement en charge l’appel d’outils structuré, l’exécution de fonctions et l’ancrage UI pour de véritables frameworks d’agents.
Compréhension audio longue durée : Xiaomi affirme qu’il peut traiter un flux audio continu de plus de 10 heures, ce qui est inhabituellement performant pour un modèle omni généraliste.
Raisonnement audio-vidéo natif : la page officielle met en avant l’entrée audio-vidéo conjointe pour la compréhension vidéo, au lieu d’un pipeline basé uniquement sur une transcription textuelle.
Exécution dans le navigateur et des workflows : Xiaomi montre des flux complets d’achat dans le navigateur et de téléversement sur TikTok en utilisant MiMo-V2-Omni avec OpenClaw.
Cadre perception-vers-action : le modèle est entraîné à relier ce qu’il voit à ce qu’il doit faire ensuite, ce qui constitue la différence essentielle entre un modèle de démonstration et un modèle agentique.

Performances de benchmark

mimo-v2-omni

Il est clairement indiqué qu’Omni dépasse Gemini 3 Pro en compréhension audio, dépasse Claude Opus 4.6 en compréhension d’image, et offre des performances comparables à celles des meilleurs modèles de raisonnement sur les benchmarks de productivité agentique.

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Modèle	Point fort principal	Contexte / échelle	Cas d’usage idéal
MiMo-V2-Omni	Perception multimodale + action agentique	Longueur de contexte publique non indiquée sur la page Omni	Agents audio, image, vidéo, UI et navigateur
MiMo-V2-Pro	Plus grand modèle agentique flagship	Jusqu’à 1M tokens de contexte ; plus de 1T de paramètres, 42B actifs	Orchestration agentique lourde et travail de longue haleine
MiMo-V2-Flash	Raisonnement et code rapides	Contexte de 256K ; 309B au total, 15B actifs	Raisonnement efficace, code et tâches agentiques à haut débit

Meilleurs cas d’usage

MiMo-V2-Omni est le bon choix lorsque votre flux de travail dépend d’entrées ou de sorties non textuelles : compréhension d’écran, analyse vocale et audio, revue vidéo, automatisation du navigateur, assistants multimodaux et boucles agentiques de type robotique. Si votre charge de travail est principalement textuelle et que vous accordez plus d’importance à la vitesse brute ou au contexte maximal, les modèles Pro et Flash de la même famille sont des alternatives plus évidentes.

mimo-v2-omni

Aperçu de MiMo-V2-Omni

Spécifications techniques

Qu’est-ce que MiMo-V2-Omni ?

Principales fonctionnalités de MiMo-V2-Omni

Performances de benchmark

MiMo-V2-Omni vs MiMo-V2-Pro vs MiMo-V2-Flash

Meilleurs cas d’usage

FAQ

What can the MiMo-V2-Omni API understand besides text?

Can MiMo-V2-Omni API process audio and video together?

How long of an audio file can MiMo-V2-Omni API handle?

When should I use MiMo-V2-Omni API instead of MiMo-V2-Pro?

Does MiMo-V2-Omni API support structured tool?

Is MiMo-V2-Omni API good for browser automation and real-world agents?

Fonctionnalités pour mimo-v2-omni

Tarification pour mimo-v2-omni

Exemple de code et API pour mimo-v2-omni

Plus de modèles