Aperçu de MiMo-V2-Flash

MiMo-V2-Flash est le modèle de raisonnement Mixture-of-Experts à poids ouverts de Xiaomi MiMo pour l’API MiMo-V2-Flash, conçu autour d’une inférence rapide, du codage et de flux de travail orientés agents. La fiche modèle et le rapport technique le décrivent comme un MoE de 309B paramètres avec 15B paramètres actifs, une conception d’attention hybride et une prédiction multi-jetons pour un décodage plus rapide.

Spécifications techniques

Élément	MiMo-V2-Flash
Fournisseur	Xiaomi MiMo
Famille de modèles	MiMo-V2
Type de modèle	Modèle de langage Mixture-of-Experts (MoE)
Paramètres totaux	309B
Paramètres actifs	15B
Longueur de contexte native	32K
Longueur de contexte étendue	Jusqu’à 256K
Schéma d’attention	Attention à fenêtre glissante hybride (rapport 5:1 entre SWA et attention globale)
Taille de la fenêtre glissante	128 jetons
Couches MTP	3
Volume d’entraînement	27T jetons
Modalité de sortie	Texte
Date de publication	2025-12-16
Licence du dépôt	Apache-2.0 (dépôt GitHub)

Qu’est-ce que MiMo-V2-Flash ?

MiMo-V2-Flash est le modèle de fondation de Xiaomi, efficace en inférence, pour des charges de travail fortement axées sur le raisonnement. Il est conçu pour concilier la gestion de longs contextes avec des coûts de service plus faibles, en utilisant une attention à fenêtre glissante pour réduire la pression sur le cache et une prédiction multi-jetons pour accélérer le décodage.

Principales fonctionnalités de MiMo-V2-Flash

Efficacité MoE avec une faible empreinte active : 309B paramètres totaux mais seulement 15B actifs par jeton, ce qui explique en grande partie pourquoi le modèle est positionné pour un service efficace.
Attention hybride pour les longs contextes : L’architecture alterne cinq couches SWA avec une couche d’attention globale, en utilisant une fenêtre de 128 jetons pour réduire le coût du cache KV.
Prédiction multi-jetons pour un décodage plus rapide : Le modèle comprend 3 couches MTP, et la documentation technique la décrit comme une optimisation de vitesse et de débit pour la génération.
Conçu pour des flux de travail orientés agents : Xiaomi le positionne pour des cas d’usage de raisonnement, de codage et d’agents, et la suite d’évaluation inclut SWE-Bench, Terminal-Bench et BrowseComp.
Prise en charge de longs contextes : Le dépôt indique une prise en charge jusqu’à 256K, tandis que la recette vLLM fournit des conseils pratiques de service pour des valeurs max-model-len plus faibles selon le budget mémoire.

Performances sur benchmarks

Le tableau du modèle de base dans le dépôt montre que MiMo-V2-Flash se comporte de manière compétitive face à de plus grands modèles ouverts sur des tâches de connaissances générales, de mathématiques, de codage et de long contexte. Le tableau après post-entraînement met en évidence de solides résultats orientés agents et en raisonnement.

Benchmark	MiMo-V2-Flash	Ce que cela suggère
MMLU-Pro	84.9	Solide raisonnement général
GPQA-Diamond	83.7	Solides performances en QA difficile
AIME 2025	94.1	Solide raisonnement en mathématiques
LiveCodeBench-v6	80.6	Capacité de codage compétitive
SWE-Bench Verified	73.4	Solides performances d’agents logiciels
SWE-Bench Multilingual	71.7	Bonne couverture multilingue en codage/agents
Terminal-Bench 2.0	38.5	Utile mais pas au niveau des meilleurs sur les tâches fortement orientées terminal
NIAH-Multi 256K	96.7	La récupération en long contexte reste solide à 256K

MiMo-V2-Flash vs modèles de raisonnement proches

Modèle	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Notes
MiMo-V2-Flash	84.9	73.4	38.5	Modèle de raisonnement à poids ouverts efficace
Kimi-K2 Thinking	84.6	71.3	35.7	Proche en raisonnement, plus faible sur les tâches terminal
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Forte performance sur terminal, niveau de raisonnement similaire

Meilleurs cas d’usage

MiMo-V2-Flash convient particulièrement lorsque vous avez besoin d’un modèle capable de raisonner sur de longues entrées, d’aider aux tâches de codage et de rester efficace en production. C’est un excellent choix pour le RAG axé documents, les flux d’agents multi-étapes, l’assistance au code et l’analyse en long contexte lorsque le coût de service compte.

Limites

MiMo-V2-Flash est optimisé pour l’efficacité d’inférence ; le débit réel dépend donc du batching, du parallélisme tensoriel et de la configuration de service. Le guide vLLM montre également que les réglages pratiques de max-model-len peuvent être inférieurs aux 256K annoncés, selon les compromis de mémoire et de latence.

mimo-v2-flash

Aperçu de MiMo-V2-Flash

Spécifications techniques

Qu’est-ce que MiMo-V2-Flash ?

Principales fonctionnalités de MiMo-V2-Flash

Performances sur benchmarks

MiMo-V2-Flash vs modèles de raisonnement proches

Meilleurs cas d’usage

Limites

FAQ

What does the MiMo-V2-Flash API do best?

How much context can the MiMo-V2-Flash API handle?

Can MiMo-V2-Flash API handle coding and terminal-style agents?

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

What are the known limitations of MiMo-V2-Flash API?

How do I integrate MiMo-V2-Flash API with vLLM?

Fonctionnalités pour mimo-v2-flash

Tarification pour mimo-v2-flash

Exemple de code et API pour mimo-v2-flash

Plus de modèles