Aperçu de MiMo-V2-Flash
MiMo-V2-Flash est le modèle de raisonnement Mixture-of-Experts à poids ouverts de Xiaomi MiMo pour l’API MiMo-V2-Flash, conçu autour d’une inférence rapide, du codage et de flux de travail orientés agents. La fiche modèle et le rapport technique le décrivent comme un MoE de 309B paramètres avec 15B paramètres actifs, une conception d’attention hybride et une prédiction multi-jetons pour un décodage plus rapide.
Spécifications techniques
| Élément | MiMo-V2-Flash |
|---|---|
| Fournisseur | Xiaomi MiMo |
| Famille de modèles | MiMo-V2 |
| Type de modèle | Modèle de langage Mixture-of-Experts (MoE) |
| Paramètres totaux | 309B |
| Paramètres actifs | 15B |
| Longueur de contexte native | 32K |
| Longueur de contexte étendue | Jusqu’à 256K |
| Schéma d’attention | Attention à fenêtre glissante hybride (rapport 5:1 entre SWA et attention globale) |
| Taille de la fenêtre glissante | 128 jetons |
| Couches MTP | 3 |
| Volume d’entraînement | 27T jetons |
| Modalité de sortie | Texte |
| Date de publication | 2025-12-16 |
| Licence du dépôt | Apache-2.0 (dépôt GitHub) |
Qu’est-ce que MiMo-V2-Flash ?
MiMo-V2-Flash est le modèle de fondation de Xiaomi, efficace en inférence, pour des charges de travail fortement axées sur le raisonnement. Il est conçu pour concilier la gestion de longs contextes avec des coûts de service plus faibles, en utilisant une attention à fenêtre glissante pour réduire la pression sur le cache et une prédiction multi-jetons pour accélérer le décodage.
Principales fonctionnalités de MiMo-V2-Flash
- Efficacité MoE avec une faible empreinte active : 309B paramètres totaux mais seulement 15B actifs par jeton, ce qui explique en grande partie pourquoi le modèle est positionné pour un service efficace.
- Attention hybride pour les longs contextes : L’architecture alterne cinq couches SWA avec une couche d’attention globale, en utilisant une fenêtre de 128 jetons pour réduire le coût du cache KV.
- Prédiction multi-jetons pour un décodage plus rapide : Le modèle comprend 3 couches MTP, et la documentation technique la décrit comme une optimisation de vitesse et de débit pour la génération.
- Conçu pour des flux de travail orientés agents : Xiaomi le positionne pour des cas d’usage de raisonnement, de codage et d’agents, et la suite d’évaluation inclut SWE-Bench, Terminal-Bench et BrowseComp.
- Prise en charge de longs contextes : Le dépôt indique une prise en charge jusqu’à 256K, tandis que la recette vLLM fournit des conseils pratiques de service pour des valeurs
max-model-lenplus faibles selon le budget mémoire.
Performances sur benchmarks
Le tableau du modèle de base dans le dépôt montre que MiMo-V2-Flash se comporte de manière compétitive face à de plus grands modèles ouverts sur des tâches de connaissances générales, de mathématiques, de codage et de long contexte. Le tableau après post-entraînement met en évidence de solides résultats orientés agents et en raisonnement.
| Benchmark | MiMo-V2-Flash | Ce que cela suggère |
|---|---|---|
| MMLU-Pro | 84.9 | Solide raisonnement général |
| GPQA-Diamond | 83.7 | Solides performances en QA difficile |
| AIME 2025 | 94.1 | Solide raisonnement en mathématiques |
| LiveCodeBench-v6 | 80.6 | Capacité de codage compétitive |
| SWE-Bench Verified | 73.4 | Solides performances d’agents logiciels |
| SWE-Bench Multilingual | 71.7 | Bonne couverture multilingue en codage/agents |
| Terminal-Bench 2.0 | 38.5 | Utile mais pas au niveau des meilleurs sur les tâches fortement orientées terminal |
| NIAH-Multi 256K | 96.7 | La récupération en long contexte reste solide à 256K |
MiMo-V2-Flash vs modèles de raisonnement proches
| Modèle | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Notes |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Modèle de raisonnement à poids ouverts efficace |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Proche en raisonnement, plus faible sur les tâches terminal |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Forte performance sur terminal, niveau de raisonnement similaire |
Meilleurs cas d’usage
MiMo-V2-Flash convient particulièrement lorsque vous avez besoin d’un modèle capable de raisonner sur de longues entrées, d’aider aux tâches de codage et de rester efficace en production. C’est un excellent choix pour le RAG axé documents, les flux d’agents multi-étapes, l’assistance au code et l’analyse en long contexte lorsque le coût de service compte.
Limites
MiMo-V2-Flash est optimisé pour l’efficacité d’inférence ; le débit réel dépend donc du batching, du parallélisme tensoriel et de la configuration de service. Le guide vLLM montre également que les réglages pratiques de max-model-len peuvent être inférieurs aux 256K annoncés, selon les compromis de mémoire et de latence.