Descripción general de MiMo-V2-Flash
MiMo-V2-Flash es el modelo de razonamiento de pesos abiertos Mixture-of-Experts de Xiaomi MiMo para la API MiMo-V2-Flash, concebido para inferencia rápida, programación y flujos de trabajo agénticos. La ficha del modelo y el informe técnico lo describen como un MoE de 309B parámetros con 15B activos, un diseño de atención híbrida y predicción de múltiples tokens para una decodificación más rápida.
Especificaciones técnicas
| Elemento | MiMo-V2-Flash |
|---|---|
| Proveedor | Xiaomi MiMo |
| Familia de modelos | MiMo-V2 |
| Tipo de modelo | Modelo de lenguaje de Mezcla de expertos (MoE) |
| Parámetros totales | 309B |
| Parámetros activos | 15B |
| Longitud de contexto nativa | 32K |
| Longitud de contexto ampliada | Hasta 256K |
| Diseño de atención | Atención de ventana deslizante híbrida (relación 5:1 de SWA a atención global) |
| Tamaño de ventana deslizante | 128 tokens |
| Capas MTP | 3 |
| Escala de entrenamiento | 27T tokens |
| Modalidad de salida | Texto |
| Fecha de lanzamiento | 2025-12-16 |
| Licencia del repositorio | Apache-2.0 (repositorio de GitHub) |
¿Qué es MiMo-V2-Flash?
MiMo-V2-Flash es el modelo base de Xiaomi optimizado para inferencia en cargas de trabajo intensivas en razonamiento. Está diseñado para equilibrar la gestión de contextos largos con un menor coste de servicio, empleando atención de ventana deslizante para reducir la presión sobre la caché y predicción de múltiples tokens para acelerar la decodificación.
Características principales de MiMo-V2-Flash
- Eficiencia MoE con una huella activa pequeña: 309B de parámetros totales pero solo 15B activos por token, lo que explica en gran medida por qué el modelo está orientado a un servicio eficiente.
- Atención híbrida para contextos largos: La arquitectura alterna cinco capas SWA con una capa de atención global, usando una ventana de 128 tokens para reducir el coste de la caché KV.
- Predicción de múltiples tokens para una decodificación más rápida: El modelo incluye 3 capas MTP, y la documentación técnica describe esto como una optimización de velocidad y rendimiento para la generación.
- Diseñado para flujos de trabajo agénticos: Xiaomi lo posiciona para casos de uso de razonamiento, programación y agentes, y el conjunto de evaluaciones incluye SWE-Bench, Terminal-Bench y BrowseComp.
- Compatibilidad con contexto largo: El repositorio informa compatibilidad de hasta 256K, mientras que la receta de vLLM ofrece orientación práctica de servicio para valores de
max-model-lenmás bajos según el presupuesto de memoria.
Rendimiento en benchmarks
La tabla del modelo base en el repositorio muestra que MiMo-V2-Flash compite favorablemente frente a modelos abiertos más grandes en tareas de conocimiento general, matemáticas, programación y contexto largo. La tabla posterior al entrenamiento destaca sólidos resultados en agentes y razonamiento.
| Benchmark | MiMo-V2-Flash | Lo que sugiere |
|---|---|---|
| MMLU-Pro | 84.9 | Razonamiento amplio sólido |
| GPQA-Diamond | 83.7 | Sólido desempeño en QA difícil |
| AIME 2025 | 94.1 | Sólido razonamiento matemático |
| LiveCodeBench-v6 | 80.6 | Capacidad de programación competitiva |
| SWE-Bench Verified | 73.4 | Sólido desempeño de agentes de software |
| SWE-Bench Multilingual | 71.7 | Buena cobertura multilingüe en programación/agentes |
| Terminal-Bench 2.0 | 38.5 | Útil pero no de primer nivel en tareas intensivas de terminal |
| NIAH-Multi 256K | 96.7 | La recuperación en contexto largo se mantiene sólida en 256K |
MiMo-V2-Flash frente a modelos de razonamiento cercanos
| Modelo | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Notas |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Modelo de razonamiento de pesos abiertos eficiente |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Cercano en razonamiento, más débil en tareas de terminal |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Fuerte rendimiento en terminal, razonamiento similar |
Mejores casos de uso
MiMo-V2-Flash encaja mejor cuando se necesita un modelo que pueda razonar sobre entradas largas, ayudar con tareas de programación y mantenerse eficiente en producción. Es una opción sólida para RAG orientado a documentos, flujos de trabajo de agentes de múltiples pasos, asistencia de código y análisis de contexto largo donde el coste de servicio importa.
Limitaciones
MiMo-V2-Flash está optimizado para eficiencia de inferencia, por lo que el rendimiento real depende del batching, el paralelismo tensorial y la configuración de servicio. La guía de vLLM también muestra que los valores prácticos de max-model-len pueden ser inferiores al titular de 256K según las compensaciones de memoria y latencia.