Descripción general de MiMo-V2-Flash

MiMo-V2-Flash es el modelo de razonamiento de pesos abiertos Mixture-of-Experts de Xiaomi MiMo para la API MiMo-V2-Flash, concebido para inferencia rápida, programación y flujos de trabajo agénticos. La ficha del modelo y el informe técnico lo describen como un MoE de 309B parámetros con 15B activos, un diseño de atención híbrida y predicción de múltiples tokens para una decodificación más rápida.

Especificaciones técnicas

Elemento	MiMo-V2-Flash
Proveedor	Xiaomi MiMo
Familia de modelos	MiMo-V2
Tipo de modelo	Modelo de lenguaje de Mezcla de expertos (MoE)
Parámetros totales	309B
Parámetros activos	15B
Longitud de contexto nativa	32K
Longitud de contexto ampliada	Hasta 256K
Diseño de atención	Atención de ventana deslizante híbrida (relación 5:1 de SWA a atención global)
Tamaño de ventana deslizante	128 tokens
Capas MTP	3
Escala de entrenamiento	27T tokens
Modalidad de salida	Texto
Fecha de lanzamiento	2025-12-16
Licencia del repositorio	Apache-2.0 (repositorio de GitHub)

¿Qué es MiMo-V2-Flash?

MiMo-V2-Flash es el modelo base de Xiaomi optimizado para inferencia en cargas de trabajo intensivas en razonamiento. Está diseñado para equilibrar la gestión de contextos largos con un menor coste de servicio, empleando atención de ventana deslizante para reducir la presión sobre la caché y predicción de múltiples tokens para acelerar la decodificación.

Características principales de MiMo-V2-Flash

Eficiencia MoE con una huella activa pequeña: 309B de parámetros totales pero solo 15B activos por token, lo que explica en gran medida por qué el modelo está orientado a un servicio eficiente.
Atención híbrida para contextos largos: La arquitectura alterna cinco capas SWA con una capa de atención global, usando una ventana de 128 tokens para reducir el coste de la caché KV.
Predicción de múltiples tokens para una decodificación más rápida: El modelo incluye 3 capas MTP, y la documentación técnica describe esto como una optimización de velocidad y rendimiento para la generación.
Diseñado para flujos de trabajo agénticos: Xiaomi lo posiciona para casos de uso de razonamiento, programación y agentes, y el conjunto de evaluaciones incluye SWE-Bench, Terminal-Bench y BrowseComp.
Compatibilidad con contexto largo: El repositorio informa compatibilidad de hasta 256K, mientras que la receta de vLLM ofrece orientación práctica de servicio para valores de max-model-len más bajos según el presupuesto de memoria.

Rendimiento en benchmarks

La tabla del modelo base en el repositorio muestra que MiMo-V2-Flash compite favorablemente frente a modelos abiertos más grandes en tareas de conocimiento general, matemáticas, programación y contexto largo. La tabla posterior al entrenamiento destaca sólidos resultados en agentes y razonamiento.

Benchmark	MiMo-V2-Flash	Lo que sugiere
MMLU-Pro	84.9	Razonamiento amplio sólido
GPQA-Diamond	83.7	Sólido desempeño en QA difícil
AIME 2025	94.1	Sólido razonamiento matemático
LiveCodeBench-v6	80.6	Capacidad de programación competitiva
SWE-Bench Verified	73.4	Sólido desempeño de agentes de software
SWE-Bench Multilingual	71.7	Buena cobertura multilingüe en programación/agentes
Terminal-Bench 2.0	38.5	Útil pero no de primer nivel en tareas intensivas de terminal
NIAH-Multi 256K	96.7	La recuperación en contexto largo se mantiene sólida en 256K

MiMo-V2-Flash frente a modelos de razonamiento cercanos

Modelo	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Notas
MiMo-V2-Flash	84.9	73.4	38.5	Modelo de razonamiento de pesos abiertos eficiente
Kimi-K2 Thinking	84.6	71.3	35.7	Cercano en razonamiento, más débil en tareas de terminal
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Fuerte rendimiento en terminal, razonamiento similar

Mejores casos de uso

MiMo-V2-Flash encaja mejor cuando se necesita un modelo que pueda razonar sobre entradas largas, ayudar con tareas de programación y mantenerse eficiente en producción. Es una opción sólida para RAG orientado a documentos, flujos de trabajo de agentes de múltiples pasos, asistencia de código y análisis de contexto largo donde el coste de servicio importa.

Limitaciones

MiMo-V2-Flash está optimizado para eficiencia de inferencia, por lo que el rendimiento real depende del batching, el paralelismo tensorial y la configuración de servicio. La guía de vLLM también muestra que los valores prácticos de max-model-len pueden ser inferiores al titular de 256K según las compensaciones de memoria y latencia.

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

Support up to 256K context, with a native 32K pretraining length that was later extended.

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.