Xiaomi amplió MiMo de un solo lanzamiento de modelo a una línea de tres modelos orientada a distintas necesidades de producto. Flash llegó el 16 de diciembre de 2025 como un modelo MoE de código abierto para razonamiento, programación y tareas agénticas, mientras que Pro y Omni se presentaron oficialmente el 18 de marzo de 2026 como el modelo insignia de razonamiento y el modelo multimodal completo, respectivamente.
¿Qué es MiMo V2 y por qué importa?
La serie MiMo V2 de Xiaomi representa el impulso del gigante tecnológico chino hacia modelos fundacionales de IA de frontera optimizados para cargas de trabajo agénticas del mundo real. Lanzada por fases (Flash a finales de 2025/principios de 2026, seguido de Pro y Omni el 18 de marzo de 2026), la línea aprovecha la arquitectura Mixture-of-Experts (MoE) para lograr eficiencia: una enorme cantidad total de parámetros con muchos menos activos durante la inferencia.
MiMo-V2-Omni: Los “ojos y oídos”: un modelo multimodal unificado que fusiona texto, visión, video y audio extendido.
MiMo-V2-Flash: El “trabajador rápido”: ligero, de código abierto y ultraeconómico.
MiMo-V2-Pro: El “insignia del razonamiento”: un cerebro de un billón de parámetros para tareas complejas de múltiples pasos.
Todos los modelos enfatizan tool-calling, razonamiento de contexto largo e integración con frameworks agénticos como OpenClaw, OpenCode y KiloCode. Lo logran a precios drásticamente más bajos que equivalentes de OpenAI, Anthropic o Google—a menudo entre 5 y 10 veces más baratos—mientras se ubican entre los líderes globales y chinos en benchmarks clave.
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: comparación rápida
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | Dic 2025 | 18 mar 2026 | 19 mar 2026 |
| Parameters | 309B total / 15B activos (MoE) | ~1T total / 42B activos (MoE) | Multimodal (parámetros exactos no revelados) |
| Context Window | 256K tokens | 1M tokens (precios por niveles) | 256K tokens |
| Primary Strength | Velocidad y costo (programación/agentes) | Razonamiento y agentes complejos | Percepción multimodal (visión/audio) |
| Benchmarks (Key Examples) | SWE-Bench: 73.4% (#1 código abierto); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 global); PinchBench: 81.0; Rango global #7–8 | Fuerte en tareas de visión/audio (p. ej., compras en navegador, detección de peligros) |
| Official Pricing (per 1M tokens) | $0.09 entrada / $0.29 salida | ≤256K: $1/$3; >256K: $2/$6 | $0.40 entrada / $2 salida |
| Open-Source | Sí (MIT en HF) | No (solo API) | No (solo API) |
| Best For | Tareas rápidas de alto volumen | Agentes de producción y flujos de trabajo largos | Agentes de texto + visión/audio |
| Inference Speed | ~150 tokens/s | Alta (optimizado con MTP) | Latencia multimodal ~2–5s |
Qué es MiMo V2-Omni, MiMo V2-Pro y MiMo V2-Flash
¿Qué es MiMo-V2-Flash? el modelo centrado en la eficiencia
MiMo-V2-Flash es el miembro más conocido y anterior de la familia. En la tarjeta del modelo de Hugging Face, Xiaomi lo describe como un modelo Mixture-of-Experts con 309B parámetros totales y 15B parámetros activos, que utiliza atención híbrida y Multi-Token Prediction para mejorar la velocidad de salida y reducir el costo de inferencia; fue entrenado con 27T tokens usando precisión mixta FP8, admite hasta 256K de contexto y está optimizado para razonamiento de alta velocidad y flujos de trabajo agénticos.
La conclusión práctica es que Flash es el modelo MiMo “cotidiano” más equilibrado para casos de uso intensivos en texto. MiMo-V2-Flash es sólido para razonamiento de contexto largo, ayuda con programación y flujos de trabajo agénticos; ocupa el puesto #1 global entre los modelos de código abierto en SWE-bench Verified y SWE-bench Multilingual, mientras cuesta solo alrededor del 3.5% de lo que cuesta Claude Sonnet 4.5. Esa combinación convierte a Flash en el punto de partida natural si quieres probar la familia sin agotar el presupuesto.
¿Qué es MiMo-V2-Pro? el cerebro insignia para agentes
MiMo-V2-Pro es el modelo insignia centrado en texto de la familia. Xiaomi dice que tiene más de 1T parámetros totales, 42B parámetros activos, una proporción ampliada de Hybrid Attention de 7:1 y una ventana de contexto de 1M tokens; su capacidad de programación supera a Claude 4.6 Sonnet, mientras que su rendimiento general como agente en ClawEval se acerca a Opus 4.6. Es importante destacar que Xiaomi afirma que la estabilidad y precisión en tool-call han mejorado significativamente, que es exactamente el tipo de señal que los desarrolladores buscan al pasar de demos a producción.
¿Qué es MiMo-V2-Omni? el modelo agéntico multimodal
MiMo-V2-Omni es la respuesta multimodal de Xiaomi al problema de los agentes. Fusiona codificadores de imagen, video y audio en una sola backbone compartida, para que el modelo pueda ver, oír y leer como una única corriente perceptiva. Xiaomi también dice que admite de forma nativa structured tool calling, ejecución de funciones y UI grounding, por lo que Omni se posiciona como un modelo agéntico en lugar de un chatbot multimodal de propósito general.
Omni va más allá de la transcripción en comprensión de audio, manejando audio continuo que supera las 10 horas, y supera a Gemini 3 Pro en tareas de audio mientras excede a Claude Opus 4.6 en comprensión de imágenes y alcanza el nivel de los mejores modelos cerrados como Gemini 3. Omni rinde con solidez en flujos de trabajo de navegador y móvil, y sus demos agénticas se ejecutaron con OpenClaw gestionando el control del navegador, el acceso al sistema de archivos y la interacción con el terminal.
Rankable Long-Tail Keyword Insight: Los desarrolladores que buscan “MiMo V2 Pro vs Flash for agentic coding” eligen Flash por velocidad/costo y Pro por fiabilidad en producción.

Precios de la API de MiMo V2 en 2026
Comparación de precios (por 1M tokens)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | Tarifa plana | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | Por niveles según longitud de contexto; caché disponible | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | Tarifa plana (los tokens multimodales se facturan en consecuencia) | ~$0.06 |
Ejemplos:
- Flash gana para tareas simples de alto volumen (p. ej., 1M tokens/día cuestan centavos).
- Omni ofrece un gran valor para multimodal (más barato que equivalentes de Gemini 3.1).
- Pro cuesta ~1/5–1/6 del precio de Claude Sonnet 4.6 mientras iguala o supera su rendimiento en muchos benchmarks agénticos/de programación. Los precios de caché reducen aún más los costos de contexto largo.
¿Cuál es el precio de la API de la serie Mimo V2 en CometAPI?
En CometAPI, la API de Mimo ofrece un precio más bajo que el sitio web oficial, aproximadamente el 20% del precio oficial (equivalente a gratis). MImo-v2 pro, mimo-V2-omni, y mimo-v2-flash también pueden usarse en openclaw. Por ejemplo:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| Entrada:$0.8/MSalida:$2.4/M | Entrada:$1/MSalida:$3/M | 20% |
La advertencia importante es que “más barato” no siempre significa “mejor valor”. Pro puede ser la opción más rentable cuando una sola llamada al modelo sustituye varios reintentos, llamadas a herramientas o intervenciones humanas. Omni puede ser la mejor ganga cuando el grounding multimodal evita construir canales separados de OCR, audio y visión. Flash es el líder en valor cuando necesitas alto volumen y gasto predecible.
Comparación de benchmarks de rendimiento
Benchmarks de inteligencia general y razonamiento
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, China #2) | No es el foco principal | Pro muestra un salto significativo sobre Flash |
| AIME 2025 (Math) | 94.1% | ~94.0% | N/A | Flash es altamente competitivo para su tamaño |
| Hallucination Rate | ~48% | ~30% | N/A | Pro demuestra mayor fiabilidad |
| LongBench V2 (Long Context) | 60.6 | Fuerte (ventaja de contexto de 1M) | N/A | Pro sobresale en tareas ultralargas |
Benchmarks de programación y tareas agénticas
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (mejor código abierto) | 78.0% | ~74.8% | Pro lidera; Flash es #1 entre modelos abiertos |
| SWE-Bench Multilingual | 71.7% | 57.1% (variante multilingüe) | N/A | Flash es particularmente fuerte aquí |
| ClawEval (Agentic Tool Use) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Pro a menudo iguala/supera a Claude Sonnet 4.6 en escenarios de programación |
| GDPVal-AA / PinchBench | 1040 – 1426 range | 1426 | 81.2 (variant) | Pro es sólido en tareas agénticas del mundo real |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni es competitivo en agentes multimodales |
Benchmarks multimodales (centrados en Omni)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro (Audio) | 76.8 | Claude Opus 4.6 (73.9) | Omni lidera |
| BigBench Audio / Speech Reasoning | Up to 80.1 – 94.0 | Varies | Fuerte capacidad de audio largo (10+ horas) |
| MMMU-Pro (Image) | 85.3 | Varies (supera a algunos líderes) | Excelente comprensión de gráficos y elementos visuales |
| Video-MME | 94.0 | Fuerte frente a Gemini 3 Pro en áreas seleccionadas | Alta capacidad de previsión de eventos en video |
| CharXiv (Charts) | 66.7 | Supera a Gemini 3 Pro en algunos informes | Sólido razonamiento visual estructurado |
Comparación de rendimiento: ¿cuál es mejor?
Para razonamiento y programación, Mimo-V2-Flash parece extremadamente sólido sobre el papel. Mimo-V2-Flash está en la primera línea en AIME 2025, GPQA-Diamond, SWE-bench Verified y SWE-bench Multilingual, y es el principal modelo de código abierto a nivel global en SWE-bench Verified y comparable a Claude Sonnet 4.5, mientras cuesta alrededor del 3.5% de su precio. Eso convierte a Flash en la opción destacada para desarrolladores que priorizan rendimiento y eficiencia de costos.
Para control agéntico puro, Pro es el insignia. Xiaomi enfatiza la estabilidad en tool-call, la planificación de tareas de horizonte largo y los flujos de trabajo de ingeniería de producción, con una ventana de contexto de 1M tokens especialmente útil en grandes bases de código, análisis de múltiples documentos y cadenas largas de navegador o herramientas.
Para percepción multimodal, Omni es el que claramente cambia la naturaleza del producto. Su diferenciador no es “ser un poco mejor en chat”; es la comprensión nativa de imágenes, video y audio combinada con uso de herramientas y UI grounding. Si tu producto necesita mirar capturas de pantalla, analizar gráficos, inspeccionar video, escuchar audio o controlar una interfaz, Omni es el único modelo del trío diseñado específicamente para esa pila.
A través de métricas de inteligencia, programación, tareas agénticas y multimodales, los modelos ocupan nichos distintos:
- Razonamiento/Inteligencia: Pro lidera (AA Index 49); Flash es competitivo para su tamaño; Omni es fuerte en modalidad cruzada.
- Programación/Agéntico: Pro a menudo supera a Claude Sonnet 4.6 (SWE-Bench, ClawEval); Omni le sigue de cerca en agentes multimodales; Flash lidera el código abierto.
- Velocidad: Flash es el más rápido debido a sus menos parámetros activos.
- Contexto: Pro domina con 1M tokens.
- Multimodal: Omni no tiene rival dentro de la familia.
Pro y Omni ofrecen ahorros de costos de 5–10x frente a modelos de frontera de EE. UU. mientras se ubican entre los 10 mejores a nivel global. Flash proporciona un rendimiento de código abierto casi equivalente a 1/10 del precio de muchos modelos cerrados.
¿Cómo deberías elegir?
Elige MiMo V2 Pro si…
necesitas la mejor opción para trabajo agéntico de horizonte largo y alto riesgo: grandes tareas de software, orquestación profunda de flujos de trabajo, grandes ventanas de contexto y uso robusto de herramientas. Pro es la elección correcta cuando el rendimiento importa más que el costo por token y cuando la tarea es principalmente texto o interacción estructurada con herramientas, en lugar de imágenes y audio.
Elige MiMo V2 Omni si…
tu producto necesita percepción multimodal como una función de primera clase: capturas de pantalla, paneles, fotos, videos, audio, estado del navegador o acciones entre dispositivos. Omni es el punto ideal para aplicaciones de “ver, oír, actuar” y es más fácil de justificar que Pro si no necesitas el contexto insignia de 1M tokens.
Elige MiMo V2 Flash si…
quieres la mejor relación calidad-precio. Flash es el mejor candidato para copilotos de programación, agentes por lotes, soporte de alto volumen, automatización interna y experimentos donde importan los pesos de código abierto, la velocidad y el bajo costo. También es el modelo más fácil de defender en una revisión presupuestaria, porque los precios por token publicados son drásticamente inferiores a los de los otros dos.
Diferencias clave y cuándo destaca cada modelo
| Factor | Flash (Best For) | Pro (Best For) | Omni (Best For) |
|---|---|---|---|
| Budget | Coste extremadamente bajo / alto volumen | Razonamiento de alto valor | Valor multimodal |
| Task Type | Consultas simples, despliegue local | Agentes complejos, programación, planificación | Visión/video/audio + agentes |
| Context | Medio | El más largo (1M) | Medio |
| Open-Source | Sí | No | No |
| Speed | Más rápido | Equilibrado | Equilibrado (sobrecarga multimodal) |
Marco de decisión
Paso 1: ¿Necesitas multimodal (imágenes/video/audio)? → Omni ($0.40/$2.00).
Paso 2: ¿Texto puro + máximo poder de razonamiento/agéntico? → Pro ($1–2/$3–6).
Paso 3: ¿Presupuesto, velocidad o self-hosting son críticos? → Flash ($0.09/$0.29, código abierto).
Estrategia híbrida (recomendada por proveedores de API): usa Flash para el 80% de las tareas rutinarias, deriva el razonamiento complejo a Pro y lo multimodal a Omni mediante una sola clave API (por ejemplo, vía CometAPI). Esto optimiza costos mientras permite acceder a toda la familia.
Veredicto final: tu recomendación personalizada
MiMo V2 es la forma en que Xiaomi dice que quiere una pila completa de IA, no solo un único modelo estrella. Pro es el motor insignia de razonamiento, Omni es el operador multimodal y Flash es el caballo de batalla eficiente de código abierto. La mejor elección depende menos de presumir de benchmarks brutos y más de la forma de tu carga de trabajo: los agentes intensivos en texto apuntan a Flash o Pro, los sistemas multimodales apuntan a Omni y los flujos de trabajo de producción con contexto gigante apuntan a Pro.
La familia MiMo V2 demuestra que la IA de alto rendimiento ya no requiere precios premium occidentales. Empieza con Flash u Omni para la mayoría de los usuarios, escala a Pro a medida que crezcan las necesidades y sigue la hoja de ruta de Xiaomi para ver aún más avances.
¿Listo para probar? Accede a los tres a través de plataformas como CometAPI con una sola clave. Experimenta hoy: la elección correcta podría transformar tu productividad en IA de la noche a la mañana.
