Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Entrada:$0.08/M
Salida:$0.24/M
MiMo-V2-Flash es una actualización integral del Modo Pensamiento. Mejora significativamente las capacidades de programación y lógica compleja, aumenta la precisión de las llamadas a herramientas al 97 % y optimiza la Cadena de Pensamiento (CoT) para reducir las alucinaciones, al tiempo que disminuye la latencia y los costos de tokens.
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API

Descripción general de MiMo-V2-Flash

MiMo-V2-Flash es el modelo de razonamiento de pesos abiertos Mixture-of-Experts de Xiaomi MiMo para la API MiMo-V2-Flash, concebido para inferencia rápida, programación y flujos de trabajo agénticos. La ficha del modelo y el informe técnico lo describen como un MoE de 309B parámetros con 15B activos, un diseño de atención híbrida y predicción de múltiples tokens para una decodificación más rápida.

Especificaciones técnicas

ElementoMiMo-V2-Flash
ProveedorXiaomi MiMo
Familia de modelosMiMo-V2
Tipo de modeloModelo de lenguaje de Mezcla de expertos (MoE)
Parámetros totales309B
Parámetros activos15B
Longitud de contexto nativa32K
Longitud de contexto ampliadaHasta 256K
Diseño de atenciónAtención de ventana deslizante híbrida (relación 5:1 de SWA a atención global)
Tamaño de ventana deslizante128 tokens
Capas MTP3
Escala de entrenamiento27T tokens
Modalidad de salidaTexto
Fecha de lanzamiento2025-12-16
Licencia del repositorioApache-2.0 (repositorio de GitHub)

¿Qué es MiMo-V2-Flash?

MiMo-V2-Flash es el modelo base de Xiaomi optimizado para inferencia en cargas de trabajo intensivas en razonamiento. Está diseñado para equilibrar la gestión de contextos largos con un menor coste de servicio, empleando atención de ventana deslizante para reducir la presión sobre la caché y predicción de múltiples tokens para acelerar la decodificación.

Características principales de MiMo-V2-Flash

  • Eficiencia MoE con una huella activa pequeña: 309B de parámetros totales pero solo 15B activos por token, lo que explica en gran medida por qué el modelo está orientado a un servicio eficiente.
  • Atención híbrida para contextos largos: La arquitectura alterna cinco capas SWA con una capa de atención global, usando una ventana de 128 tokens para reducir el coste de la caché KV.
  • Predicción de múltiples tokens para una decodificación más rápida: El modelo incluye 3 capas MTP, y la documentación técnica describe esto como una optimización de velocidad y rendimiento para la generación.
  • Diseñado para flujos de trabajo agénticos: Xiaomi lo posiciona para casos de uso de razonamiento, programación y agentes, y el conjunto de evaluaciones incluye SWE-Bench, Terminal-Bench y BrowseComp.
  • Compatibilidad con contexto largo: El repositorio informa compatibilidad de hasta 256K, mientras que la receta de vLLM ofrece orientación práctica de servicio para valores de max-model-len más bajos según el presupuesto de memoria.

Rendimiento en benchmarks

La tabla del modelo base en el repositorio muestra que MiMo-V2-Flash compite favorablemente frente a modelos abiertos más grandes en tareas de conocimiento general, matemáticas, programación y contexto largo. La tabla posterior al entrenamiento destaca sólidos resultados en agentes y razonamiento.

BenchmarkMiMo-V2-FlashLo que sugiere
MMLU-Pro84.9Razonamiento amplio sólido
GPQA-Diamond83.7Sólido desempeño en QA difícil
AIME 202594.1Sólido razonamiento matemático
LiveCodeBench-v680.6Capacidad de programación competitiva
SWE-Bench Verified73.4Sólido desempeño de agentes de software
SWE-Bench Multilingual71.7Buena cobertura multilingüe en programación/agentes
Terminal-Bench 2.038.5Útil pero no de primer nivel en tareas intensivas de terminal
NIAH-Multi 256K96.7La recuperación en contexto largo se mantiene sólida en 256K

MiMo-V2-Flash frente a modelos de razonamiento cercanos

ModeloMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Notas
MiMo-V2-Flash84.973.438.5Modelo de razonamiento de pesos abiertos eficiente
Kimi-K2 Thinking84.671.335.7Cercano en razonamiento, más débil en tareas de terminal
DeepSeek-V3.2 Thinking85.073.146.4Fuerte rendimiento en terminal, razonamiento similar

Mejores casos de uso

MiMo-V2-Flash encaja mejor cuando se necesita un modelo que pueda razonar sobre entradas largas, ayudar con tareas de programación y mantenerse eficiente en producción. Es una opción sólida para RAG orientado a documentos, flujos de trabajo de agentes de múltiples pasos, asistencia de código y análisis de contexto largo donde el coste de servicio importa.

Limitaciones

MiMo-V2-Flash está optimizado para eficiencia de inferencia, por lo que el rendimiento real depende del batching, el paralelismo tensorial y la configuración de servicio. La guía de vLLM también muestra que los valores prácticos de max-model-len pueden ser inferiores al titular de 256K según las compensaciones de memoria y latencia.

Preguntas Frecuentes

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Características para mimo-v2-flash

Explora las características clave de mimo-v2-flash, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para mimo-v2-flash

Explora precios competitivos para mimo-v2-flash, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo mimo-v2-flash puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Entrada:$0.08/M
Salida:$0.24/M
Entrada:$0.1/M
Salida:$0.3/M
-20%

Código de ejemplo y API para mimo-v2-flash

Accede a código de muestra completo y recursos de API para mimo-v2-flash para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de mimo-v2-flash en tus proyectos.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Más modelos