Visão geral do MiMo-V2-Flash

MiMo-V2-Flash é o modelo de raciocínio Mixture-of-Experts de pesos abertos da Xiaomi MiMo para a API MiMo-V2-Flash, construído em torno de inferência rápida, codificação e fluxos de trabalho com agentes. O model card e o relatório técnico o descrevem como um MoE com 309B parâmetros, 15B parâmetros ativos, um design de atenção híbrido e predição de múltiplos tokens para decodificação mais rápida.

Especificações técnicas

Item	MiMo-V2-Flash
Fornecedor	Xiaomi MiMo
Família do modelo	MiMo-V2
Tipo de modelo	Modelo de linguagem Mixture-of-Experts (MoE)
Parâmetros totais	309B
Parâmetros ativos	15B
Comprimento de contexto nativo	32K
Comprimento de contexto estendido	Até 256K
Design de atenção	Atenção de Janela Deslizante Híbrida (proporção 5:1 de SWA para Atenção Global)
Tamanho da janela deslizante	128 tokens
Camadas MTP	3
Escala de treinamento	27T tokens
Modalidade de saída	Texto
Data de lançamento	2025-12-16
Licença do repositório	Apache-2.0 (repositório no GitHub)

O que é o MiMo-V2-Flash?

MiMo-V2-Flash é o modelo base da Xiaomi, eficiente em inferência, para cargas de trabalho intensivas em raciocínio. Ele foi projetado para equilibrar o tratamento de contextos longos com menor custo de serviço, usando atenção com janela deslizante para reduzir a pressão sobre o cache e predição de múltiplos tokens para acelerar a decodificação.

Principais recursos do MiMo-V2-Flash

Eficiência MoE com pequena quantidade de parâmetros ativos: 309B de parâmetros totais, mas apenas 15B ativos por token, o que é um dos principais motivos pelos quais o modelo é voltado para serviço eficiente.
Atenção híbrida para contexto longo: A arquitetura alterna cinco camadas de SWA com uma camada de atenção global, usando uma janela de 128 tokens para reduzir o custo do cache KV.
Predição de múltiplos tokens para decodificação mais rápida: O modelo inclui 3 camadas de MTP, e os materiais técnicos descrevem isso como uma otimização de velocidade e vazão para geração.
Construído para fluxos de trabalho com agentes: A Xiaomi o posiciona para casos de uso de raciocínio, codificação e agentes, e a suíte de avaliação inclui SWE-Bench, Terminal-Bench e BrowseComp.
Suporte a contexto longo: O repositório reporta suporte de até 256K, enquanto a receita do vLLM fornece orientação prática de serviço para valores max-model-len menores, dependendo do orçamento de memória.

Desempenho em benchmarks

A tabela do modelo base no repositório mostra o MiMo-V2-Flash com desempenho competitivo em relação a modelos abertos maiores em conhecimento geral, matemática, codificação e tarefas de contexto longo. A tabela pós-treinamento destaca fortes resultados em agentes e raciocínio.

Benchmark	MiMo-V2-Flash	O que sugere
MMLU-Pro	84.9	Raciocínio amplo forte
GPQA-Diamond	83.7	Desempenho sólido em QA de alta dificuldade
AIME 2025	94.1	Forte raciocínio matemático
LiveCodeBench-v6	80.6	Capacidade de codificação competitiva
SWE-Bench Verified	73.4	Forte desempenho de agentes de software
SWE-Bench Multilingual	71.7	Boa cobertura multilíngue de codificação/agentes
Terminal-Bench 2.0	38.5	Útil, mas não de ponta em tarefas fortemente baseadas em terminal
NIAH-Multi 256K	96.7	A recuperação de contexto longo permanece forte em 256K

MiMo-V2-Flash vs modelos de raciocínio próximos

Modelo	MMLU-Pro	SWE-Bench Verified	Terminal-Bench 2.0	Observações
MiMo-V2-Flash	84.9	73.4	38.5	Modelo de raciocínio de pesos abertos eficiente
Kimi-K2 Thinking	84.6	71.3	35.7	Próximo em raciocínio, mais fraco em tarefas de terminal
DeepSeek-V3.2 Thinking	85.0	73.1	46.4	Forte desempenho em terminal, nível de raciocínio semelhante

Melhores casos de uso

O MiMo-V2-Flash se encaixa melhor quando você precisa de um modelo que possa raciocinar sobre entradas longas, ajudar em tarefas de codificação e permanecer eficiente em produção. É uma ótima opção para RAG com muitos documentos, fluxos de trabalho de agentes em múltiplas etapas, assistência a código e análise de contexto longo em que o custo de serviço importa.

Limitações

O MiMo-V2-Flash é otimizado para eficiência de inferência; portanto, o throughput no mundo real depende de batching, paralelismo de tensores e da configuração de serviço. O guia do vLLM também mostra que configurações práticas de max-model-len podem ser menores do que os 256K destacados, dependendo dos trade-offs de memória e latência.

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

Support up to 256K context, with a native 32K pretraining length that was later extended.

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.