Visão geral do MiMo-V2-Flash
MiMo-V2-Flash é o modelo de raciocínio Mixture-of-Experts de pesos abertos da Xiaomi MiMo para a API MiMo-V2-Flash, construído em torno de inferência rápida, codificação e fluxos de trabalho com agentes. O model card e o relatório técnico o descrevem como um MoE com 309B parâmetros, 15B parâmetros ativos, um design de atenção híbrido e predição de múltiplos tokens para decodificação mais rápida.
Especificações técnicas
| Item | MiMo-V2-Flash |
|---|---|
| Fornecedor | Xiaomi MiMo |
| Família do modelo | MiMo-V2 |
| Tipo de modelo | Modelo de linguagem Mixture-of-Experts (MoE) |
| Parâmetros totais | 309B |
| Parâmetros ativos | 15B |
| Comprimento de contexto nativo | 32K |
| Comprimento de contexto estendido | Até 256K |
| Design de atenção | Atenção de Janela Deslizante Híbrida (proporção 5:1 de SWA para Atenção Global) |
| Tamanho da janela deslizante | 128 tokens |
| Camadas MTP | 3 |
| Escala de treinamento | 27T tokens |
| Modalidade de saída | Texto |
| Data de lançamento | 2025-12-16 |
| Licença do repositório | Apache-2.0 (repositório no GitHub) |
O que é o MiMo-V2-Flash?
MiMo-V2-Flash é o modelo base da Xiaomi, eficiente em inferência, para cargas de trabalho intensivas em raciocínio. Ele foi projetado para equilibrar o tratamento de contextos longos com menor custo de serviço, usando atenção com janela deslizante para reduzir a pressão sobre o cache e predição de múltiplos tokens para acelerar a decodificação.
Principais recursos do MiMo-V2-Flash
- Eficiência MoE com pequena quantidade de parâmetros ativos: 309B de parâmetros totais, mas apenas 15B ativos por token, o que é um dos principais motivos pelos quais o modelo é voltado para serviço eficiente.
- Atenção híbrida para contexto longo: A arquitetura alterna cinco camadas de SWA com uma camada de atenção global, usando uma janela de 128 tokens para reduzir o custo do cache KV.
- Predição de múltiplos tokens para decodificação mais rápida: O modelo inclui 3 camadas de MTP, e os materiais técnicos descrevem isso como uma otimização de velocidade e vazão para geração.
- Construído para fluxos de trabalho com agentes: A Xiaomi o posiciona para casos de uso de raciocínio, codificação e agentes, e a suíte de avaliação inclui SWE-Bench, Terminal-Bench e BrowseComp.
- Suporte a contexto longo: O repositório reporta suporte de até 256K, enquanto a receita do vLLM fornece orientação prática de serviço para valores
max-model-lenmenores, dependendo do orçamento de memória.
Desempenho em benchmarks
A tabela do modelo base no repositório mostra o MiMo-V2-Flash com desempenho competitivo em relação a modelos abertos maiores em conhecimento geral, matemática, codificação e tarefas de contexto longo. A tabela pós-treinamento destaca fortes resultados em agentes e raciocínio.
| Benchmark | MiMo-V2-Flash | O que sugere |
|---|---|---|
| MMLU-Pro | 84.9 | Raciocínio amplo forte |
| GPQA-Diamond | 83.7 | Desempenho sólido em QA de alta dificuldade |
| AIME 2025 | 94.1 | Forte raciocínio matemático |
| LiveCodeBench-v6 | 80.6 | Capacidade de codificação competitiva |
| SWE-Bench Verified | 73.4 | Forte desempenho de agentes de software |
| SWE-Bench Multilingual | 71.7 | Boa cobertura multilíngue de codificação/agentes |
| Terminal-Bench 2.0 | 38.5 | Útil, mas não de ponta em tarefas fortemente baseadas em terminal |
| NIAH-Multi 256K | 96.7 | A recuperação de contexto longo permanece forte em 256K |
MiMo-V2-Flash vs modelos de raciocínio próximos
| Modelo | MMLU-Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Observações |
|---|---|---|---|---|
| MiMo-V2-Flash | 84.9 | 73.4 | 38.5 | Modelo de raciocínio de pesos abertos eficiente |
| Kimi-K2 Thinking | 84.6 | 71.3 | 35.7 | Próximo em raciocínio, mais fraco em tarefas de terminal |
| DeepSeek-V3.2 Thinking | 85.0 | 73.1 | 46.4 | Forte desempenho em terminal, nível de raciocínio semelhante |
Melhores casos de uso
O MiMo-V2-Flash se encaixa melhor quando você precisa de um modelo que possa raciocinar sobre entradas longas, ajudar em tarefas de codificação e permanecer eficiente em produção. É uma ótima opção para RAG com muitos documentos, fluxos de trabalho de agentes em múltiplas etapas, assistência a código e análise de contexto longo em que o custo de serviço importa.
Limitações
O MiMo-V2-Flash é otimizado para eficiência de inferência; portanto, o throughput no mundo real depende de batching, paralelismo de tensores e da configuração de serviço. O guia do vLLM também mostra que configurações práticas de max-model-len podem ser menores do que os 256K destacados, dependendo dos trade-offs de memória e latência.