Home/Models/Xiaomi/mimo-v2-flash
X

mimo-v2-flash

Entrada:$0.08/M
Saída:$0.24/M
MiMo-V2-Flash é uma atualização abrangente do Thinking Mode. Ele aprimora significativamente as capacidades de programação e de lógica complexa, eleva a precisão nas chamadas de ferramentas para 97% e otimiza a Chain-of-Thought (CoT) para reduzir alucinações, enquanto diminui a latência e os custos de tokens.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Visão geral do MiMo-V2-Flash

MiMo-V2-Flash é o modelo de raciocínio Mixture-of-Experts de pesos abertos da Xiaomi MiMo para a API MiMo-V2-Flash, construído em torno de inferência rápida, codificação e fluxos de trabalho com agentes. O model card e o relatório técnico o descrevem como um MoE com 309B parâmetros, 15B parâmetros ativos, um design de atenção híbrido e predição de múltiplos tokens para decodificação mais rápida.

Especificações técnicas

ItemMiMo-V2-Flash
FornecedorXiaomi MiMo
Família do modeloMiMo-V2
Tipo de modeloModelo de linguagem Mixture-of-Experts (MoE)
Parâmetros totais309B
Parâmetros ativos15B
Comprimento de contexto nativo32K
Comprimento de contexto estendidoAté 256K
Design de atençãoAtenção de Janela Deslizante Híbrida (proporção 5:1 de SWA para Atenção Global)
Tamanho da janela deslizante128 tokens
Camadas MTP3
Escala de treinamento27T tokens
Modalidade de saídaTexto
Data de lançamento2025-12-16
Licença do repositórioApache-2.0 (repositório no GitHub)

O que é o MiMo-V2-Flash?

MiMo-V2-Flash é o modelo base da Xiaomi, eficiente em inferência, para cargas de trabalho intensivas em raciocínio. Ele foi projetado para equilibrar o tratamento de contextos longos com menor custo de serviço, usando atenção com janela deslizante para reduzir a pressão sobre o cache e predição de múltiplos tokens para acelerar a decodificação.

Principais recursos do MiMo-V2-Flash

  • Eficiência MoE com pequena quantidade de parâmetros ativos: 309B de parâmetros totais, mas apenas 15B ativos por token, o que é um dos principais motivos pelos quais o modelo é voltado para serviço eficiente.
  • Atenção híbrida para contexto longo: A arquitetura alterna cinco camadas de SWA com uma camada de atenção global, usando uma janela de 128 tokens para reduzir o custo do cache KV.
  • Predição de múltiplos tokens para decodificação mais rápida: O modelo inclui 3 camadas de MTP, e os materiais técnicos descrevem isso como uma otimização de velocidade e vazão para geração.
  • Construído para fluxos de trabalho com agentes: A Xiaomi o posiciona para casos de uso de raciocínio, codificação e agentes, e a suíte de avaliação inclui SWE-Bench, Terminal-Bench e BrowseComp.
  • Suporte a contexto longo: O repositório reporta suporte de até 256K, enquanto a receita do vLLM fornece orientação prática de serviço para valores max-model-len menores, dependendo do orçamento de memória.

Desempenho em benchmarks

A tabela do modelo base no repositório mostra o MiMo-V2-Flash com desempenho competitivo em relação a modelos abertos maiores em conhecimento geral, matemática, codificação e tarefas de contexto longo. A tabela pós-treinamento destaca fortes resultados em agentes e raciocínio.

BenchmarkMiMo-V2-FlashO que sugere
MMLU-Pro84.9Raciocínio amplo forte
GPQA-Diamond83.7Desempenho sólido em QA de alta dificuldade
AIME 202594.1Forte raciocínio matemático
LiveCodeBench-v680.6Capacidade de codificação competitiva
SWE-Bench Verified73.4Forte desempenho de agentes de software
SWE-Bench Multilingual71.7Boa cobertura multilíngue de codificação/agentes
Terminal-Bench 2.038.5Útil, mas não de ponta em tarefas fortemente baseadas em terminal
NIAH-Multi 256K96.7A recuperação de contexto longo permanece forte em 256K

MiMo-V2-Flash vs modelos de raciocínio próximos

ModeloMMLU-ProSWE-Bench VerifiedTerminal-Bench 2.0Observações
MiMo-V2-Flash84.973.438.5Modelo de raciocínio de pesos abertos eficiente
Kimi-K2 Thinking84.671.335.7Próximo em raciocínio, mais fraco em tarefas de terminal
DeepSeek-V3.2 Thinking85.073.146.4Forte desempenho em terminal, nível de raciocínio semelhante

Melhores casos de uso

O MiMo-V2-Flash se encaixa melhor quando você precisa de um modelo que possa raciocinar sobre entradas longas, ajudar em tarefas de codificação e permanecer eficiente em produção. É uma ótima opção para RAG com muitos documentos, fluxos de trabalho de agentes em múltiplas etapas, assistência a código e análise de contexto longo em que o custo de serviço importa.

Limitações

O MiMo-V2-Flash é otimizado para eficiência de inferência; portanto, o throughput no mundo real depende de batching, paralelismo de tensores e da configuração de serviço. O guia do vLLM também mostra que configurações práticas de max-model-len podem ser menores do que os 256K destacados, dependendo dos trade-offs de memória e latência.

FAQ

What does the MiMo-V2-Flash API do best?

MiMo-V2-Flash is tuned for fast reasoning, coding, and agentic workflows rather than pure chat polish. Xiaomi describes it as a 309B-parameter MoE model with 15B active parameters and a hybrid attention design built to reduce serving cost while keeping long-context performance.

How much context can the MiMo-V2-Flash API handle?

Support up to 256K context, with a native 32K pretraining length that was later extended.

Can MiMo-V2-Flash API handle coding and terminal-style agents?

Yes. In the post-training table, MiMo-V2-Flash scores 73.4 on SWE-Bench Verified, 71.7 on SWE-Bench Multilingual, and 38.5 on Terminal-Bench 2.0, which makes it a credible option for code assistants and agent loops.

When should I use MiMo-V2-Flash API instead of Kimi-K2 Thinking or DeepSeek-V3.2 Thinking?

Use MiMo-V2-Flash when you want a strong open-weight model with a smaller active compute footprint and good all-around reasoning plus agent performance. It is competitive with Kimi-K2 Thinking on MMLU-Pro and SWE-Bench, while DeepSeek-V3.2 Thinking is stronger on terminal-heavy tasks, so the better choice depends on whether you care more about efficiency or terminal depth.

Is MiMo-V2-Flash API suitable for long-document RAG or summarization?

Yes. The architecture uses sliding window attention to reduce long-sequence cost, and the repo reports very strong NIAH-Multi results even at 256K context. That makes it a sensible fit for long-document retrieval, summarization, and multi-hop context stitching.

What are the known limitations of MiMo-V2-Flash API?

It is optimized for inference efficiency, so speed and memory use still depend on batching, tensor parallelism, and the exact serving stack. A smaller runtime context can be a better production choice than the headline maximum if you need lower latency or lower memory use.

How do I integrate MiMo-V2-Flash API with vLLM?

The vLLM recipe serves it from XiaomiMiMo/MiMo-V2-Flash with --trust-remote-code, --served-model-name mimo_v2_flash, and tensor parallelism tuned for your hardware. If you need agent-style tool calling, the recipe also shows parser options such as qwen3_xml and qwen3.

Recursos para mimo-v2-flash

Explore os principais recursos do mimo-v2-flash, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para mimo-v2-flash

Explore preços competitivos para mimo-v2-flash, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como mimo-v2-flash pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.08/M
Saída:$0.24/M
Entrada:$0.1/M
Saída:$0.3/M
-20%

Código de exemplo e API para mimo-v2-flash

Acesse código de exemplo abrangente e recursos de API para mimo-v2-flash para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do mimo-v2-flash em seus projetos.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"

client = OpenAI(api_key=COMETAPI_KEY, base_url="https://api.cometapi.com/v1")

# mimo-v2-flash is optimized for speed; test structured JSON output
completion = client.chat.completions.create(
    model="mimo-v2-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant. Respond in JSON only."},
        {"role": "user", "content": "List 3 programming languages with their primary use case."},
    ],
    response_format={"type": "json_object"},
)

print(completion.choices[0].message.content)

Mais modelos