A Xiaomi expandiu o MiMo de um lançamento de modelo único para uma linha de três modelos voltados a diferentes necessidades de produto. O Flash chegou em 16 de dezembro de 2025 como um modelo MoE de código aberto para tarefas de raciocínio, programação e agentes, enquanto o Pro e o Omni foram oficialmente apresentados em 18 de março de 2026 como o modelo de raciocínio flagship e o modelo multimodal completo, respectivamente.
O que é o MiMo V2 e por que ele importa?
A série MiMo V2 da Xiaomi representa o avanço do gigante chinês da tecnologia em direção a modelos fundamentais de IA de fronteira, otimizados para cargas de trabalho agênticas do mundo real. Lançada em fases (Flash no final de 2025/início de 2026, seguido por Pro e Omni em 18 de março de 2026), a linha aproveita a arquitetura de Mistura de Especialistas (MoE) para eficiência: parâmetros totais massivos, com bem menos ativos durante a inferência.
MiMo-V2-Omni: Os “olhos e ouvidos” – modelo multimodal unificado que combina texto, visão, vídeo e áudio estendido.
MiMo-V2-Flash: O “trabalhador rápido” – leve, de código aberto, ultraacessível.
MiMo-V2-Pro: O “flagship de raciocínio” – cérebro com trilhões de parâmetros para tarefas complexas e multietapas.
Todos os modelos enfatizam chamadas de ferramentas, raciocínio de longo contexto e integração com frameworks de agentes como OpenClaw, OpenCode e KiloCode. Eles alcançam isso com preços dramaticamente mais baixos do que equivalentes da OpenAI, Anthropic ou Google—frequentemente 5–10x mais baratos—enquanto figuram entre os líderes globais e chineses em benchmarks-chave.
MiMo V2-Omni vs MiMo V2-Pro vs MiMo V2-Flash: comparação rápida
| Feature / Metric | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni |
|---|---|---|---|
| Release | Dec 2025 | Mar 18, 2026 | Mar 19, 2026 |
| Parameters | 309B total / 15B active (MoE) | ~1T total / 42B active (MoE) | Multimodal (parâmetros exatos não divulgados) |
| Context Window | 256K tokens | 1M tokens (tiered pricing) | 256K tokens |
| Primary Strength | Speed & cost (coding/agents) | Reasoning & complex agents | Multimodal perception (vision/audio) |
| Benchmarks (Key Examples) | SWE-Bench: 73.4% (#1 open-source); Artificial Analysis: ~41 | ClawEval: 61.5 (#3 global); PinchBench: 81.0; Global rank #7–8 | Strong in vision/audio tasks (e.g., browser shopping, hazard detection) |
| Official Pricing (per 1M tokens) | $0.09 input / $0.29 output | ≤256K: $1/$3; >256K: $2/$6 | $0.40 input / $2 output |
| Open-Source | Yes (MIT on HF) | No (API only) | No (API only) |
| Best For | High-volume, fast tasks | Production agents & long workflows | Vision/audio + text agents |
| Inference Speed | ~150 tokens/s | High (MTP optimized) | Multimodal latency ~2–5s |
O que são o MiMo V2-Omni, MiMo V2-Pro e MiMo V2-Flash
O que é o MiMo-V2-Flash? o modelo com eficiência em primeiro lugar
O MiMo-V2-Flash é o membro mais conhecido e anterior da família. Na ficha do modelo na Hugging Face, a Xiaomi o descreve como um modelo de Mistura de Especialistas com 309B de parâmetros totais e 15B de parâmetros ativos, usando atenção híbrida e Previsão de Múltiplos Tokens (MTP) para melhorar a velocidade de saída e reduzir o custo de inferência; foi treinado em 27T de tokens com precisão mista FP8, suporta até 256K de contexto e é otimizado para raciocínio de alta velocidade e fluxos de trabalho agênticos.
Na prática, o Flash é o modelo MiMo mais equilibrado “do dia a dia” para casos de uso intensivos em texto. O MiMo-V2-Flash é forte em raciocínio de longo contexto, ajuda em programação e fluxos de trabalho com agentes; ele ocupa a posição #1 entre os modelos de código aberto globalmente no SWE-bench Verified e no SWE-bench Multilingual, custando apenas cerca de 3,5% do preço do Claude Sonnet 4.5. Essa combinação torna o Flash o ponto de partida natural se você quer testar a família sem estourar o orçamento.
O que é o MiMo-V2-Pro? o cérebro de agentes flagship
O MiMo-V2-Pro é o modelo principal voltado a texto da família. A Xiaomi afirma que ele tem mais de 1T de parâmetros totais, 42B de parâmetros ativos, uma razão de Atenção Híbrida expandida de 7:1 e uma janela de contexto de 1M tokens; sua capacidade de programação supera a do Claude 4.6 Sonnet, enquanto seu desempenho agêntico geral no ClawEval se aproxima do Opus 4.6. Importante: a Xiaomi diz que a estabilidade e a precisão das chamadas de ferramentas foram significativamente aprimoradas, exatamente o tipo de sinal que os desenvolvedores buscam ao migrar de demos para produção.
O que é o MiMo-V2-Omni? o modelo agente multimodal
O MiMo-V2-Omni é a resposta multimodal da Xiaomi ao problema dos agentes. Ele funde codificadores de imagem, vídeo e áudio em um único backbone compartilhado, para que o modelo possa ver, ouvir e ler como um fluxo perceptivo único. A Xiaomi também afirma que ele tem suporte nativo a chamadas de ferramentas estruturadas, execução de funções e grounding de UI, motivo pelo qual o Omni é posicionado como um modelo de agente, e não como um chatbot multimodal genérico.
O Omni vai além da transcrição no entendimento de áudio, lidando com áudio contínuo que ultrapassa 10 horas, e supera o Gemini 3 Pro em tarefas de áudio, ao mesmo tempo em que excede o Claude Opus 4.6 em entendimento de imagens e alcança o nível de modelos fechados líderes como o Gemini 3. O Omni tem desempenho forte em fluxos de trabalho no navegador e em dispositivos móveis, e seus demos de agente foram executados com o OpenClaw gerenciando controle do navegador, acesso ao sistema de arquivos e interação com o terminal.
Insight de palavra‑chave de cauda longa classificável: Desenvolvedores que pesquisam “MiMo V2 Pro vs Flash para programação agêntica” escolhem o Flash pela velocidade/custo e o Pro pela confiabilidade em produção.

Preços da API do MiMo V2 em 2026
Comparação de preços (por 1M tokens)
| Model | Input Price | Output Price | Context Tiering Notes | Blended Cost Example (100K Input + 10K Output) |
|---|---|---|---|---|
| Flash | $0.09 – $0.10 | $0.29 – $0.30 | Flat rate | ~$0.012 – $0.013 |
| Pro | $1.00 (≤256K) $2.00 (256K–1M) | $3.00 (≤256K) $6.00 (256K–1M) | Tiered by context length; cache pricing available | ~$0.13 – $0.26 |
| Omni | $0.40 | $2.00 | Flat rate (multimodal tokens billed accordingly) | ~$0.06 |
Examples:
- O Flash vence em tarefas simples de alto volume (por exemplo, 1M de tokens/dia custa centavos).
- O Omni oferece forte valor para multimodal (mais barato do que equivalentes Gemini 3.1).
- O Pro custa ~1/5–1/6 do Claude Sonnet 4.6, igualando ou superando-o em muitos benchmarks de agentes/programação. Preços com cache reduzem ainda mais os custos de longos contextos.
Qual é o preço da API da série Mimo V2 no CometAPI?
No CometAPI, a Mimo API oferece um preço mais baixo do que o site oficial, aproximadamente 20% do preço oficial (equivalente a grátis). MImo-v2 pro, mimo-V2-omni, e mimo-v2-flash can also be used in openclaw.Such as:
| Comet Price (USD / M Tokens) | Official Price (USD / M Tokens) | Discount |
|---|---|---|
| Input:$0.8/MOutput:$2.4/M | Input:$1/MOutput:$3/M | 20% |
A ressalva importante é que “o mais barato” nem sempre significa “o melhor valor”. O Pro pode ser a escolha mais econômica quando uma única chamada de modelo substitui várias tentativas, chamadas de ferramentas ou intervenções humanas. O Omni pode ser o melhor negócio quando o grounding multimodal evita construir pipelines separados de OCR, áudio e visão. O Flash é o líder em custo-benefício quando você precisa de alto volume e gasto previsível.
Comparação de benchmarks de desempenho
Benchmarks de inteligência geral e raciocínio
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Notes / Comparison Context |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | 39–41 | 49 (Global #8, Chinese #2) | Not primary focus | Pro shows significant leap over Flash |
| AIME 2025 (Math) | 94.1% | ~94.0% | N/A | Flash highly competitive for its size |
| Hallucination Rate | ~48% | ~30% | N/A | Pro demonstrates improved reliability |
| LongBench V2 (Long Context) | 60.6 | Strong (1M context advantage) | N/A | Pro excels in ultra-long tasks |
Benchmarks de programação e agentes
| Benchmark | MiMo-V2-Flash | MiMo-V2-Pro | MiMo-V2-Omni | Comparison Highlights |
|---|---|---|---|---|
| SWE-Bench Verified | 73.4% (Top open-source) | 78.0% | ~74.8% | Pro leads; Flash #1 among open models |
| SWE-Bench Multilingual | 71.7% | 57.1% (multilingual variant) | N/A | Flash particularly strong here |
| ClawEval (Agentic Tool Use) | 48.1 – 62.1 | 61.5 – 81.0 | 52.0 – 54.8 | Pro often matches/exceeds Claude Sonnet 4.6 in coding scenarios |
| GDPVal-AA / PinchBench | 1040 – 1426 range | 1426 | 81.2 (variant) | Pro strong in real-world agent tasks |
| OmniGAIA / Multi-Modal Agent | N/A | N/A | 54.8 | Omni competitive in multimodal agents |
Benchmarks multimodais (foco no Omni)
| Benchmark | MiMo-V2-Omni Score | Notable Competitors | Highlights |
|---|---|---|---|
| MMAU-Pro (Audio) | 76.8 | Claude Opus 4.6 (73.9) | Omni leads |
| BigBench Audio / Speech Reasoning | Up to 80.1 – 94.0 | Varies | Strong long-audio capability (10+ hours) |
| MMMU-Pro (Image) | 85.3 | Varies (edges some leaders) | Excellent chart & visual understanding |
| Video-MME | 94.0 | Strong vs. Gemini 3 Pro in select areas | High video event forecasting |
| CharXiv (Charts) | 66.7 | Beats Gemini 3 Pro in some reports | Solid structured visual reasoning |
Comparação de desempenho: qual é melhor?
Para raciocínio e programação, o Mimo-V2-Flash parece extremamente forte no papel. O Mimo-V2-Flash está no topo no AIME 2025, GPQA-Diamond, SWE-bench Verified e SWE-bench Multilingual, sendo o Mimo-V2-Flash o principal modelo de código aberto globalmente no SWE-bench Verified e comparável ao Claude Sonnet 4.5, custando cerca de 3,5% do seu preço. Isso torna o Flash o destaque para desenvolvedores que se preocupam com throughput e eficiência de custo.
Para controle agêntico puro, o Pro é o flagship. A Xiaomi enfatiza a estabilidade de chamadas de ferramentas, o planejamento de tarefas de longo horizonte e fluxos de trabalho de engenharia de produção, com uma janela de contexto de 1M tokens que é especialmente útil em grandes bases de código, análise de multidocumentos e cadeias longas de navegador ou ferramentas.
Para percepção multimodal, o Omni é o que claramente muda o formato do produto. Seu diferencial não é “ser um pouco melhor em chat”; é o entendimento nativo de imagem, vídeo e áudio combinado com uso de ferramentas e grounding de UI. Se seu produto precisa olhar para capturas de tela, analisar gráficos, inspecionar vídeo, ouvir áudio ou operar uma interface, o Omni é o único modelo do trio concebido para esse stack.
Em inteligência, programação, agentes e métricas multimodais, os modelos definem nichos distintos:
- Raciocínio/Inteligência: Pro lidera (AA Index 49); Flash competitivo para seu porte; Omni forte no cruzamento de modalidades.
- Programação/Agentes: Pro frequentemente supera o Claude Sonnet 4.6 (SWE-Bench, ClawEval); Omni logo atrás em agentes multimodais; Flash lidera entre open-source.
- Velocidade: Flash é o mais rápido devido ao menor número de parâmetros ativos.
- Contexto: Pro domina com 1M tokens.
- Multimodal: Omni é imbatível na família.
Pro e Omni oferecem economias de 5–10x frente a modelos de fronteira dos EUA enquanto figuram no top-10 global. O Flash fornece desempenho quase equivalente de código aberto por 1/10 do preço de muitos modelos fechados.
Como escolher?
Escolha o MiMo V2 Pro se…
você precisa da melhor chance em trabalho agêntico de longo horizonte e alto impacto: grandes tarefas de software, orquestração profunda de fluxos de trabalho, grandes janelas de contexto e uso robusto de ferramentas. O Pro é a escolha certa quando o desempenho importa mais do que o custo por token e quando a tarefa é principalmente texto ou interação com ferramentas estruturadas, e não imagens e áudio.
Escolha o MiMo V2 Omni se…
seu produto precisa de percepção multimodal como recurso de primeira classe: capturas de tela, dashboards, fotos, vídeos, áudio, estado do navegador ou ação entre dispositivos. O Omni é o ponto ideal para aplicações “ver, ouvir, agir” e é mais fácil de justificar do que o Pro se você não precisa do contexto flagship de 1M tokens.
Escolha o MiMo V2 Flash se…
você quer o melhor valor. O Flash é o melhor candidato para copilotos de programação, agentes em lote, suporte de alto volume, automação interna e experimentos em que pesos open-source, velocidade e baixo custo importam. Ele também é o modelo mais fácil de defender em uma revisão de orçamento, porque os preços de tokens publicados são dramaticamente mais baixos do que os outros dois.
Diferenças-chave e quando cada modelo brilha
| Factor | Flash (Best For) | Pro (Best For) | Omni (Best For) |
|---|---|---|---|
| Budget | Extreme low-cost / high volume | High-value reasoning | Multimodal value |
| Task Type | Simple queries, local deploy | Complex agents, coding, planning | Vision/video/audio + agents |
| Context | Medium | Longest (1M) | Medium |
| Open-Source | Yes | No | No |
| Speed | Fastest | Balanced | Balanced (multimodal overhead) |
Quadro de decisão
Step 1: Você precisa de multimodal (imagens/vídeo/áudio)? → Omni ($0.40/$2.00).
Step 2: Apenas texto + máxima potência de raciocínio/agentes? → Pro ($1–2/$3–6).
Step 3: Orçamento, velocidade ou auto-hospedagem são críticos? → Flash ($0.09/$0.29, open-source).
Hybrid Strategy (recommended by API providers): Use o Flash para 80% das tarefas rotineiras, encaminhe o raciocínio complexo para o Pro e o multimodal para o Omni com uma única chave de API (por exemplo, via CometAPI). Isso otimiza o custo enquanto dá acesso à família completa.
Veredito final: sua recomendação personalizada
O MiMo V2 é a forma da Xiaomi dizer que quer uma pilha completa de IA, não apenas um modelo hero. O Pro é o motor de raciocínio flagship, o Omni é o operador multimodal e o Flash é o trabalhador eficiente de código aberto. A melhor escolha depende menos da ostentação de benchmarks brutos e mais da forma da sua carga de trabalho: agentes intensivos em texto apontam para o Flash ou Pro, sistemas multimodais apontam para o Omni, e fluxos de trabalho de produção com contexto gigante apontam para o Pro.
A família MiMo V2 prova que IA de alto desempenho não precisa mais ter preços premium ocidentais. Comece com o Flash ou o Omni para a maioria dos usuários, escale para o Pro conforme as necessidades crescem e monitore o roadmap da Xiaomi para ainda mais avanços.
Ready to test? Acesse os três por plataformas como a CometAPI com uma única chave. Experimente hoje— a escolha certa pode transformar sua produtividade em IA da noite para o dia.
