MiniMax M2.5: Benchmarks de Programação, Preços e Guia de Uso

Um modelo de uso geral amplamente atualizado chamado MiniMax M2.5, anunciado pela MiniMax e posicionado como um modelo construído especificamente para fluxos de trabalho agentivos, geração de código e “produtividade no mundo real”. A empresa descreve o M2.5 como o resultado de um amplo treinamento de aprendizado por reforço em centenas de milhares de ambientes complexos, oferecendo grandes ganhos em benchmarks de codificação, uso de ferramentas e raciocínio de longo contexto, ao mesmo tempo que impulsiona a eficiência de inferência e a relação custo-benefício.

Você já pode ver o MiniMax M2.5 no CometAPI. Seu preço é 20% do preço oficial no CometAPI.

O que é o MiniMax M2.5 e por que isso importa?

MiniMax M2.5 é a versão mais recente da MiniMax, uma família de modelos posicionada para alta vazão, fluxos de trabalho agentivos e — acima de tudo — produtividade em codificação. Anunciado em meados de fevereiro de 2026, o M2.5 estende o trabalho anterior da série M da empresa com uma janela de contexto maior, primitivos de integração de ferramentas mais estreitos e um treinamento com ênfase em “workspaces nativos de IA”, onde o modelo orquestra ativamente pesquisas no navegador, chamadas de API e etapas de execução de código, em vez de apenas retornar texto. A mensagem de lançamento enquadra o M2.5 não apenas como uma atualização conversacional geral, mas como um movimento em nível de plataforma: ele pretende acelerar a produtividade de desenvolvedores, automatizar tarefas de engenharia repetitivas e servir como motor para produtos orientados por agentes.

Por que isso importa hoje tem dois motivos. Primeiro, o modelo atinge um conjunto de benchmarks práticos e metas de vazão que o tornam atraente para sistemas de produção (não apenas demonstrações de pesquisa). Segundo, o lançamento sinaliza como os fornecedores estão priorizando o uso integrado de ferramentas e a eficiência de tokens: o M2.5 é explicitamente ajustado para reduzir o número de rodadas de chamadas de ferramentas e o gasto de tokens durante tarefas multi-etapas, o que se traduz diretamente em menor custo e latência em implantações do mundo real.

Como o MiniMax M2.5 se sai em benchmarks de programação?

Visão geral do desempenho em código

MiniMax M2.5 rapidamente ganhou atenção por seu desempenho em benchmarks padrão de codificação usados pela indústria de IA para avaliar geração de código e raciocínio práticos:

Suíte de benchmarks	Resultado do M2.5	Explicação
SWE-Bench Verified	80.2%	Mede a capacidade de corrigir problemas reais do GitHub; desempenho próximo do topo.
Multi-SWE-Bench	51.3%	Avalia a confiabilidade de codificação multi-arquivo e entre repositórios.
SWE-Bench Pro	55.4%	Teste de codificação do mundo real mais difícil.

Os dados de benchmark sugerem que a habilidade de codificação do M2.5 igualam modelos proprietários altamente ranqueados como o Claude Opus 4.6 da Anthropic e o GPT-5.2 da OpenAI, colocando o M2.5 entre os principais concorrentes para tarefas de engenharia de software em produção. Marcar acima de 80% nesse benchmark sinaliza que o M2.5 é capaz de assistência prática em engenharia de software, não apenas geração de código teórica. Isso o torna especialmente valioso para fluxos de trabalho corporativos em que correção, confiabilidade e manutenibilidade são prioridades máximas.

Esses números mostram o M2.5 operando em níveis líderes do setor sem o peso extremo de preços típico de muitos sistemas proprietários fechados — um ponto que desafia diretamente a percepção recente da indústria de que alto desempenho necessariamente correlaciona com alto custo.

Como o M2.5 se comporta em fluxos de trabalho de engenharia reais?

Além das pontuações brutas, o que chama a atenção é como o M2.5 foi arquitetado para pipelines agentivos. O modelo inclui primitivos para pensamento intercalado (deliberação interna entre chamadas de ferramentas), raciocínio de código multi-turn mais robusto e uma estratégia de gerenciamento de contexto para bases de código longas. Em testes iniciais, avaliadores relataram que o M2.5 gerou uma grande parcela de código pronto para commit para certas classes de tarefas e exigiu menos correções humanas do que versões anteriores da MiniMax. Essa combinação — maior correção no primeiro passe e menos ciclos de ida e volta — é o que torna o M2.5 atraente para papéis de assistência a código e automação de CI.

Pesquisa e chamadas de ferramentas do MiniMax M2.5

Embora o desempenho em codificação frequentemente seja uma métrica central para LLMs voltados a desenvolvedores, o M2.5 é projetado para produtividade mais ampla:

Tipo de tarefa	Benchmark	Pontuação do M2.5
Pesquisa na Web & Contexto	BrowseComp	76.3%
Raciocínio com uso de ferramentas	BFCL Multi-Turn	76.8%
Orquestração de workflow	MEWC (Multi-Expert)	74.4%
Produtividade em escritório	VIBE-Pro Suite	54.2%

Essas métricas destacam que as capacidades do M2.5 se estendem para raciocínio denso, multi-etapas, pesquisa eficaz dentro do contexto armazenado e interações de ferramentas de longo horizonte — competências-chave para assistentes e agentes multimodais robustos.

Ele consegue encontrar e usar ferramentas de forma eficaz?

Uma das melhorias de destaque no M2.5 é a integração de ferramentas. A capacidade interna de “pensamento intercalado” do modelo permite refletir antes e depois de cada chamada de ferramenta, decidir se precisa de outra busca ou de uma ferramenta diferente e sintetizar saídas de ferramentas díspares em um próximo passo coerente. Na prática, isso reduz o número de rodadas de chamadas de ferramentas necessárias para resolver uma tarefa multi-etapas (pesquisar → buscar → analisar → agir). A documentação da plataforma e análises práticas relatam cerca de 20% menos rodadas de chamadas de ferramentas e um aumento significativo na “maturidade de decisão”, o que significa que o modelo faz menos chamadas redundantes ou prematuras.

Benchmarks que focam em navegação e fluxos de trabalho com ferramentas (BrowseComp, BFCL) colocam o M2.5 perto do topo para tarefas agentivas. Pontuações BrowseComp na faixa dos 70 médios foram relatadas, e testes de chamadas de ferramentas no estilo BFCL mostram alta precisão na orquestração multi-etapas de ferramentas. Esses resultados importam para qualquer produto que espera que um modelo sintetize dados da web em tempo real, chame APIs específicas de domínio ou manipule ativamente arquivos e código em nome do usuário.

O que isso significa para integrações?

Para engenheiros que constroem assistentes, bots ou pipelines de automação, a conclusão é que o M2.5 não é apenas “melhor em buscas” — ele é melhor em tomar decisões sobre buscas. Isso significa menos idas e vindas, menos desperdício de tokens e código de orquestração mais simples em muitos casos.

Quais são as características de eficiência e velocidade do MiniMax M2.5?

Um dos atributos de destaque do M2.5 é sua velocidade e eficiência de inferência — uma consideração crítica para uso no mundo real em que a vazão afeta tanto o custo quanto a latência.

Métricas de eficiência

Métrica	Valor
Melhoria de velocidade vs M2.1	+37%
Velocidade de saída padrão	50 tokens/segundo
Velocidade de saída Lightning	100 tokens/segundo
Tokens típicos/tarefa	~3.52M tokens para tarefas complexas

A variante Lightning iguala a vazão de modelos como o Claude Opus 4.6 — mas, crucialmente, por uma fração do custo. Isso permite que o M2.5 suporte fluxos de trabalho agentivos contínuos sem despesas proibitivas de tokens ao longo de sessões longas ou uso operacional em alto volume.

Implicações de engenharia

Maior vazão se correlaciona diretamente com interação em tempo real mais rápida em ciclos de desenvolvimento e fluxos de trabalho automatizados.
Melhor eficiência de tokens reduz o custo total em tarefas de múltiplos estágios e formato longo, como geração de documentação, depuração e integração entre sistemas.
Combinada com os altos benchmarks de raciocínio do M2.5, essa eficiência significa melhores resultados a um custo total de runtime mais baixo em comparação com modelos de ponta concorrentes.

Quanto custa o MiniMax M2.5? — Detalhamento de preços

Um dos aspectos mais disruptivos do M2.5 é seu preço — posicionado como uma alternativa econômica a LLMs proprietários. Quais opções de preços a MiniMax oferece?

A MiniMax fornece algumas opções de consumo e assinatura voltadas a desenvolvedores e empresas. Os materiais públicos da empresa descrevem duas abordagens de cobrança para modelos de texto em produção: uma assinatura Coding Plan (voltada a desenvolvedores que executam um volume constante de prompts relacionados a código) e Pay-As-You-Go para uso medido e flexível. O Coding Plan é explicitamente projetado para oferecer uma opção mensal barata para equipes de desenvolvedores, enquanto o pay-as-you-go cobra por token ou pelo perfil de vazão selecionado.

Como funciona o Coding Plan?

O Coding Plan é apresentado como uma assinatura mensal que reúne um número fixo de “prompts” ou sessões ao longo de um intervalo de tempo (exemplos na documentação incluem níveis como starter/plus/max com diferentes franquias de prompts a cada 5 horas). A justificativa declarada é oferecer uma estrutura de custo previsível e amigável ao desenvolvedor para equipes que dependem de muitas sessões curtas e frequentes de assistência a código, em vez de solicitações únicas de alto volume.

	Starter	Plus	Max
Preço	$10 /month	$20 /month	$50 /month
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

	Starter	Plus	Max
Preço	$100 /ano 120	$200 /ano 240	$500 /ano 600
Prompts	100 prompts / 5 hours	300 prompts / 5 hours	1000 prompts / 5 hours

Estrutura de preços por token

Variante	Preço de entrada	Preço de saída	TPS (tokens/seg)	Observações
M2.5-Standard	$0.15/M	$1.20/M	50	Variante otimizada para custo.
M2.5-Lightning	$0.30/M	$2.40/M	100	Variante otimizada para velocidade.

Essas taxas por token efetivamente democratizam a economia de agentes de IA, permitindo que os modelos rodem continuamente em escala corporativa sem as barreiras de custo enfrentadas por muitos sistemas proprietários que precificam tokens de saída 10×–30× mais altos.

Custo operacional por hora

Usando a variante Lightning (100 TPS), uma saída contínua estável resulta em aproximadamente:

360,000 tokens gerados por hora
Custo de saída = 360,000/1M × $2.40 ≈ $0.86
O custo de entrada acrescenta uma fração a mais para ~$1/hora de custo total de saída contínua

Isso é ordens de grandeza mais barato do que modelos de ponta típicos, tornando operações agentivas sempre ativas economicamente viáveis para empresas.

Procurando uma maneira mais barata de usar o M2.5

Aproveite um desconto de Minimax-M2.5 ao usar o CometAPI:

Preço Comet (USD / M tokens)	Preço oficial (USD / M tokens)	Desconto
Entrada:$0.24/M; Saída:$0.96/M	Entrada:$0.3/M; Saída:$1.2/M	-20%

Como começar com o MiniMax M2.5

Onde os desenvolvedores podem acessar o modelo?

A MiniMax publica documentação e guias de plataforma para integrar o M2.5 via sua API (a documentação da plataforma inclui guias para texto, codificação e fluxos orientados por ferramentas). O modelo também está em algumas bibliotecas e registros de terceiros (por exemplo, várias bibliotecas de plataforma disponibilizaram variantes do M2.5 para uso em nuvem e para experimentação local). Isso significa que os desenvolvedores podem chamar o M2.5 pelos endpoints oficiais da API da MiniMax ou usar ferramentas de terceiros compatíveis quando disponíveis.

Padrões de integração comuns

Assistente de IDE/Editor — conecte o M2.5 a um plugin de IDE para fornecer completions, explicações e geração de casos de teste. Use uma assinatura ‘Coding Plan’ se você espera muitas sessões curtas de desenvolvedores.
Orquestração de agentes — incorpore o M2.5 como o cérebro de decisão em um sistema de orquestração com múltiplas ferramentas; confie em seu forte comportamento de chamadas de ferramentas para gerenciar ações externas (APIs, consultas a bancos de dados, executores de teste). Garanta contratos de esquema explícitos para payloads de API a fim de minimizar alucinações.
Busca + aumento por recuperação — combine uma pequena camada de recuperação (vector store + reranker) para limitar o uso de tokens de contexto preservando a relevância em consultas de documentos longos. O forte desempenho do M2.5 em benchmarks de busca o torna um ajuste natural para geração aumentada por recuperação.
Transformação de código em lote — aproveite o modelo para refatorações em massa ou geração automatizada de testes executando jobs em lote, onde o custo por hora e as configurações de vazão são particularmente importantes para a economia do modelo.

Dicas práticas para melhores resultados

Use few-shot exemplos que espelhem o fluxo do desenvolvedor (entrada, formato de saída desejado, casos de falha) para melhorar a correção em prompts de codificação ou invocação de ferramentas.
Trave as interfaces de ferramentas com validação de esquema para que, quando o M2.5 emitir uma chamada de API, o sistema aceite apenas payloads validados.
Monitore o uso de tokens e defina salvaguardas (limites rígidos de tokens por chamada) para evitar gastos descontrolados.
Meça taxas de sucesso (por exemplo, taxa de aprovação de testes para código gerado) em vez de depender apenas de métricas subjetivas de qualidade.

Conclusão

O MiniMax M2.5 representa um avanço pragmático no nicho “agente + codificação” dos grandes modelos: ele combina fortes benchmarks de codificação, suporte explícito a uso intercalado de ferramentas e melhorias operacionais voltadas a reduzir custo e tempo de tokens em fluxos de trabalho reais. Para equipes focadas em automação de produtividade do desenvolvedor, geração de código e orquestração de múltiplas ferramentas, o M2.5 vale um piloto — especialmente quando a eficiência de custos é prioridade. Para equipes que exigem o estado da arte absoluto em cada benchmark específico independentemente do custo, ofertas premium podem ainda mostrar vantagens incrementais; mas os trade-offs de custo/desempenho tornam o M2.5 convincente para implantação em produção em muitos cenários do mundo real.

Os desenvolvedores podem acessar o MInimax-M2.5 via CometAPI agora. Para começar, explore os recursos do modelo no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave de API. O CometAPI oferece um preço muito inferior ao oficial para ajudar você a integrar.

Pronto para começar?→ Inscreva-se no glm-5 hoje!

Se quiser saber mais dicas, guias e novidades sobre IA, siga-nos no VK, X e Discord!