Alibaba AI revela Qwen3-Max: modelo Qwen de trilhões de parâmetros, com suporte para CometAPI

A equipe Qwen do Alibaba lançou Qwen3-Max-Preview (Instruir) — o maior modelo da empresa até o momento, com mais de 1 trilhão de parâmetros — e disponibilizou-o imediatamente através do Qwen Chat, do Alibaba Cloud Model Studio (API) e de marketplaces de terceiros, como o CometAPI. A prévia é voltada para fluxos de trabalho de raciocínio, codificação e documentos longos, combinando escala extrema com uma janela de contexto muito grande e cache de contexto para manter a latência baixa em sessões longas.

Principais destaques técnicos

Contagem massiva de parâmetros (+ trilhões): A mudança para um modelo com mais de um trilhão de parâmetros visa aumentar a capacidade de aprendizado de padrões complexos (raciocínio em várias etapas, síntese de código, compreensão profunda de documentos). Os primeiros benchmarks divulgados pela Qwen indicam resultados aprimorados em raciocínio, codificação e conjuntos de benchmarks em comparação com os principais modelos anteriores da Qwen.
Contexto ultralongo e cache: O 262k ficha A janela permite que equipes alimentem relatórios extensos, bases de código com vários arquivos ou históricos de bate-papo extensos em uma única etapa. O suporte ao cache de contexto reduz a computação repetida para contextos recorrentes e pode reduzir a latência e o custo de sessões prolongadas.
Capacidade multilíngue + codificação: A família Qwen3 enfatiza o suporte bilíngue (chinês/inglês) e amplo suporte multilíngue, além de codificação mais forte e tratamento de saída estruturado — útil para assistentes de código, geração automatizada de relatórios e análises de texto em larga escala.
Projetado para velocidade e qualidade. Usuários da versão prévia descrevem velocidade de resposta "incrível" e aprimoramento no acompanhamento de instruções e no raciocínio em comparação com as versões anteriores do Qwen3. O Alibaba posiciona o modelo como um carro-chefe de alto rendimento para cenários de produção, agentes e desenvolvedores.

Disponibilidade e acesso

Taxas do Alibaba Cloud em camadas, baseado em tokens Preços para Qwen3-Max-Preview (taxas de entrada e saída separadas). A cobrança é por milhão de tokens e aplicada aos tokens efetivamente consumidos após cada cota gratuita.

O preço de visualização publicado pelo Alibaba (USD) é escalonado mediante solicitação entrada volume de tokens (os mesmos níveis determinam quais taxas unitárias se aplicam):

Tokens de entrada de 0 a 32 mil: $ 0.861 / 1M tokens de entrada e $ 3.441 / 1M de tokens de saída.
32K–128K tokens de entrada: $ 1.434 / 1M tokens de entrada e $ 5.735 / 1M de tokens de saída.
128K–252K tokens de entrada: $ 2.151 / 1M tokens de entrada e $ 8.602 / 1M de tokens de saída.

A CometAPI oferece um desconto oficial de 20% para ajudar os usuários a chamar a API, os detalhes podem ser encontrados em Qwen3-Max-Prévia:


Tokens de entrada	$0.24
Tokens de saída	$2.42

O Qwen3-Max amplia a família Qwen3 (que utilizou designs híbridos, como variantes de Mixture-of-Experts e múltiplas camadas de parâmetros ativos em versões anteriores). Os lançamentos anteriores do Qwen3 da Alibaba focavam nos modos "pensar" (raciocínio passo a passo) e "instruir"; o Qwen3-Max se posiciona como a nova variante de instrução topo de linha nessa linha, demonstrando que supera o produto anterior de melhor desempenho da empresa, o Qwen3-235B-A22B-2507, mostrando que o modelo de parâmetro 1T lidera em uma série de testes.

No SuperGPQA, AIME25, LiveCodeBench v6, Arena-Hard v2 e LiveBench (20241125), o Qwen3-Max-Preview está consistentemente à frente do Claude Opus 4, Kimi K2 e Deepseek-V3.1.

Alibaba AI revela Qwen3-Max: modelo Qwen de trilhões de parâmetros, com suporte para CometAPI

Como acessar e usar o Qwen3-Max (guia prático)

1) Experimente no navegador (Qwen Chat)

Visite Bate-papo Qwen (interface web/chat oficial do Qwen) e selecione Qwen3-Max-Prévia (Instruir) o modelo se exibido no seletor de modelos. Esta é a maneira mais rápida de avaliar visualmente tarefas de conversação e instrução.

2) Acesso via Cloud Alibaba (Estúdio de Modelos / API de Nuvem)

Faça login no Alibaba Cloud → Estúdio de Modelagem / Modelagem de Atendimento. Crie uma instância de inferência ou selecione o ponto de extremidade do modelo hospedado para qwen3-max-prévia (ou a versão de visualização rotulada).
Autentique usando suas funções de chave de acesso/RAM do Alibaba Cloud e chame o ponto de extremidade de inferência com uma solicitação POST contendo seu prompt e quaisquer parâmetros de geração (temperatura, tokens máximos, etc.).

3) Use através de hosts/agregadores de terceiros

De acordo com a cobertura, a prévia está disponível via CometAPI e outros agregadores de API que permitem que desenvolvedores chamem vários modelos hospedados com uma única chave de API. Isso pode simplificar os testes entre provedores, mas também verificar a latência, a disponibilidade regional e as políticas de tratamento de dados para cada host.

Começando a jornada

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Conclusão

O Qwen3-Max-Preview posiciona o Alibaba diretamente entre as organizações que entregam modelos em escala trilionária aos clientes. A combinação de comprimento de contexto extremo e uma API compatível com OpenAI reduz a barreira de integração para empresas que precisam de raciocínio em documentos longos, automação de código ou orquestração de agentes. Custo e estabilidade da pré-visualização são as principais considerações de adoção: as organizações precisarão testar com cache, streaming e chamadas em lote para gerenciar latência e preços.