Em abril de 2025, a Alibaba Cloud lançou o Qwen3, a versão mais recente da série Qwen de modelos de grande linguagem (LLMs). Como um avanço significativo no campo da inteligência artificial, o Qwen3 demonstra capacidades excepcionais em compreensão de linguagem, raciocínio, processamento multimodal e eficiência computacional. O modelo suporta 119 idiomas, é treinado em um conjunto de dados de 36 trilhões de tokens e oferece diversos tamanhos de modelo, variando de 0.6 bilhão a 235 bilhões de parâmetros. Este artigo fornece uma exploração aprofundada da definição, recursos, métodos de uso, abordagens de acesso, comparações com outros modelos e seu potencial impacto no domínio da IA, com o objetivo de servir como uma referência abrangente para desenvolvedores, pesquisadores e empresas.
O que é Qwen3?
Qwen3 é uma série de grandes modelos de linguagem projetados para compreender e gerar textos com linguagem humana, adequados para uma variedade de cenários, desde conversas cotidianas até tarefas complexas de raciocínio. É a terceira geração da série Qwen desenvolvida pela Alibaba Cloud, após o lançamento do Qwen em 2023 e do Qwen2 em 2024, que introduziram melhorias em desempenho e funcionalidade.
Uma breve história da série Qwen
A série Qwen teve início em abril de 2023 com o lançamento do modelo Qwen, inicialmente denominado "Tongyi Qianwen", baseado na arquitetura Llama da Meta AI. Após receber a aprovação do governo chinês em setembro de 2023, o Qwen foi oficialmente lançado ao público. Em dezembro de 2023, os modelos Qwen 72B e 1.8B tornaram-se de código aberto, seguido pelo lançamento do Qwen2 em junho de 2024, que adotou uma arquitetura de Mistura de Especialistas (MoE). O Qwen3, lançado em abril de 2025, incorpora recursos de raciocínio híbrido e funcionalidades multimodais, tornando-se a versão mais avançada da série.
Características do Qwen3
O Qwen3 oferece uma gama de recursos inovadores que o distinguem no cenário global de modelos de IA:
Suporte multilingue
O Qwen3 oferece suporte a 119 idiomas, abrangendo os principais sistemas de idiomas globais. Isso o torna a escolha ideal para aplicações multiculturais e multilíngues, como suporte ao cliente internacional e geração de conteúdo multilíngue.
Dados de treinamento em larga escala
O conjunto de dados de treinamento do Qwen3 consiste em quase 36 trilhões de tokens, o que equivale a aproximadamente 270 bilhões de palavras. Inclui uma ampla gama de conteúdo, como livros didáticos, pares de perguntas e respostas, trechos de código e conteúdo gerado por IA, principalmente em chinês e inglês. Essa escala garante seu excelente desempenho na compreensão e geração de linguagem.
Diversos tamanhos de modelo
O Qwen3 oferece uma variedade de tamanhos de modelos que variam de 0.6 bilhões a 235 bilhões de parâmetros:
- Modelos pequenos (0.6B, 1.7B): Adequado para aplicações leves, capaz de rodar em dispositivos como smartphones.
- Modelos médios (4B, 8B, 14B, 32B): Equilibre o desempenho com as necessidades de recursos, aplicável à maioria dos cenários de desenvolvimento.
- Modelos grandes (235B): Forneça desempenho de alto nível para tarefas de nível empresarial.
| Nome do modelo | Tamanho do Parâmetro | Janela de contexto (tokens) | Cenários Aplicáveis |
|---|---|---|---|
| Qwen3-0.6B | 0.6 bilhões | 32,768 | Dispositivos móveis, aplicativos leves |
| Qwen3-1.7B | 1.7 bilhões | 32,768 | Sistemas embarcados, raciocínio rápido |
| Qwen3-4B | 4 bilhões | 131,072 | Projetos de pequeno e médio porte, pesquisas |
| Qwen3-8B | 8 bilhões | 131,072 | Aplicações gerais, desenvolvimento |
| Qwen3-32B | 32 bilhões | 131,072 | Tarefas de alto desempenho, aplicativos corporativos |
| Qwen3-235B-A22B | 235 bilhões | 131,072 | Desempenho de alto nível, raciocínio complexo (não disponível publicamente) |
Capacidades de raciocínio híbrido
O Qwen3 apresenta um recurso de “raciocínio híbrido” que permite ao modelo raciocinar passo a passo antes de fornecer respostas a perguntas complexas. Esse recurso é particularmente importante em raciocínio lógico, problemas matemáticos e tarefas de programação. Os usuários podem ativar ou desativar esse modo por meio de configurações (por exemplo, enable_thinking=True).
Modelos de Mistura de Especialistas (MoE)
O Qwen3 inclui modelos de Mistura de Especialistas, como Qwen3-30B-A3B (30 bilhões de parâmetros, 3 bilhões ativos) e Qwen3-235B-A22B (235 bilhões de parâmetros, 22 bilhões ativos). Esses modelos aceleram a inferência ativando apenas um subconjunto de parâmetros, mantendo alto desempenho, tornando-os adequados para implantação em larga escala.
Limites de Token Expandidos
Alguns modelos Qwen3 suportam janelas de contexto de até 131,072 tokens (modelos 4B e superiores), um aumento significativo em relação aos 2 tokens do Qwen32,768. Essa melhoria permite que o modelo lide com diálogos mais longos e tarefas de geração de texto mais complexas.

Benchmarks Qwen 3
O modelo demonstra proficiência em geração de código, depuração e resolução de problemas matemáticos, o que o torna uma ferramenta valiosa para desenvolvimento de software e análise de dados.

Como usar o Qwen3
Aplicações
A versatilidade do Qwen3 o torna adequado para vários cenários:
- Chatbots e Assistentes Virtuais: Forneça respostas naturais e contextualizadas para aplicativos de suporte ao cliente e assistente pessoal.
- Geração de Conteúdo: Gere artigos, histórias, códigos e outros conteúdos criativos ou técnicos.
- Análise de dados: Auxiliar na interpretação e resumo de grandes conjuntos de dados para pesquisa e inteligência empresarial.
- Ferramentas educacionais: Ajude os alunos com tarefas de casa, explicações e experiências de aprendizagem personalizadas.
- Pesquisa científica: Dê suporte à revisão de literatura, geração de hipóteses e resolução de problemas científicos.
Integração de Projetos
Os desenvolvedores podem integrar o Qwen3 em seus projetos usando as seguintes estruturas e ferramentas:
- Transformadores: Requer
transformers>=4.51.0. Trecho de código de exemplo:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-8B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-8B")
inputs = tokenizer("Hello, how can I assist you?", return_tensors="pt")
outputs = model.generate(**inputs, enable_thinking=True)
print(tokenizer.decode(outputs))
Os usuários podem habilitar o modo de raciocínio com enable_thinking=True ou controlá-lo usando /think e /nothink.
- llama.cpp: Requer
llama.cpp>=b5092. Exemplo de linha de comando:
./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 -c 40960 -n 32768 --no-context-shift
- Ollama: Requer
Ollama v0.6.6ou superior. Execute o comando:
ollama run qwen3:8b
Suporta parâmetros como num_ctx 40960 e num_predict 32768.
- Opções de implantação:
- SGLang: Requer
sglang>=0.4.6.post1. Comando de inicialização:python -m sglang.launch_server --model-path Qwen/Qwen3-8B --port 30000 --reasoning-parser qwen3 - vLLM: Requer
vllm>=0.8.5. Comando de serviço:vllm serve Qwen/Qwen3-8B --port 8000 --enable-reasoning --reasoning-parser deepseek_r1 - MindIE: Suporta Ascend NPU; visite Modelers para mais detalhes.
Uso da ferramenta
O Qwen-Agent suporta a interação do Qwen3 com ferramentas e APIs externas, ideal para tarefas que exigem acesso dinâmico a dados. Esse recurso também é suportado por SGLang, vLLM, Transformers, llama.cpp e Ollama.
Afinação
O Qwen3 pode ser ajustado usando estruturas como Axolotl, UnSloth, Swift e Llama-Factory, suportando técnicas como Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) e Group Robust Preference Optimization (GRPO).
Conclusão
O Qwen3 representa um avanço no campo de modelos de linguagem de grande porte, oferecendo funcionalidade, versatilidade e acessibilidade aprimoradas. Com seu suporte multilíngue, raciocínio híbrido e versões especializadas para tarefas de visão, matemática e áudio, o Qwen3 se posiciona como um player fundamental no campo da IA. Seu desempenho competitivo em benchmarks como Codeforces, AIME e BFCL, juntamente com sua disponibilidade de código aberto, o torna a escolha ideal para desenvolvedores, pesquisadores e empresas. À medida que a tecnologia de IA avança, o Qwen3 representa um passo importante para a criação de sistemas inteligentes capazes de compreender, raciocinar e interagir com o mundo de maneiras cada vez mais sofisticadas.
Começando a jornada
Os desenvolvedores podem acessar Qwen 3 API através de CometAPI. Para começar, explore as capacidades do modelo no Playground e consulte o Guia de API para obter instruções detalhadas. Observe que alguns desenvolvedores podem precisar verificar sua organização antes de usar o modelo.
