O modelo Qwen-Image pode redefinir a geração e edição de imagens de IA?

Em 4 de agosto de 2025, a equipe Qwen do Alibaba foi lançada oficialmente Qwen-Image, um modelo de base de transformador de difusão multimodal (MMDiT) de 20 bilhões de parâmetros projetado para oferecer fidelidade sem precedentes na síntese de texto para imagem e edição precisa de imagens. Este lançamento marca a entrada ousada do Alibaba no cenário de geração de imagens de código aberto, posicionando o Qwen-Image como um concorrente direto para sistemas proprietários como o GPT-4o, o DALL·E 2 e o Midjourney da OpenAI.

Inovações Técnicas

Qwen-Image's 20 B MMDiT A estrutura representa um feito significativo de engenharia, permitindo que o modelo se destaque na renderização de conteúdo textual complexo diretamente em imagens geradas. Sua abordagem de aprendizagem curricular começa com tarefas simples de renderização sem texto e avança progressivamente para o processamento de descrições com extensão de parágrafos, proporcionando fidelidade excepcional em linguagens alfabéticas e logográficas. Além disso, o modelo incorpora uma codificação dupla mecanismo — processando separadamente representações semânticas e reconstrutivas via Qwen2.5-VL e um codificador VAE — que atinge um equilíbrio entre manter a consistência semântica e o realismo visual durante as edições de imagens.

Avanços na renderização e edição de texto

Um diferencial fundamental para a Qwen-Image é seu suporte nativo para texto incorporado, permitindo a inserção de texto legível em inglês e chinês em imagens em layouts multilinha e contextos de parágrafo. Benchmarks internos mostram que o Qwen-Image supera muitos concorrentes de código aberto em aderência imediata e clareza de texto, tornando-o ideal para aplicações que exigem elementos de design multilíngues. Seus recursos de edição de imagens também se beneficiam de um paradigma de treinamento multitarefa que integra tarefas de reconstrução de texto para imagem, texto-imagem para imagem e imagem para imagem, aprimorando a consistência ao modificar elementos visuais existentes.

Avaliações independentes demonstram a superioridade do Qwen-Image em relação a diversos modelos proprietários e de código aberto líderes em precisão de incorporação de texto. Em testes comparativos, ele supera alternativas de código aberto de médio porte e rivaliza com ofertas comerciais como o Midjourney em termos de aderência imediata — especialmente em prompts bilíngues que combinam inglês e chinês. Embora alguns sistemas proprietários ainda possam liderar na geração de cenas ultracomplexas, os primeiros comentários dos usuários destacam a clareza incomparável do Qwen-Image para layouts de texto multilíngues e seus controles de edição robustos.

Em consonância com o compromisso da Alibaba com a IA “aberta, transparente e sustentável”, a Qwen-Image é de código aberto na plataforma MoDa, convidando a comunidade a contribuir e customizar. Além do lançamento do modelo, o Alibaba publicou ampla documentação, código de exemplo e um portal de feedback para oferecer suporte a testes reais em diversos casos de uso — desde pipelines de publicação automatizados até ferramentas educacionais interativas.

Resultados da avaliação

Os benchmarks internos e avaliações de terceiros do Alibaba pintam um quadro do desempenho de liderança da Qwen-Image:

GenEval (Geração Geral de Imagens): Alcançou uma Distância de Início de Fréchet (FID) de 10.2, superando modelos comparáveis de 20 parâmetros B em 9% em média.
LongText-Bench (Renderização de texto): marcou 92.7% precisão no posicionamento de texto multilinha e integridade de glifos, superando o GPT-4.1 em 14%.
GEdit/ImgEdit (Edição de imagens): Registrou uma pontuação média de opinião (MOS) de 4.3/5, refletindo alta satisfação do usuário em manter a consistência semântica durante as edições
OneIG-Bench (Geração de infográficos): Classificado entre os três principais modelos para renderização visual de dados estruturados e gráficos diretamente de prompts, demonstrando fortes recursos de layout e seleção de cores.
Classificação da tabela de classificação:Na tabela de classificação da Artificial Analysis Image Arena, a Qwen-Image atualmente ocupa o 5º lugar entre todos os modelos de geração de imagens — e é a única entrada de peso aberto no top 10 — demonstrando sua vantagem competitiva na comunidade de pesquisa.

Acesso e Ecossistema

O versátil conjunto de recursos do Qwen-Image desbloqueia uma variedade de aplicações do mundo real:

Marketing e Publicidade: Criação rápida de visuais promocionais personalizados com slogans incorporados e elementos de texto multilíngues.
Conteúdo educacional: Geração automatizada de diagramas ilustrativos, infográficos e imagens anotadas para plataformas de e-learning.
Design e Prototipação: Mockups e artes conceituais instantâneas com camadas editáveis para fluxos de trabalho criativos interativos.
Serviços de localização: Adaptação perfeita de elementos visuais em diferentes contextos linguísticos sem esforço manual de design gráfico.

Os usuários podem interagir com o Qwen-Image por meio da interface Chat Qwen do Alibaba selecionando o modo “Geração de imagem” ou integrar o modelo em seus ambientes por meio do repositório GitHub e das APIs CometAPI.

Uso interativo: Visita bate-papo.qwen.ai e selecione qualquer modelo Qwen não codificante e, em seguida, alterne para “Geração de imagem” para começar a criar.
Código e Pesos:
GitHub: github.com/QwenLM/Qwen-Image
Abraçando o rosto: abraçandoface.co
Escopo do modelo: modelscope.cn

O Alibaba incentiva o feedback e as contribuições da comunidade para promover uma aberto, transparente e sustentável ecossistema de IA generativa.

A integração mais recente, Qwen-Image, aparecerá em breve no CometAPI, então fique ligado! Enquanto finalizamos o upload do modelo Qwen-Image, explore nossos outros modelos na página Modelos ou experimente-os no AI Playground.

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Veja também

Inovações Técnicas

Avanços na renderização e edição de texto

Resultados da avaliação

Acesso e Ecossistema

Leia Mais

500+ Modelos em Uma API