O Qwen-Image-Edit é a vertente de edição da família de ferramentas de imagem Qwen, desenvolvida pela equipe Qwen (ecossistema Alibaba/QwenLM). É construído sobre uma estrutura MMDiT de 20 bilhões de parâmetros e estende explicitamente os recursos avançados de renderização de texto do Qwen-Image para fluxos de trabalho robustos de edição de imagens. O modelo destina-se a tarefas em que a fidelidade da edição é crucial — por exemplo, alterar diretamente o texto em placas, preservar fontes e layout, adicionar/remover objetos mantendo a consistência semântica, transformações de ponto de vista/pose e transferências de estilo precisas.
Características chave
- Edição precisa de texto na imagem (bilíngue: chinês e inglês) — Adicionar, remover ou substituir texto, preservando ao máximo a fonte, o tamanho e o estilo.
- Modos de edição dupla: semântica + aparência — Suporta alterações semânticas de alto nível (repouso, substituição de objetos, ponto de vista) e edições de aparência de baixo nível (transferência de estilo, textura, retoque local).
- Máscara / região / edições de múltiplas voltas — Suporta preenchimento mascarado, sugestões de região e edições encadeadas para fluxos de trabalho de refinamento iterativo.
- Entradas de múltiplas imagens (versão mais recente): A versão 2509 adiciona suporte para edição de múltiplas imagens (por exemplo, pessoa+pessoa, pessoa+produto), consistência aprimorada de identidade/produto/texto e entradas nativas no estilo ControlNet.
Detalhes técnicos
- Escala base / família: construído sobre Parâmetro 20B Modelo fundamental Qwen-Image (difusão no estilo MMDiT / design multimodal).
- Pipeline de edição com codificação dupla: O módulo de edição recebe (1) uma representação semântica por meio de um codificador visual Qwen2.5-VL e (2) uma representação reconstrutiva por meio de um codificador VAE. O processamento paralelo de ambas as representações permite que a cabeça de edição equilibre a mudança semântica com a fidelidade dos pixels. Essa codificação dupla é uma escolha fundamental de engenharia para edições robustas.
- Treinamento progressivo/curricular: O treinamento progrediu de tarefas mais simples de renderização e geração de texto para objetivos complexos de renderização de texto em nível de parágrafo e edição multitarefa (reconstrução T2I, TI2I e I2I). Relata-se que esse currículo é um fator central na melhoria da fidelidade do texto e na estabilidade da edição do modelo.
- Sabor/módulos do modelo: O Qwen-Image-Edit é descrito como um modelo 20B no estilo MMDiT que integra componentes do Qwen2.5-VL, uma cabeça de edição por difusão e componentes VAE para controle de aparência.
Desempenho de referência
SOTA (State of the Advanced Technology) entre benchmarks: A equipe Qwen relata resultados de última geração (SOTA) ou de alto nível em vários benchmarks públicos de geração e edição de imagens — incluindo GenEval, DPG, OneIG-Bench (geração) e GEdit, ImgEdit, GSO (edição).

Limitações e ressalvas (práticas)
- Artefatos e casos extremos: Os testes da comunidade mostram saturação excessiva ocasional, artefatos na textura da pele ou falhas de composição em algumas edições de alta resolução; as versões modificadas da iluminação desenvolvidas pela comunidade visam atenuar esses problemas.
- Computação/memória: O modelo 20B e os pipelines de edição de precisão total exigem muito da GPU. A implementação local se beneficia do bfloat16/FP8 e de fluxos de trabalho de amostragem otimizados (existem variantes "lightning" de 4/8 etapas para reduzir a VRAM e a latência).
- Segurança e Propriedade Intelectual: Assim como todos os editores de imagens de uso geral, o Qwen-Image-Edit pode gerar caracteres protegidos por direitos autorais ou conteúdo sensível — o uso em produção requer controles de moderação e autorização de direitos. (Prática recomendada típica para empresas.)
- Modos de falha: Caracteres/palavras obscuros ou muito raros ainda podem ser renderizados incorretamente ou exigir edições iterativas ("em cadeia") para convergir (os autores citam exemplos como glifos chineses raros que exigem correções passo a passo).
Como o Qwen-Image-Edit se compara a outras opções?
- Difusão Estável / SDXL (preenchimento interno): SDXL, juntamente com ControlNet e pipelines de inpainting dedicados, são rápidos, possuem amplo suporte da comunidade de ferramentas e muitos LoRAs; eles se destacam em fluxos de trabalho gerais de inpainting e em velocidade/eficiência. Os pontos fortes do Qwen-Image-Edit são edição de texto bilíngue nativoEm alguns casos, há uma maior consistência entre identidade e produto, além de compensações integradas entre semântica e aparência. Comparações entre comunidades mostram que o Qwen geralmente apresenta melhor desempenho em fidelidade de edição e aderência ao texto, porém com um custo computacional mais elevado.
- Editores de código fechado (Adobe Firefly / DALL·E / Runway): APIs fechadas podem ser muito refinadas (interface do usuário, moderação integrada, garantias de latência), mas o Qwen-Image-Edit se destaca como uma alternativa totalmente aberta, voltada especificamente para edição robusta de texto bilíngue e que oferece implantação local. A escolha prática geralmente depende da necessidade de controle local/licenciamento aberto ou de uma experiência de usuário refinada na nuvem.
Casos de uso prático
- Edições de pôsteres e sinalização — Alterar o texto nos cartazes, preservando a fonte/textura.
- Marketing de produto / criação de pôsteres — Adicionar/remover itens, manter a identidade do produto para imagens de comércio eletrônico.
- Edições de retratos que preservam a identidade — mudanças de pose, transferências de estilo, mantendo a identidade consistente (aprimorado em 2509).
- Restauração e correção de caligrafia — Restauração de fotos antigas e correção passo a passo de caracteres manuscritos/impressos.
- Fluxos de trabalho criativos/de design — Edições de composição com múltiplas imagens, geração de memes, estilização de avatares onde pode haver texto bilíngue envolvido.
Como chamar a API qwen-image-edit a partir da CometAPI
qwen-image-edit Preços da API no CometAPI, 20% de desconto sobre o preço oficial:
| Tokens de entrada | $2.00 |
| Tokens de saída | $6.40 |
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro.
- Faça login na sua Console CometAPI.
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.

Use o método
- Selecione o endpoint “qwen-image-edit” para enviar a solicitação à API e defina o corpo da solicitação. O método e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também oferece um teste com o Apifox para sua conveniência.
- Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para edição de imagem:
- URL base: https://api.cometapi.com/v1/images/edits
- Nomes de modelo: qwen-image-edit
- Autenticação:
Bearer YOUR_CometAPI_API_KEYcabeçalho - Tipo de conteúdo:
application/json.
Veja também API Qwen-image
