API de edição de imagens Qwen

CometAPI
AnnaNov 12, 2025
API de edição de imagens Qwen

O Qwen-Image-Edit é a vertente de edição da família de ferramentas de imagem Qwen, desenvolvida pela equipe Qwen (ecossistema Alibaba/QwenLM). É construído sobre uma estrutura MMDiT de 20 bilhões de parâmetros e estende explicitamente os recursos avançados de renderização de texto do Qwen-Image para fluxos de trabalho robustos de edição de imagens. O modelo destina-se a tarefas em que a fidelidade da edição é crucial — por exemplo, alterar diretamente o texto em placas, preservar fontes e layout, adicionar/remover objetos mantendo a consistência semântica, transformações de ponto de vista/pose e transferências de estilo precisas.

Características chave

  • Edição precisa de texto na imagem (bilíngue: chinês e inglês) — Adicionar, remover ou substituir texto, preservando ao máximo a fonte, o tamanho e o estilo.
  • Modos de edição dupla: semântica + aparência — Suporta alterações semânticas de alto nível (repouso, substituição de objetos, ponto de vista) e edições de aparência de baixo nível (transferência de estilo, textura, retoque local).
  • Máscara / região / edições de múltiplas voltas — Suporta preenchimento mascarado, sugestões de região e edições encadeadas para fluxos de trabalho de refinamento iterativo.
  • Entradas de múltiplas imagens (versão mais recente): A versão 2509 adiciona suporte para edição de múltiplas imagens (por exemplo, pessoa+pessoa, pessoa+produto), consistência aprimorada de identidade/produto/texto e entradas nativas no estilo ControlNet.

Detalhes técnicos

  • Escala base / família: construído sobre Parâmetro 20B Modelo fundamental Qwen-Image (difusão no estilo MMDiT / design multimodal).
  • Pipeline de edição com codificação dupla: O módulo de edição recebe (1) uma representação semântica por meio de um codificador visual Qwen2.5-VL e (2) uma representação reconstrutiva por meio de um codificador VAE. O processamento paralelo de ambas as representações permite que a cabeça de edição equilibre a mudança semântica com a fidelidade dos pixels. Essa codificação dupla é uma escolha fundamental de engenharia para edições robustas.
  • Treinamento progressivo/curricular: O treinamento progrediu de tarefas mais simples de renderização e geração de texto para objetivos complexos de renderização de texto em nível de parágrafo e edição multitarefa (reconstrução T2I, TI2I e I2I). Relata-se que esse currículo é um fator central na melhoria da fidelidade do texto e na estabilidade da edição do modelo.
  • Sabor/módulos do modelo: O Qwen-Image-Edit é descrito como um modelo 20B no estilo MMDiT que integra componentes do Qwen2.5-VL, uma cabeça de edição por difusão e componentes VAE para controle de aparência.

Desempenho de referência

SOTA (State of the Advanced Technology) entre benchmarks: A equipe Qwen relata resultados de última geração (SOTA) ou de alto nível em vários benchmarks públicos de geração e edição de imagens — incluindo GenEval, DPG, OneIG-Bench (geração) e GEdit, ImgEdit, GSO (edição).

API de edição de imagens Qwen

Limitações e ressalvas (práticas)

  1. Artefatos e casos extremos: Os testes da comunidade mostram saturação excessiva ocasional, artefatos na textura da pele ou falhas de composição em algumas edições de alta resolução; as versões modificadas da iluminação desenvolvidas pela comunidade visam atenuar esses problemas.
  2. Computação/memória: O modelo 20B e os pipelines de edição de precisão total exigem muito da GPU. A implementação local se beneficia do bfloat16/FP8 e de fluxos de trabalho de amostragem otimizados (existem variantes "lightning" de 4/8 etapas para reduzir a VRAM e a latência).
  3. Segurança e Propriedade Intelectual: Assim como todos os editores de imagens de uso geral, o Qwen-Image-Edit pode gerar caracteres protegidos por direitos autorais ou conteúdo sensível — o uso em produção requer controles de moderação e autorização de direitos. (Prática recomendada típica para empresas.)
  4. Modos de falha: Caracteres/palavras obscuros ou muito raros ainda podem ser renderizados incorretamente ou exigir edições iterativas ("em cadeia") para convergir (os autores citam exemplos como glifos chineses raros que exigem correções passo a passo).

Como o Qwen-Image-Edit se compara a outras opções?

  • Difusão Estável / SDXL (preenchimento interno): SDXL, juntamente com ControlNet e pipelines de inpainting dedicados, são rápidos, possuem amplo suporte da comunidade de ferramentas e muitos LoRAs; eles se destacam em fluxos de trabalho gerais de inpainting e em velocidade/eficiência. Os pontos fortes do Qwen-Image-Edit são edição de texto bilíngue nativoEm alguns casos, há uma maior consistência entre identidade e produto, além de compensações integradas entre semântica e aparência. Comparações entre comunidades mostram que o Qwen geralmente apresenta melhor desempenho em fidelidade de edição e aderência ao texto, porém com um custo computacional mais elevado.
  • Editores de código fechado (Adobe Firefly / DALL·E / Runway): APIs fechadas podem ser muito refinadas (interface do usuário, moderação integrada, garantias de latência), mas o Qwen-Image-Edit se destaca como uma alternativa totalmente aberta, voltada especificamente para edição robusta de texto bilíngue e que oferece implantação local. A escolha prática geralmente depende da necessidade de controle local/licenciamento aberto ou de uma experiência de usuário refinada na nuvem.

Casos de uso prático

  • Edições de pôsteres e sinalização — Alterar o texto nos cartazes, preservando a fonte/textura.
  • Marketing de produto / criação de pôsteres — Adicionar/remover itens, manter a identidade do produto para imagens de comércio eletrônico.
  • Edições de retratos que preservam a identidade — mudanças de pose, transferências de estilo, mantendo a identidade consistente (aprimorado em 2509).
  • Restauração e correção de caligrafia — Restauração de fotos antigas e correção passo a passo de caracteres manuscritos/impressos.
  • Fluxos de trabalho criativos/de design — Edições de composição com múltiplas imagens, geração de memes, estilização de avatares onde pode haver texto bilíngue envolvido.

Como chamar a API qwen-image-edit a partir da CometAPI

qwen-image-edit Preços da API no CometAPI, 20% de desconto sobre o preço oficial:

Tokens de entrada$2.00
Tokens de saída$6.40

Etapas Necessárias

  • Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro.
  • Faça login na sua Console CometAPI.
  • Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.

API de edição de imagens Qwen

Use o método

  1. Selecione o endpoint “qwen-image-edit” para enviar a solicitação à API e defina o corpo da solicitação. O método e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também oferece um teste com o Apifox para sua conveniência.
  2. Substituir com sua chave CometAPI real da sua conta.
  3. Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
  4. . Processe a resposta da API para obter a resposta gerada.

A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para edição de imagem:

Veja também API Qwen-image

Leia Mais

500+ Modelos em Uma API

Até 20% de Desconto