Qwen-Image-Edit est la branche édition de la famille d'images Qwen, développée par l'équipe Qwen (écosystème Alibaba/QwenLM). Basée sur une architecture MMDiT à 20 milliards de paramètres, elle étend les fonctionnalités avancées de rendu de texte de Qwen-Image pour créer des flux de travail d'édition d'images robustes. Ce modèle est conçu pour les tâches exigeant une grande précision d'édition : modification directe du texte sur les panneaux, préservation des polices et de la mise en page, ajout/suppression d'objets avec maintien de la cohérence sémantique, transformations de point de vue/pose et transferts de style précis.
Fonctionnalités
- Édition de texte précise directement dans l'image (bilingue : chinois et anglais) — ajouter, supprimer ou remplacer du texte tout en préservant autant que possible la police, la taille et le style.
- Deux modes d'édition : sémantique et esthétique — prend en charge les modifications sémantiques de haut niveau (reposition, remplacement d'objets, point de vue) et les modifications d'apparence de bas niveau (transfert de style, texture, retouche locale).
- Masque / région / modifications multi-tours — Prend en charge le remplissage masqué, les invites de région et les modifications enchaînées pour les flux de travail d'amélioration itératifs.
- Entrées multi-images (dernière version) : L'itération 2509 ajoute la prise en charge de l'édition multi-images (par exemple, personne+personne, personne+produit), une meilleure cohérence identité/produit/texte et des entrées natives de style ControlNet.
Détails techniques
- Échelle de base / famille : construit sur le Paramètre 20B Modèle de fondation Qwen-Image (diffusion de style MMDiT / conception multimodale).
- Pipeline d'édition à double encodage : Le module d'édition reçoit (1) une représentation sémantique via un encodeur visuel Qwen2.5-VL et (2) une représentation reconstructive via un encodeur VAE. Le traitement parallèle de ces deux représentations permet à la tête d'édition d'optimiser le compromis entre modification sémantique et fidélité des pixels. Ce double encodage constitue un choix technique fondamental pour des éditions robustes.
- Formation progressive / curriculaire : La formation a progressé des tâches simples de rendu et de génération de texte vers des objectifs complexes de rendu de texte au niveau du paragraphe et d'édition multitâche (reconstruction T2I, TI2I et I2I). Ce cursus est considéré comme un facteur déterminant de l'amélioration de la fidélité du texte et de la stabilité de l'édition du modèle.
- Modèle de saveur / modules : Qwen-Image-Edit est décrit comme un modèle 20B de type MMDiT qui intègre des composants Qwen2.5-VL, une tête d'édition de diffusion et des composants VAE pour le contrôle de l'apparence.
Performances de référence
Performances de pointe revendiquées par rapport aux autres benchmarks : L'équipe Qwen annonce des résultats de pointe (SOTA) ou de premier ordre sur plusieurs benchmarks publics de génération et d'édition d'images, notamment GenEval, DPG, OneIG-Bench (génération) et GEdit, ImgEdit, GSO (édition).

Limitations et mises en garde (pratiques)
- Artefacts et cas limites : Les tests effectués par la communauté révèlent parfois une sursaturation, des artefacts de texture de peau ou des raccords de composition dans certaines modifications très détaillées ; les versions dérivées de Lightning développées par la communauté visent à atténuer ces problèmes.
- Calcul / mémoire : Le modèle 20B et les pipelines d'édition en pleine précision nécessitent une utilisation intensive du GPU. Le déploiement local tire parti du format bfloat16/FP8 et des flux de travail d'échantillonnage optimisés (des variantes « éclair » à 4 ou 8 étapes existent pour réduire la VRAM et la latence).
- Sécurité et propriété intellectuelle : Comme tous les logiciels de traitement d'images généralistes, Qwen-Image-Edit peut générer des caractères protégés par le droit d'auteur ou du contenu sensible ; son utilisation en production nécessite des contrôles de modération et l'obtention des autorisations nécessaires. (Bonne pratique courante en entreprise.)
- Modes de défaillance : Les caractères/mots obscurs ou très rares peuvent encore être rendus incorrectement ou nécessiter des modifications itératives (« enchaînées ») pour converger (les auteurs notent des exemples comme les glyphes chinois rares nécessitant des corrections par étapes).
Comment Qwen-Image-Edit se compare-t-il aux autres options ?
- Diffusion stable / SDXL (remplissage) : SDXL, ControlNet et les pipelines de remplissage dédiés sont rapides, bénéficient d'un large support de la communauté d'outils et de nombreuses bibliothèques de ressources (LoRA) ; ils excellent dans les flux de travail de remplissage généraux et offrent rapidité et efficacité. Les points forts de Qwen-Image-Edit sont : édition de texte bilingue nativeQwen offre une meilleure cohérence entre l'identité et le produit dans certains cas, ainsi que des compromis intégrés entre sémantique et apparence. Les comparaisons au sein de la communauté montrent que Qwen obtient souvent de meilleurs résultats en matière de fidélité d'édition et de respect du texte, mais au prix d'un coût de calcul plus élevé.
- Éditeurs à code source fermé (Adobe Firefly / DALL·E / Runway) : Les API fermées peuvent être très abouties (interface utilisateur, modération intégrée, garanties de latence), mais Qwen-Image-Edit se distingue comme une alternative entièrement ouverte, spécifiquement conçue pour l'édition de texte bilingue robuste et offrant un déploiement local. Le choix pratique dépend souvent de vos besoins : contrôle local/licence ouverte ou expérience utilisateur cloud optimisée.
Cas d'utilisation pratiques
- Modifications des affiches et de la signalétique — Modifier le texte des affiches tout en préservant la police et la texture.
- Création d'affiches pour le marketing produit — ajouter/supprimer des articles, maintenir l'identité des produits pour les images de commerce électronique.
- Modifications préservant l'identité du portrait — changements de pose, transferts de style tout en conservant une identité cohérente (amélioré en 2509).
- Restauration et correction de calligraphie — Restauration de photos anciennes et correction progressive des caractères manuscrits/imprimés.
- Flux de travail créatifs/de conception — Montage de compositions multi-images, génération de mèmes, stylisme d'avatars pouvant inclure du texte bilingue.
Comment appeler l'API qwen-image-edit depuis CometAPI
qwen-image-edit Tarification de l'API dans CometAPI, 20 % de réduction sur le prix officiel :
| Jetons d'entrée | $2.00 |
| Jetons de sortie | $6.40 |
Étapes requises
- Se connecter à cometapi.comSi vous n'êtes pas encore notre utilisateur, veuillez d'abord vous inscrire.
- Connectez-vous à votre Console CometAPI.
- Obtenez la clé API d'accès à l'interface. Cliquez sur « Ajouter un jeton » au niveau du jeton API dans l'espace personnel, récupérez la clé : sk-xxxxx et validez.

Utiliser la méthode
- Sélectionnez le point de terminaison « qwen-image-edit » pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Des tests Apifox sont également disponibles sur notre site web.
- Remplacer avec votre clé CometAPI réelle de votre compte.
- Insérez votre question ou demande dans le champ de contenu : c'est à cela que le modèle répondra.
- Traitez la réponse de l'API pour obtenir la réponse générée.
CometAPI fournit une API REST entièrement compatible, pour une migration fluide. Informations clés retouche d'image:
- URL de base : https://api.cometapi.com/v1/images/edits
- Noms de modèle: qwen-image-edit
- Authentification:
Bearer YOUR_CometAPI_API_KEYentête - Content-Type:
application/json.
Voir aussi
API d'images Qwen
