Le modèle Qwen-Image peut-il redéfinir la génération et l'édition d'images par l'IA ?

Le 4 août 2025, l'équipe Qwen d'Alibaba a été officiellement lancée Qwen-Image, un modèle de base de transformateur de diffusion multimodal (MMDiT) à 20 milliards de paramètres, conçu pour offrir une fidélité sans précédent en matière de synthèse texte-image et d'édition d'images de précision. Cette version marque l'entrée audacieuse d'Alibaba dans le domaine de la génération d'images open source, positionnant Qwen-Image comme un concurrent direct des systèmes propriétaires tels que GPT-4o, DALL·E 2 et Midjourney d'OpenAI.

Innovations techniques

Qwen-Image 20 B MMDiT Backbone représente une prouesse d'ingénierie majeure, permettant au modèle d'exceller dans le rendu de contenu textuel complexe directement dans les images générées. Son approche pédagogique commence par des tâches simples de rendu non textuel et progresse progressivement vers la gestion de descriptions de plusieurs paragraphes, offrant une fidélité exceptionnelle dans les langages alphabétiques et logographiques. De plus, le modèle intègre un double codage mécanisme — traitant séparément les représentations sémantiques et reconstructives via Qwen2.5-VL et un encodeur VAE — qui établit un équilibre entre le maintien de la cohérence sémantique et le réalisme visuel lors des modifications d'images.

Avancées dans le rendu et l'édition de texte

Un différenciateur clé pour Qwen-Image est son prise en charge native du texte intégré, lui permettant d'insérer du texte lisible en anglais et en chinois dans des images, sur plusieurs lignes et dans des contextes de paragraphe. Des tests internes montrent que Qwen-Image surpasse de nombreux concurrents open source en termes de rapidité et de clarté du texte, ce qui le rend idéal pour les applications nécessitant des éléments de conception multilingues. Ses capacités d'édition d'images bénéficient également d'un paradigme d'apprentissage multitâche intégrant des tâches de reconstruction texte-image, texte-image-image et image-image, améliorant ainsi la cohérence lors de la modification des visuels existants.

Des évaluations indépendantes démontrent la supériorité de Qwen-Image sur plusieurs modèles open source et propriétaires de premier plan en termes de précision d'intégration de texte. Lors de tests comparatifs, il surpasse les alternatives open source de milieu de gamme et rivalise avec des offres commerciales telles que Midjourney en termes de respect des invites, notamment pour les invites bilingues combinant anglais et chinois. Si certains systèmes propriétaires peuvent encore être les meilleurs pour la génération de scènes ultra-complexes, les premiers retours utilisateurs soulignent la clarté inégalée de Qwen-Image pour les mises en page de texte multilingues et ses commandes d'édition robustes.

Conformément à l'engagement d'Alibaba en faveur d'une IA « ouverte, transparente et durable », Qwen-Image est open-source Sur la plateforme MoDa, la communauté est invitée à contribuer et à personnaliser. Parallèlement à la publication du modèle, Alibaba a publié une documentation complète, des exemples de code et un portail de commentaires pour faciliter les tests en conditions réelles dans divers cas d'utilisation, des pipelines de publication automatisés aux outils pédagogiques interactifs.

Résultats de l'évaluation

Les benchmarks internes d'Alibaba et les évaluations de tiers brossent un tableau des performances de premier plan de Qwen-Image :

GenEval (génération d'images générales) : A atteint une distance d'apparition de Fréchet (FID) de 10.2, surpassant les modèles comparables à 20 paramètres B de 9 % en moyenne.
LongText-Bench (rendu de texte) : Marqué 92.7% précision dans le placement de texte multiligne et l'intégrité des glyphes, surpassant GPT-4.1 de 14 %.
GEdit/ImgEdit (Retouche d'images) : A enregistré un score d'opinion moyen (MOS) de 4.3/5, reflétant une grande satisfaction des utilisateurs quant au maintien de la cohérence sémantique lors des modifications
OneIG-Bench (génération d'infographie) : Classé parmi les trois meilleurs modèles pour le rendu visuel de données structurées et de graphiques directement à partir d'invites, démontrant de solides capacités de mise en page et de sélection de couleurs.
Classement du classement:Dans le classement de l'arène d'images d'analyse artificielle, Qwen-Image occupe actuellement la 5e place parmi tous les modèles de génération d'images et est la seule entrée de poids ouvert dans le top 10, démontrant ainsi son avantage concurrentiel dans la communauté de recherche.

Accès et écosystème

L'ensemble de fonctionnalités polyvalentes de Qwen-Image ouvre la voie à une gamme d'applications du monde réel :

Publicité Marketing: Création rapide de visuels promotionnels sur mesure avec slogans intégrés et éléments de texte multilingues.
Contenu pédagogique : Génération automatisée de diagrammes illustratifs, d'infographies et d'images annotées pour les plateformes d'apprentissage en ligne.
Conception et prototypage : Maquettes et concepts artistiques à la volée avec calques modifiables pour des flux de travail créatifs interactifs.
Services de localisation : Adaptation transparente des visuels dans différents contextes linguistiques sans effort de conception graphique manuelle.

Les utilisateurs peuvent interagir avec Qwen-Image via l'interface Chat Qwen d'Alibaba en sélectionnant le mode « Génération d'images », ou intégrer le modèle dans leurs environnements via le référentiel GitHub et les API CometAPI.

Utilisation interactive: Visite chat.qwen.ai et sélectionnez n'importe quel modèle Qwen non codant, puis passez à « Génération d'images » pour commencer la création.
Code et poids:
GitHub: github.com/QwenLM/Qwen-Image
Étreindre le visage:huggingface.co
Modèlescope:modelscope.cn

Alibaba encourage les commentaires et les contributions de la communauté pour favoriser une ouvert, transparent et durable écosystème d'IA générative.

La dernière intégration Qwen-Image apparaîtra bientôt sur CometAPI, alors restez à l'écoute ! Pendant que nous finalisons le téléchargement du modèle Qwen-Image, explorez nos autres modèles sur la page Modèles ou essayez-les dans l'IA Playground.

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Voir aussi

Innovations techniques

Avancées dans le rendu et l'édition de texte

Résultats de l'évaluation

Accès et écosystème

En savoir plus

500+ Modèles en Une API