Alibaba Cloud lance le modèle multimodal Qwen-VLo et met à niveau ses capacités d'image

La division IA d'Alibaba Cloud a été officiellement lancée Qwen-VLo, la dernière version de la gamme de modèles multimodaux Qwen, marque une avancée significative dans les capacités unifiées de vision et de langage. Annoncé le 28 juin 2025, Qwen-VLo offre des fonctionnalités de compréhension et de génération, bien au-delà de ses prédécesseurs, incluant la création et l'édition d'images haute résolution pilotées par des invites en langage naturel et des entrées visuelles.

S'appuyant sur des versions antérieures telles que Qwen‑VL et Qwen2.5‑VL, Qwen‑VLo représente ce qu'Alibaba décrit comme une « mise à niveau complète » de l'IA multimodale. Alors que Qwen‑VL se concentrait principalement sur l'interprétation des informations visuelles et que Qwen2.5‑VL améliorait la compréhension contextuelle à long terme, Qwen‑VLo intègre ces atouts dans un cadre unique capable d'exécuter des tâches bidirectionnelles vision-langage. Il prend en charge des instructions ouvertes, plusieurs langues, dont le chinois et l'anglais, et affine ses résultats pour rivaliser avec ceux des artistes humains.

Fonctionnalités clés

Génération d'images progressives

Qwen-VLo construit les images par étapes, de gauche à droite et de haut en bas, en affinant itérativement le contenu prédit pour garantir la cohérence et l'harmonie visuelle. Ce mécanisme améliore l'efficacité de la génération et le contrôle de l'utilisateur sur le processus créatif.

Prise en charge de la résolution dynamique

Grâce à l'apprentissage dynamique de la résolution, le modèle peut gérer des résolutions d'entrée/sortie et des formats d'image arbitraires. Les utilisateurs peuvent générer du contenu adapté à divers scénarios, tels que des bannières web, des couvertures pour les réseaux sociaux ou des affiches haute résolution, sans être limités par des formats fixes.

Édition d'instructions ouvertes

Grâce à des invites en langage naturel, Qwen VLo peut effectuer des modifications avancées telles que des transferts de style (« Appliquer un style Van Gogh »), des transformations composites (« Ajouter un ciel ensoleillé ») et des modifications multidimensionnelles en une seule instruction. Il prend également en charge l'extraction et la modification de signaux visuels traditionnels tels que les cartes de profondeur, les masques de segmentation et les contours des contours.

Interaction multilingue

Le modèle accepte des commandes dans plusieurs langues (prenant actuellement en charge le chinois et l'anglais), répondant ainsi aux besoins d'une base d'utilisateurs mondiale et supprimant les barrières linguistiques dans les flux de travail créatifs.

Disponibilité et accès

Qwen‑VLo est actuellement disponible en avant-première via la plateforme Qwen Chat à chat.qwen.aiAlibaba Cloud a constaté que, s'agissant d'une version préliminaire, les utilisateurs pourraient rencontrer des incohérences ou des inexactitudes factuelles lors de la génération. L'équipe de développement travaille activement à corriger ces limitations avant un déploiement plus large.

En coulisses, les ingénieurs en IA d'Alibaba ont optimisé Qwen-VLo pour un déploiement dans les environnements cloud et edge. Grâce à une quantification à précision mixte et à de nouvelles techniques de réglage fin optimisées par paramètres, le modèle maintient des performances élevées sur une empreinte de calcul compacte. Alibaba a également intégré des pipelines d'inférence adaptatifs pour équilibrer latence et qualité, garantissant ainsi que Qwen-VLo puisse prendre en charge des applications sensibles à la latence, telles que des outils de conception interactifs, tout en s'adaptant aux charges de travail d'entreprise sur Alibaba Cloud.

Comparer aux Qwen-VL-Plus/Max

Dimension de la fonction	Qwen-VL-Plus/Max	Qwen VLo
Compréhension des images	Classification de base, description	Reconnaissance de structures multidimensionnelles, compréhension contextuelle améliorée
Génération d'image	Prise en charge limitée du style	Haute précision, génération progressive, fortes capacités de contrôle de style
Capacité multitâche	Nécessite une saisie spécifique à la tâche	Multitâche unifié, prend en charge les instructions en langage complexe
Interaction multilingue	Support limité	Prise en charge native du chinois et de l'anglais, contrôle du langage naturel plus fluide
Capacité de préservation des détails	Perte de détails possible lors de la génération	Identification et reconstruction précises des structures et sémantiques clés

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Pour commencer, explorez les capacités des modèles dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.

La dernière intégration de l'API Qwen-VLo apparaîtra bientôt sur CometAPI, alors restez à l'écoute ! Pendant que nous finalisons le téléchargement du modèle Qwen-VLo, explorez nos autres modèles sur le Page des modèles ou essayez-les dans le Aire de jeux IALe dernier modèle de Qwen dans CometAPI est API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.