Alibaba dévoile Wan 2.2 : le premier modèle de génération vidéo MoE open source au monde

L'Académie DAMO d'Alibaba a été officiellement lancée aujourd'hui Wan 2.2, une suite de nouvelle génération de modèles de génération vidéo open source construits sur un Mélange d'experts (MoE) Wan 2.2 promet des améliorations révolutionnaires en termes d'efficacité de calcul, de fidélité du mouvement et d'expressivité cinématographique, permettant aux développeurs et aux créateurs de générer des vidéos 1080p de haute qualité à partir d'invites de texte ou d'image avec un contrôle et une flexibilité sans précédent. Wan 2.2 offre des gains significatifs en termes de qualité de mouvement, de détails visuels et d'efficacité de calcul par rapport à son prédécesseur, Wan 2.1.

Principales innovations de Wan 2.2

1. Pipeline de débruitage piloté par MoE

Grâce aux sous-réseaux, le système peut allouer les ressources là où elles sont les plus importantes : des grandes lignes pour la mise en scène, suivies d'un affinement des détails. Cette conception permet au modèle phare de Wan 2.2 d'afficher 27 milliards de paramètres au total tout en n'en activant que 14 milliards par passe d'inférence, réduisant ainsi de moitié les ressources de calcul nécessaires à la synthèse vidéo de haute qualité.

Expert en bruit élevé se concentre sur l'établissement des trajectoires de mouvement globales et de la composition de la scène.
Expert en faible bruit applique une texture méticuleuse, des détails du visage et des nuances d'éclairage.

Ce cadre à double expertise garantit que les créateurs peuvent générer des séquences plus longues et plus complexes avec une fidélité cinématographique professionnelle, le tout sans augmenter proportionnellement les demandes de mémoire GPU par rapport à Wan 2.1.

2. Système de contrôle esthétique cinématographique

S'appuyant sur ses innovations architecturales, il introduit un système de contrôle esthétique inédit permettant aux utilisateurs de piloter l'éclairage, l'étalonnage des couleurs, les angles de prise de vue et la composition grâce à des mots-clés intuitifs. En combinant des descripteurs tels que « lueur du coucher de soleil », « lumière douce » ou « composition équilibrée en contre-plongée », les créateurs peuvent générer automatiquement des scènes rappelant les blockbusters hollywoodiens ou les films d'art indépendants. À l'inverse, des entrées comme « tons froids », « éclairage intense » et « cadrage dynamique » produisent des visuels de science-fiction ou de film noir à la demande.

Pour la première fois dans les modèles vidéo d'IA open source, Wan 2.2 intègre un interface de contrôle de qualité cinématographique:

Plus de 60 paramètres réglables couvrant l'éclairage, l'étalonnage des couleurs, le cadrage, les effets d'objectif et la profondeur de champ.
Lien de style intelligent, permettant aux utilisateurs de décrire les ambiances (par exemple, « éclairage noir au crépuscule ») et de laisser le système configurer automatiquement des configurations complexes de caméra et de couleur.
Préréglages cinématiques prédéfinis, tels que « western vintage », « science-fiction néo-Tokyo » et « reportage documentaire », rationalisent les flux de travail créatifs.

3. Physique améliorée et réalisme émotionnel

Wan 2.2 démontre des améliorations marquées dans la simulation des phénomènes du monde réel et des micro-expressions humaines :

Simulation physique pour la dynamique des fluides naturels, l'éclairage volumétrique et les effets de collision.
Capture des micro-expressions faciales, rendant des indices subtils comme des lèvres tremblantes, des mouvements de sourcils et des larmes réprimées avec une grande fidélité.
Gestion de scènes multi-personnes, garantissant des interactions cohérentes et un éclairage uniforme sur les personnages en mouvement.

Variantes et performances du modèle

La version Wan 2.2 comprend :

Wan 2.2-T2V-A14B: Texte en vidéo
Wan 2.2‑I2V‑A14B: Image en vidéo
Wan 2.2-IT2V-5B:Un modèle unifié compact de 5 milliards de paramètres qui s'adapte aux GPU grand public, génération unifiée

La variante 5B exploite un VAE 3D à haute compression pour une réduction des jetons d'espace-temps 4×16×16, permettant une sortie 1080p fluide même sur du matériel modeste.

La suite Wan 2.2 comprend deux offres principales conçues pour différents cas d'utilisation :

Modèle MoE à 14 paramètres B (Wan 2.2-T2V-A14B et Wan 2.2-I2V-A14B)

Utilise l'architecture MoE complète pour une qualité maximale.
Prend en charge les flux de travail texte-vidéo et image-vidéo avec une résolution allant jusqu'à 1080p.
Idéal pour la production et la recherche au niveau studio.

Modèle unifié dense à 5 paramètres (Wan 2.2-IT2V-5B)

Un modèle compact et axé sur les performances déployable sur un seul GPU grand public (par exemple, NVIDIA RTX 4090).
Génère des vidéos 720p, 24 ips en quelques minutes, en exploitant un VAE 3D à haute compression pour obtenir un sous-échantillonnage temporel et spatial 4×16×16 avec une perte de qualité minimale.
Réduit la barrière pour les amateurs et les petites équipes qui souhaitent expérimenter la génération de vidéos IA.

Les tests indiquent que le modèle plus petit peut fournir un clip haute définition de 5 secondes en moins de cinq minutes sur un matériel de jeu standard, faisant de Wan 2.2 l'une des solutions open source les plus rapides de sa catégorie.

Engagement en matière d'accessibilité et d'open source

Conformément à l'engagement d'Alibaba de démocratiser l'IA, Wan 2.2 est entièrement open source et librement accessible via plusieurs plateformes :

GitHub et Hugging Face pour les téléchargements directs de modèles et de codes.
Communauté Moda pour les extensions et intégrations pilotées par la communauté.
API Alibaba Cloud BaiLian pour un hébergement de niveau entreprise, à la demande.
Site Web et application de Tongyi Wanxiang pour une expérimentation sans code basée sur un navigateur.

Depuis début 2025, la série Wan a accumulé plus de 5 millions de téléchargements au sein de la communauté open source, soulignant son rôle dans la promotion de l'innovation collaborative et du développement des compétences parmi les praticiens de l'IA à l'échelle mondiale.

Implications pour l'industrie

La sortie de Wan 2.2 marque un tournant dans la réalisation de films et la création de contenu assistés par l'IA :

Potentiel commercial : Les marques, les annonceurs et les plateformes de médias sociaux peuvent bénéficier du prototypage rapide d’actifs vidéo, de créations publicitaires personnalisées et de formats de narration dynamiques.

Abaisser les barrières : Les professionnels et les créateurs indépendants peuvent désormais réaliser une production vidéo de niveau studio sans matériel ni licences logicielles coûteuses.

Catalyseur d'innovation : L’open source d’un modèle vidéo génératif basé sur le MoE accélère la collaboration en matière de recherche, générant potentiellement de nouvelles architectures et de nouveaux outils artistiques.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

La dernière intégration Wan 2.2 apparaîtra bientôt sur CometAPI, alors restez à l'écoute ! Pendant que nous finalisons le téléchargement du modèle Gemini 2.5 Flash‑Lite, explorez nos autres modèles sur la page Modèles ou essayez-les dans l'IA Playground.

En attendant, les développeurs peuvent accéder API Veo 3 et API vidéo Midjourney à travers API Comet Pour générer de la vidéo au lieu du WAN 2.2, les dernières versions des modèles Claude répertoriées sont celles en vigueur à la date de publication de l'article. Pour commencer, explorez les fonctionnalités du modèle dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

En résumé, le Wan 2.2 d'Alibaba non seulement fait progresser l'état de l'art en matière d'IA vidéo, mais illustre également comment les écosystèmes open source peuvent accélérer les progrès et diversifier les cas d'usage. Alors que les développeurs commencent à expérimenter son architecture MoE et ses contrôles cinématiques, la prochaine vague de contenu vidéo généré par l'IA pourrait bien émerger des communautés qu'Alibaba a contribué à dynamiser.