Alibaba presenta Wan 2.2: il primo modello di generazione video MoE open source al mondo

La DAMO Academy di Alibaba è stata ufficialmente lanciata oggi Wan 2.2, una suite di nuova generazione di modelli di generazione video open source basati su un Mix di esperti (MoE) Architettura. WAN 2.2 promette miglioramenti rivoluzionari in termini di efficienza computazionale, fedeltà del movimento ed espressività cinematografica, consentendo a sviluppatori e creatori di generare video 1080p di alta qualità da prompt di testo o immagini con un controllo e una flessibilità senza precedenti. WAN 2.2 offre miglioramenti significativi in termini di qualità del movimento, dettagli visivi ed efficienza computazionale rispetto al suo predecessore, WAN 2.1.

Innovazioni chiave in Wan 2.2

1. Pipeline di denoising guidata dal MoE

Grazie alle sottoreti, il sistema può allocare le risorse dove più servono: ampi dettagli per il layout della scena seguiti da un affinamento dei dettagli più dettagliato. Questa progettazione consente al modello di punta di Wan 2.2 di vantare 27 miliardi di parametri totali attivandone solo 14 miliardi per passaggio di inferenza, dimezzando di fatto le risorse di elaborazione necessarie per una sintesi video di alta qualità.

Esperto di rumore elevato si concentra sulla definizione delle traiettorie di movimento complessive e sulla composizione della scena.
Esperto di bassa rumorosità applica meticolosamente texture, dettagli del viso e sfumature di luce.

Questo framework dual-expert garantisce ai creatori la possibilità di generare sequenze più lunghe e complesse con fedeltà cinematografica professionale, il tutto senza aumentare proporzionalmente le richieste di memoria GPU rispetto a Wan 2.1.

2. Sistema di controllo estetico cinematografico

Basandosi sulle sue innovazioni architettoniche, introduce un inedito "Film Aesthetics Control System" che consente agli utenti di gestire illuminazione, color grading, angolazioni di ripresa e composizione tramite prompt di parole chiave intuitive. Combinando descrittori come "bagliore del tramonto", "luce soffusa" o "composizione bilanciata dal basso", i creatori possono generare automaticamente scene che ricordano i blockbuster hollywoodiani o i film d'autore indipendenti. Al contrario, input come "toni freddi", "illuminazione intensa" e "inquadratura dinamica" producono immagini in stile fantascientifico o noir su richiesta.

Per la prima volta nei modelli video AI open source, Wan 2.2 integra un interfaccia di controllo di qualità cinematografica:

Oltre 60 parametri regolabili che riguardano l'illuminazione, la gradazione del colore, l'inquadratura, gli effetti delle lenti e la profondità di campo.
Collegamento di stile intelligente, consentendo agli utenti di descrivere gli stati d'animo (ad esempio, "illuminazione noir al crepuscolo") e di far sì che il sistema configuri automaticamente complesse impostazioni di telecamera e colore.
Preset cinematografici predefiniti, come "western vintage", "fantascienza neo-tokyo" e "reportage documentaristico", semplificano i flussi di lavoro creativi.

3. Fisica migliorata e realismo emotivo

Wan 2.2 dimostra notevoli miglioramenti nella simulazione di fenomeni del mondo reale e di microespressioni umane:

Simulazione fisica per la dinamica dei fluidi naturali, l'illuminazione volumetrica e gli effetti di collisione.
Cattura delle microespressioni facciali, riproducendo con elevata fedeltà segnali sottili come labbra tremanti, movimenti delle sopracciglia e lacrime trattenute.
Gestione di scene multi-persona, garantendo interazioni coerenti e un'illuminazione uniforme tra i personaggi in movimento.

Varianti del modello e prestazioni

La versione Wan 2.2 include:

Wan 2.2‑T2V‑A14B: Testo-Video
Wan 2.2‑I2V‑A14B: Immagine-Video
Wan 2.2‑IT2V‑5B: Un modello unificato compatto da 5 miliardi di parametri che si adatta alle GPU di livello consumer, Unified Generation

La variante 5B sfrutta un VAE 3D ad alta compressione per una riduzione del token spazio-tempo 4×16×16, consentendo un output 1080p fluido anche su hardware modesto.

La suite Wan 2.2 include due offerte principali progettate per diversi casi d'uso:

Modello MoE a 14B parametri (Wan 2.2-T2V-A14B e Wan 2.2-I2V-A14B)

Utilizza l'intera architettura MoE per la massima qualità.
Supporta flussi di lavoro da testo a video e da immagine a video con una risoluzione fino a 1080p.
Ideale per la produzione e la ricerca a livello di studio.

Modello unificato denso a 5 parametri (Wan 2.2-IT2V-5B)

Un modello compatto e orientato alle prestazioni, implementabile su una singola GPU di livello consumer (ad esempio, NVIDIA RTX 4090).
Genera video 720p, 24 fps in pochi minuti, sfruttando un VAE 3D ad alta compressione per ottenere un downsampling temporale e spaziale 4×16×16 con una perdita di qualità minima.
Riduce le barriere che impediscono agli appassionati e ai piccoli team di sperimentare la generazione di video tramite intelligenza artificiale.

I benchmark indicano che il modello più piccolo è in grado di riprodurre una clip ad alta definizione di 5 secondi in meno di cinque minuti su hardware da gioco standard, rendendo Wan 2.2 una delle soluzioni open source più veloci della sua categoria.

Accessibilità e impegno open source

In linea con l'impegno di Alibaba di democratizzare l'intelligenza artificiale, Wan 2.2 è completamente open source e liberamente accessibile tramite più piattaforme:

GitHub e Hugging Face per scaricare direttamente modelli e codici.
Comunità Moda per estensioni e integrazioni guidate dalla comunità.
API BaiLian di Alibaba Cloud per un hosting on-demand di livello aziendale.
Sito web e app Tongyi Wanxiang per la sperimentazione senza codice basata sul browser.

Dall'inizio del 2025, la serie Wan ha totalizzato oltre 5 milioni di download nella comunità open source, sottolineando il suo ruolo nel promuovere l'innovazione collaborativa e lo sviluppo delle competenze tra i professionisti dell'intelligenza artificiale a livello globale.

Implicazioni sul settore

Il rilascio di Wan 2.2 segna un momento cruciale nella produzione cinematografica e nella creazione di contenuti assistiti dall'intelligenza artificiale:

Potenziale commerciale: I marchi, gli inserzionisti e le piattaforme dei social media trarranno vantaggio dalla rapida prototipazione di risorse video, creatività pubblicitarie personalizzate e formati di storytelling dinamici.

Abbassare le barriere: Professionisti e creatori indipendenti possono ora ottenere una produzione video di livello quasi da studio, senza dover acquistare costose licenze hardware o software.

Catalizzatore di innovazione: Rendere open source un modello video generativo basato sul MoE accelera la collaborazione nella ricerca, dando potenzialmente vita a nuove architetture e strumenti artistici.

Iniziamo

CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie GPT di OpenAI, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più velocemente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.

L'ultima integrazione Wan 2.2 apparirà presto su CometAPI, quindi rimanete sintonizzati! Mentre concludiamo il caricamento del modello Gemini 2.5 Flash‑Lite, esplorate gli altri nostri modelli nella pagina Modelli o provateli in AI Playground.

Nell'attesa, gli sviluppatori possono accedere API di Veo 3 e al API video di Midjourney attraverso CometaAPI Per generare video invece di WAN 2.2, le ultime versioni di Claude Models elencate sono quelle aggiornate alla data di pubblicazione dell'articolo. Per iniziare, esplora le capacità del modello in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. CometaAPI offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.

In sintesi, Wan 2.2 di Alibaba non solo rappresenta un progresso all'avanguardia nell'intelligenza artificiale video, ma esemplifica anche come gli ecosistemi open source possano accelerare il progresso e diversificare i casi d'uso. Man mano che gli sviluppatori iniziano a sperimentare la sua struttura portante MoE e i controlli cinematografici, la prossima ondata di contenuti video generati dall'intelligenza artificiale potrebbe emergere proprio dalle comunità che Alibaba ha contribuito a potenziare.