Alibaba prezentuje WAN 2.2: pierwszy na świecie model generowania wideo MoE z otwartym kodem źródłowym

Akademia DAMO firmy Alibaba została dziś oficjalnie uruchomiona Wan 2.2, pakiet nowej generacji modeli generowania wideo typu open source oparty na Grupa ekspertów (MoE) Architektura. WAN 2.2 obiecuje przełomowe udoskonalenia w zakresie wydajności obliczeniowej, wierności ruchu i ekspresji kinowej, umożliwiając programistom i twórcom generowanie wysokiej jakości filmów 1080p z komunikatów tekstowych lub graficznych z niespotykaną dotąd kontrolą i elastycznością. WAN 2.2 zapewnia znaczną poprawę jakości ruchu, szczegółowości obrazu i wydajności obliczeniowej w porównaniu ze swoim poprzednikiem, WAN 2.1.

Kluczowe innowacje w WAN 2.2

1. Rurociąg odszumiający sterowany przez MoE

Dzięki podsieciom system może alokować zasoby tam, gdzie są one najbardziej potrzebne – od ogólnych zarysów układu sceny, po precyzyjne udoskonalenie szczegółów. Taka konstrukcja pozwala flagowemu modelowi WAN 2.2 na obsługę 27 miliardów parametrów, przy jednoczesnej aktywacji zaledwie 14 miliardów na przebieg wnioskowania, co efektywnie zmniejsza o połowę zasoby obliczeniowe wymagane do syntezy wideo wysokiej jakości.

Ekspert od hałasu koncentruje się na ustaleniu ogólnych trajektorii ruchu i kompozycji sceny.
Ekspert ds. niskiego poziomu hałasu stosuje szczegółową fakturę, detale twarzy i niuanse oświetlenia.

Dzięki temu dwueksperckiemu frameworkowi twórcy mogą tworzyć dłuższe, bardziej złożone sekwencje o profesjonalnej jakości kinowej — wszystko to bez proporcjonalnego zwiększania zapotrzebowania na pamięć GPU w porównaniu z WAN 2.1.

2. System kontroli estetyki kinowej

Bazując na swoich innowacjach architektonicznych, wprowadza bezprecedensowy „System Kontroli Estetyki Filmu”, który pozwala użytkownikom sterować oświetleniem, gradacją kolorów, kątami kamery i kompozycją za pomocą intuicyjnych podpowiedzi słów kluczowych. Łącząc deskryptory takie jak „blask zachodzącego słońca”, „miękkie światło krawędziowe” czy „zrównoważona kompozycja pod niskim kątem”, twórcy mogą automatycznie generować sceny przypominające hollywoodzkie hity kinowe lub niezależne filmy artystyczne. Z kolei takie dane wejściowe jak „chłodna tonacja”, „ostre oświetlenie” i „dynamiczne kadrowanie” pozwalają na tworzenie wizualizacji w stylu science fiction lub noir na żądanie.

Po raz pierwszy w modelach wideo AI typu open source WAN 2.2 integruje interfejs sterowania klasy filmowej:

60+ regulowanych parametrów obejmujące oświetlenie, gradację kolorów, kadrowanie, efekty obiektywu i głębię ostrości.
Inteligentne łączenie stylów, umożliwiając użytkownikom opisywanie nastrojów (np. „mroczne oświetlenie o zmierzchu”) i automatyczne konfigurowanie przez system złożonych ustawień kamery i kolorów.
Predefiniowane ustawienia kinowetakie jak „western vintage”, „neotokijska fantastyka naukowa” i „reportaż dokumentalny” usprawniają kreatywne przepływy pracy.

3. Ulepszona fizyka i realizm emocjonalny

Wan 2.2 wykazuje znaczną poprawę w symulowaniu zjawisk ze świata rzeczywistego i mikroekspresji człowieka:

Symulacja fizyki do badania naturalnej dynamiki płynów, oświetlenia objętościowego i efektów zderzeń.
Rejestrowanie mikroekspresji twarzy, oddając z dużą wiernością subtelne sygnały, takie jak drżenie ust, ruch brwi i powstrzymywane łzy.
Obsługa scen wieloosobowych, zapewniając spójne interakcje i jednolite oświetlenie wszystkich poruszających się postaci.

Warianty modeli i wydajność

Wersja Wan 2.2 zawiera:

WAN 2.2‑T2V‑A14B: Tekst na wideo
WAN 2.2‑I2V‑A14B: Obraz do wideo
WAN 2.2‑IT2V‑5B:Kompaktowy, zunifikowany model o 5 miliardach parametrów, który pasuje do procesorów graficznych klasy konsumenckiej,Unified Generation

Wariant 5B wykorzystuje technologię kompresji 3D VAE do redukcji tokenów czasoprzestrzennych 4×16×16, co pozwala na płynne wyjście 1080p nawet na sprzęcie o średniej mocy.

Pakiet Wan 2.2 obejmuje dwie podstawowe oferty przeznaczone do różnych zastosowań:

Model MoE z 14 parametrami (WAN 2.2-T2V-A14B i WAN 2.2-I2V-A14B)

Wykorzystuje pełną architekturę MoE w celu zapewnienia najwyższej jakości.
Obsługuje obiegi pracy: tekst-wideo i obraz-wideo w rozdzielczości do 1080p.
Idealny do produkcji studyjnych i badań.

5B-parametrowy gęsty, zunifikowany model (WAN 2.2-IT2V-5B)

Kompaktowy model zorientowany na wydajność, który można wdrożyć na pojedynczym procesorze graficznym klasy konsumenckiej (np. NVIDIA RTX 4090).
Generuje filmy w rozdzielczości 720p, 24 kl./s w ciągu kilku minut, wykorzystując technologię kompresji 3D VAE w celu uzyskania próbkowania czasowego i przestrzennego 4×16×16 przy minimalnej utracie jakości.
Obniża barierę dla hobbystów i małych zespołów, umożliwiając im eksperymentowanie z generowaniem filmów przy użyciu sztucznej inteligencji.

Testy porównawcze wskazują, że mniejszy model może nagrać 5-sekundowy klip w wysokiej rozdzielczości w mniej niż pięć minut na standardowym sprzęcie do gier, co sprawia, że Wan 2.2 jest jednym z najszybszych rozwiązań open-source w swojej klasie.

Dostępność i zaangażowanie w oprogramowanie typu open source

Zgodnie z deklaracją Alibaby dotyczącą demokratyzacji sztucznej inteligencji, Wan 2.2 jest w pełni otwartym kodem źródłowym i można do niego swobodnie uzyskać dostęp za pośrednictwem wielu platform:

GitHub i przytulanie twarzy do bezpośredniego pobrania modeli i kodów.
Społeczność Moda dla rozszerzeń i integracji tworzonych przez społeczność.
Interfejs API Alibaba Cloud BaiLian dla hostingu klasy korporacyjnej na żądanie.
Witryna i aplikacja Tongyi Wanxiang do eksperymentów bez kodu, w przeglądarce.

Od początku 2025 roku seria Wan zgromadziła ponad 5 milionów pobrań w społeczności open source, co podkreśla jej rolę w promowaniu współpracy innowacyjnej i rozwoju umiejętności wśród specjalistów ds. sztucznej inteligencji na całym świecie.

Implikacje branżowe

Wydanie Wan 2.2 oznacza przełomowy moment w dziedzinie wspomaganego sztuczną inteligencją tworzenia filmów i treści:

Potencjał komercyjny: Marki, reklamodawcy i platformy mediów społecznościowych mogą skorzystać z szybkiego prototypowania materiałów wideo, spersonalizowanych materiałów reklamowych i dynamicznych formatów opowiadania historii.

Obniżanie barier: Profesjonaliści i niezależni twórcy mogą teraz produkować materiały wideo na poziomie zbliżonym do studyjnego, bez konieczności zakupu drogiego sprzętu i licencji na oprogramowanie.

Katalizator innowacji: Udostępnienie generatywnego modelu wideo opartego na MoE na zasadzie open source przyspiesza współpracę badawczą, co może zaowocować powstaniem nowych architektur i narzędzi artystycznych.

Jak zacząć

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Najnowsza integracja Wan 2.2 wkrótce pojawi się w CometAPI, więc bądźcie czujni! Podczas gdy finalizujemy przesyłanie modelu Gemini 2.5 Flash‑Lite, zapoznaj się z naszymi innymi modelami na stronie Modele lub wypróbuj je w AI Playground.

Podczas oczekiwania programiści mogą uzyskać dostęp Interfejs API Veo 3 oraz Interfejs API wideo Midjourney przez Interfejs API Comet Aby generować wideo zamiast WAN 2.2, najnowsza wersja modelu Claude’a jest aktualna na dzień publikacji artykułu. Na początek zapoznaj się z możliwościami modelu w… Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.

Podsumowując, WAN 2.2 Alibaby nie tylko rozwija najnowocześniejszą technologię sztucznej inteligencji w wideo, ale także ilustruje, jak ekosystemy open source mogą przyspieszyć postęp i zdywersyfikować przypadki użycia. Wraz z eksperymentowaniem programistów z architekturą MoE i sterowaniem kinematograficznym, kolejna fala treści wideo generowanych przez sztuczną inteligencję może wyłonić się z tych samych społeczności, którym Alibaba pomogła się rozwinąć.