Alibaba onthult Wan 2.2: 's werelds eerste open-source MoE-videogeneratiemodel

Alibaba's DAMO Academy is vandaag officieel gelanceerd Wan 2.2, een volgende generatie suite van open-source videogeneratiemodellen gebouwd op een Mix van experts (MoE) Architectuur. Wan 2.2 belooft baanbrekende verbeteringen in rekenkracht, bewegingsgetrouwheid en filmische expressiviteit, waardoor ontwikkelaars en makers hoogwaardige 1080p-video's kunnen genereren op basis van tekst- of beeldprompts met ongekende controle en flexibiliteit. Wan 2.2 levert aanzienlijke verbeteringen in bewegingskwaliteit, visuele details en rekenkracht ten opzichte van zijn voorganger, Wan 2.1.

Belangrijkste innovaties in Wan 2.2

1. MoE-aangedreven ruisonderdrukkingspijplijn

Met subnetwerken kan het systeem resources toewijzen waar ze het belangrijkst zijn: grote lijnen voor scène-indeling gevolgd door fijnmazige detailverfijning. Dit ontwerp zorgt ervoor dat het vlaggenschipmodel van Wan 2.2 27 miljard parameters in totaal kan bevatten, terwijl er slechts 14 miljard per inferentiepass worden geactiveerd. Dit halveert effectief de rekenkracht die nodig is voor hoogwaardige videosynthese.

Expert in hoog geluid richt zich op het vaststellen van de algemene bewegingstrajecten en scènecompositie.
Expert in geluidsarme toepassingen past nauwkeurige textuur, gezichtsdetails en belichtingsnuances toe.

Dankzij dit framework met twee experts kunnen makers langere, complexere sequenties met professionele bioscoopkwaliteit genereren, zonder dat dit ten koste gaat van het GPU-geheugen vergeleken met Wan 2.1.

2. Cinematografisch esthetisch controlesysteem

Voortbouwend op de architectonische innovaties introduceert het een ongekend "Film Aesthetics Control System" waarmee gebruikers de belichting, kleurcorrectie, camerahoeken en compositie kunnen sturen via intuïtieve trefwoorden. Door beschrijvingen zoals "zonsonderganggloed", "zacht randlicht" of "gebalanceerde compositie met lage hoek" te combineren, kunnen makers automatisch scènes genereren die doen denken aan Hollywood-blockbusters of indie-artfilms. Omgekeerd produceren inputs zoals "koele tinten", "harde belichting" en "dynamische kadrering" on-demand sciencefiction- of noir-achtige beelden.

Voor het eerst in open-source AI-videomodellen integreert Wan 2.2 een film-grade controle-interface:

60+ instelbare parameters die betrekking hebben op belichting, kleurcorrectie, kadrering, lenseffecten en scherptediepte.
Slimme stijlkoppeling, waardoor gebruikers stemmingen kunnen beschrijven (bijvoorbeeld 'zwarte verlichting bij schemering') en het systeem automatisch complexe camera- en kleurinstellingen kan laten configureren.
Vooraf gedefinieerde filmische presets, zoals ‘vintage western’, ‘neo-Tokyo sci-fi’ en ‘documentairereportage’, stroomlijnen creatieve workflows.

3. Verbeterde fysica en emotioneel realisme

Wan 2.2 laat duidelijke verbeteringen zien in het simuleren van echte fenomenen en menselijke micro-expressies:

Fysica simulatie voor natuurlijke vloeistofdynamica, volumetrische verlichting en botsingseffecten.
Vastleggen van micro-expressies in het gezicht, waardoor subtiele signalen zoals trillende lippen, bewegende wenkbrauwen en onderdrukte tranen zeer natuurgetrouw worden weergegeven.
Scèneafhandeling met meerdere personen, waardoor samenhangende interacties en consistente belichting van de bewegende personages worden gegarandeerd.

Modelvarianten en prestaties

De Wan 2.2-release bevat:

Wan 2.2‑T2V‑A14B: Tekst-naar-video
Wan 2.2‑I2V‑A14B: Afbeelding naar video
Wan 2.2‑IT2V‑5B: Een compact, uniform model met 5 miljard parameters dat past op consumenten-GPU's, Unified Generation

De 5B-variant maakt gebruik van een 3D VAE met hoge compressie voor 4×16×16 tijd-ruimtetokenreductie, waardoor zelfs op eenvoudige hardware een soepele 1080p-uitvoer mogelijk is.

De Wan 2.2-suite omvat twee kernproducten die zijn ontworpen voor verschillende gebruiksgevallen:

14B-Parameter MoE-model (Wan 2.2-T2V-A14B en Wan 2.2-I2V-A14B)

Maakt gebruik van de volledige MoE-architectuur voor maximale kwaliteit.
Ondersteunt zowel tekst-naar-video- als afbeelding-naar-video-workflows met een resolutie tot 1080p.
Ideaal voor productie en onderzoek op studioniveau.

5B-Parameter Dicht Unified Model (Wan 2.2-IT2V-5B)

Een compact, prestatiegericht model dat kan worden ingezet op één GPU voor consumenten (bijvoorbeeld de NVIDIA RTX 4090).
Genereert binnen enkele minuten 720p, 24 fps-video's en maakt gebruik van een 3D VAE met hoge compressie om 4×16×16 temporele en ruimtelijke downsampling te bereiken met minimaal kwaliteitsverlies.
Verlaagt de drempel voor hobbyisten en kleine teams om te experimenteren met AI-videogeneratie.

Benchmarks geven aan dat het kleinere model een clip in high-definition van 5 seconden in minder dan vijf minuten kan leveren op standaard gaminghardware. Daarmee is Wan 2.2 een van de snelste open-sourceoplossingen in zijn klasse.

Toegankelijkheid en open-source commitment

In lijn met Alibaba's belofte om AI te democratiseren, is Wan 2.2 volledig open source en gratis toegankelijk via meerdere platformen:

GitHub & Knuffelend Gezicht voor directe model- en codedownloads.
Moda-gemeenschap voor community-gestuurde extensies en integraties.
Alibaba Cloud BaiLian API voor hosting op ondernemingsniveau en op aanvraag.
Tongyi Wanxiang-website en -app voor experimenten zonder code en via een browser.

Sinds begin 2025 is de Wan-serie meer dan 5 miljoen keer gedownload binnen de opensourcecommunity. Dit onderstreept de rol die de serie speelt bij het stimuleren van gezamenlijke innovatie en vaardigheidsontwikkeling onder AI-beoefenaars over de hele wereld.

Implicaties voor de industrie

De release van Wan 2.2 markeert een cruciaal moment in AI-ondersteund filmmaken en contentcreatie:

Commercieel potentieel: Merken, adverteerders en socialemediaplatforms kunnen profiteren van snelle prototyping van videomateriaal, gepersonaliseerde advertenties en dynamische verhaalformaten.

Verlagen van drempels: Professionals en onafhankelijke makers kunnen nu videoproducties realiseren die bijna op studioniveau zijn, zonder dure hardware of softwarelicenties.

Innovatie katalysator: Door een op het ministerie van Onderwijs gebaseerd generatief videomodel open source te maken, versnelt u de samenwerking op onderzoeksgebied, wat mogelijk leidt tot nieuwe architecturen en artistieke hulpmiddelen.

Beginnen

CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.

De nieuwste integratie Wan 2.2 zal binnenkort op CometAPI verschijnen, dus blijf op de hoogte! Terwijl we de upload van het Gemini 2.5 Flash-Lite-model afronden, kunt u onze andere modellen bekijken op de modellenpagina of ze uitproberen in de AI Playground.

Terwijl ze wachten, kunnen ontwikkelaars toegang krijgen Veo 3-API en Midjourney Video-API brengt KomeetAPI Om video te genereren in plaats van WAN 2.2, zijn de nieuwste versies van de Claude-modellen vermeld vanaf de publicatiedatum van het artikel. Om te beginnen, verken de mogelijkheden van het model in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt. KomeetAPI bieden een prijs die veel lager is dan de officiële prijs om u te helpen integreren.

Kortom, Alibaba's Wan 2.2 brengt niet alleen de nieuwste ontwikkelingen op het gebied van video-AI naar een hoger niveau, maar illustreert ook hoe open-source ecosystemen de vooruitgang kunnen versnellen en use cases kunnen diversifiëren. Nu ontwikkelaars beginnen te experimenteren met de MoE-backbone en filmische bedieningselementen, zou de volgende golf van AI-gegenereerde videocontent wel eens kunnen voortkomen uit de communities die Alibaba juist heeft helpen versterken.