Alibaba avduker Wan 2.2: Verdens første videogenereringsmodell med åpen kildekode for MoE

Alibabas DAMO Academy ble offisielt lansert i dag Vann 2.2, en neste generasjons pakke med åpen kildekode-videogenereringsmodeller bygget på en Ekspertblanding (MoE) arkitektur. Wan 2.2 lover banebrytende forbedringer innen beregningseffektivitet, bevegelsesgjengivelse og filmatisk uttrykksevne – slik at utviklere og skapere kan generere 1080p-videoer av høy kvalitet fra tekst- eller bildeprompter med enestående kontroll og fleksibilitet. Wan 2.2 leverer betydelige forbedringer i bevegelseskvalitet, visuelle detaljer og beregningseffektivitet sammenlignet med forgjengeren, Wan 2.1.

Viktige innovasjoner i Wan 2.2

1. MoE-drevet støyfjerningsrørledning

I undernettverk kan systemet allokere ressurser der de betyr mest – grove strøk for sceneoppsett etterfulgt av finkornet detaljforbedring. Denne designen gjør det mulig for Wan 2.2s flaggskipmodell å skryte av 27 milliarder parametere totalt, samtidig som den bare aktiverer 14 milliarder per inferenspassering, noe som effektivt halverer beregningsressursene som kreves for videosyntese av høy kvalitet.

Ekspert på høystøy fokuserer på å etablere de overordnede bevegelsesbanene og scenekomposisjonen.
Ekspert på lavt støynivå anvender omhyggelig tekstur, ansiktsdetaljer og lysnyanser.

Dette rammeverket med doble eksperter sikrer at innholdsskapere kan generere lengre, mer komplekse sekvenser med profesjonell filmatisk gjengivelse – alt uten proporsjonalt økende GPU-minnekrav sammenlignet med Wan 2.1.

2. Filmatisk estetisk kontrollsystem

Byggende på sine arkitektoniske innovasjoner introduserer den et enestående «Film Aesthetics Control System» som lar brukere styre belysning, fargegradering, kameravinkler og komposisjon gjennom intuitive nøkkelord. Ved å kombinere beskrivelser som «solnedgangsglød», «mykt kantlys» eller «balansert komposisjon med lav vinkel», kan skapere automatisk generere scener som minner om Hollywood-storfilmer eller indiekunstfilmer. Omvendt produserer innspill som «kjølige toner», «hard belysning» og «dynamisk innramming» science fiction- eller noir-stil-bilder på forespørsel.

For første gang i åpen kildekode AI-videomodeller integrerer Wan 2.2 en kontrollgrensesnitt for filmkvalitet:

60+ justerbare parametere som dekker belysning, fargegradering, innramming, linseeffekter og dybdeskarphet.
Smart stilkobling, slik at brukerne kan beskrive stemninger (f.eks. «noir-belysning i skumringen») og la systemet automatisk konfigurere komplekse kamera- og fargeoppsett.
Forhåndsdefinerte filmatiske forhåndsinnstillinger, som «vintage western», «neo-Tokyo sci-fi» og «dokumentarreportasje», effektiviserer kreative arbeidsflyter.

3. Forbedret fysikk og emosjonell realisme

Wan 2.2 viser markante forbedringer i simulering av virkelige fenomener og menneskelige mikrouttrykk:

Fysikksimulering for naturlig væskedynamikk, volumetrisk belysning og kollisjonseffekter.
Mikrofotografering av ansiktsuttrykk, og gjengir subtile signaler som skjelvende lepper, øyenbrynsbevegelser og undertrykte tårer med høy gjengivelseskvalitet.
Håndtering av scener med flere personer, noe som sikrer sammenhengende interaksjoner og konsistent belysning på tvers av bevegelige karakterer.

Modellvarianter og ytelse

Wan 2.2-utgivelsen inkluderer:

Wan 2.2‑T2V‑A14BTekst til video
Wan 2.2‑I2V‑A14BBilde til video
Wan 2.2‑IT2V‑5BEn kompakt enhetlig modell med 5 milliarder parametere som passer til GPU-er i forbrukerklassen, Unified Generation

5B-varianten utnytter en høykomprimert 3D VAE for 4×16×16 tidsromstokenreduksjon – noe som muliggjør jevn 1080p-utgang selv på moderat maskinvare.

Wan 2.2-pakken inneholder to kjernetilbud designet for ulike brukstilfeller:

14B-parameter MoE-modell (Wan 2.2-T2V-A14B og Wan 2.2-I2V-A14B)

Bruker hele MoE-arkitekturen for maksimal kvalitet.
Støtter både tekst-til-video- og bilde-til-video-arbeidsflyter med opptil 1080p-oppløsning.
Ideell for produksjon og forskning på studionivå.

5B-Parametertett enhetlig modell (Wan 2.2-IT2V-5B)

En kompakt, ytelsesorientert modell som kan distribueres på et enkelt forbrukervennlig GPU (f.eks. NVIDIA RTX 4090).
Genererer 720p, 24 fps-videoer på få minutter, og utnytter en høykomprimert 3D VAE for å oppnå 4×16×16 temporal og romlig nedsampling med minimalt kvalitetstap.
Senker barrieren for hobbyister og små team som ønsker å eksperimentere med AI-videogenerering.

Referansetester indikerer at den mindre modellen kan levere et 5 sekunder langt HD-klipp på under fem minutter på standard spillmaskinvare, noe som gjør Wan 2.2 til en av de raskeste åpen kildekode-løsningene i sin klasse.

Tilgjengelighet og forpliktelse til åpen kildekode

I tråd med Alibabas løfte om å demokratisere AI, er Wan 2.2 fullstendig åpen kildekode og fritt tilgjengelig via flere plattformer:

GitHub og klemfjes for direkte nedlasting av modeller og kode.
Moda-fellesskapet for fellesskapsdrevne utvidelser og integrasjoner.
Alibaba Cloud BaiLian API for hosting på forespørsel i bedriftsklassen.
Tongyi Wanxiang nettsted og app for nettleserbasert eksperimentering uten kode.

Siden tidlig i 2025 har Wan-serien samlet over 5 millioner nedlastinger på tvers av åpen kildekode-fellesskapet, noe som understreker dens rolle i å fremme samarbeidende innovasjon og ferdighetsutvikling blant AI-utøvere globalt.

Industriens implikasjoner

Lanseringen av Wan 2.2 markerer et avgjørende øyeblikk innen AI-assistert filmskaping og innholdsproduksjon:

Kommersielt potensial: Merkevarer, annonsører og sosiale medieplattformer vil dra nytte av rask prototyping av videoressurser, personlig tilpassede annonsekreativer og dynamiske historiefortellingsformater.

Senking av barrierer: Profesjonelle og uavhengige skapere kan nå oppnå videoproduksjon på tilnærmet studionivå uten dyre maskinvare- eller programvarelisenser.

Innovasjonskatalysator: Åpen kildekode for en MoE-basert generativ videomodell akselererer forskningssamarbeid, og potensielt gi nye arkitekturer og kunstneriske verktøy.

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Den nyeste integrasjonen Wan 2.2 vil snart dukke opp på CometAPI, så følg med! Mens vi ferdigstiller Gemini 2.5 Flash-Lite-modellopplastingen, kan du utforske våre andre modeller på Modell-siden eller prøve dem i AI-lekeplassen.

Mens de venter, kan utviklere få tilgang Veo 3 API og Midjourney Video API gjennom CometAPI For å generere video i stedet for WAN 2.2, er de nyeste Claude Models-versjonene som er oppført per artikkelens publiseringsdato. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Oppsummert fremmer Alibabas Wan 2.2 ikke bare det nyeste innen video-AI, men eksemplifiserer også hvordan åpen kildekode-økosystemer kan akselerere fremdriften og diversifisere brukstilfeller. Etter hvert som utviklere begynner å eksperimentere med MoE-ryggraden og filmatiske kontroller, kan den neste bølgen av AI-generert videoinnhold godt dukke opp fra nettopp de fellesskapene som Alibaba har bidratt til å styrke.