Alibaba afslører Wan 2.2: Verdens første open source-videogenereringsmodel til MoE

CometAPI
AnnaJul 29, 2025
Alibaba afslører Wan 2.2: Verdens første open source-videogenereringsmodel til MoE

Alibabas DAMO Academy er officielt lanceret i dag Wan 2.2, en næste generations pakke af open source-videogenereringsmodeller bygget på en Ekspertblanding (MoE) arkitektur. Wan 2.2 lover banebrydende forbedringer inden for beregningseffektivitet, bevægelsesnøjagtighed og filmisk udtryksevne – hvilket gør det muligt for udviklere og skabere at generere 1080p-videoer i høj kvalitet fra tekst- eller billedprompter med hidtil uset kontrol og fleksibilitet. Wan 2.2 leverer betydelige forbedringer inden for bevægelseskvalitet, visuelle detaljer og beregningseffektivitet sammenlignet med sin forgænger, Wan 2.1.

Vigtige innovationer i Wan 2.2

1. MoE-drevet støjreducerende rørledning

Med undernetværk kan systemet allokere ressourcer, hvor de betyder mest – store strøg til scenelayout efterfulgt af finkornet detaljeforfining. Dette design gør det muligt for Wan 2.2's flagskibsmodel at prale af 27 milliarder parametre i alt, mens den kun aktiverer 14 milliarder pr. inferensgennemgang, hvilket effektivt halverer de beregningsressourcer, der kræves til videosyntese i høj kvalitet.

  • Ekspert i højstøj fokuserer på at etablere de overordnede bevægelsesbaner og scenekomposition.
  • Ekspert i støjsvaghed anvender omhyggelig tekstur, ansigtsdetaljer og lysnuancer.

Dette dobbelte ekspertframework sikrer, at skabere kan generere længere, mere komplekse sekvenser med professionel filmisk kvalitet – alt sammen uden proportionalt at øge GPU-hukommelseskravene sammenlignet med Wan 2.1.

2. Filmisk æstetisk kontrolsystem

Byggende på sine arkitektoniske innovationer introducerer den et hidtil uset "Film Aesthetics Control System", der giver brugerne mulighed for at styre belysning, farvegraduering, kameravinkler og komposition gennem intuitive nøgleordsprompter. Ved at kombinere beskrivelser som "solnedgangsglød", "blødt kantlys" eller "balanceret komposition i lav vinkel" kan skabere automatisk generere scener, der minder om Hollywood-blockbusters eller indie-kunstfilm. Omvendt producerer input som "kølige toner", "hård belysning" og "dynamisk indramning" science fiction- eller noir-stil visuelle effekter on-demand.

For første gang i open source AI-videomodeller integrerer Wan 2.2 en filmkvalitetskontrolgrænseflade:

  • 60+ justerbare parametre dækker belysning, farvegraduering, indramning, objektiveffekter og dybdeskarphed.
  • Smart stillinkning, hvilket giver brugerne mulighed for at beskrive stemninger (f.eks. "noir-belysning ved tusmørke") og få systemet til automatisk at konfigurere komplekse kamera- og farveopsætninger.
  • Foruddefinerede filmiske forudindstillinger, såsom "vintage western", "neo-Tokyo sci-fi" og "dokumentarreportage", strømliner kreative arbejdsgange.

3. Forbedret fysik og følelsesmæssig realisme

Wan 2.2 demonstrerer markante forbedringer i simulering af fænomener i den virkelige verden og menneskelige mikroudtryk:

  • Fysiksimulering for naturlig væskedynamik, volumetrisk belysning og kollisionseffekter.
  • Optagelse af ansigtsmikroudtryk, der gengiver subtile signaler som rystende læber, forskydninger i øjenbrynene og undertrykte tårer med høj kvalitet.
  • Håndtering af scener med flere personer, hvilket sikrer sammenhængende interaktioner og ensartet belysning på tværs af bevægelige karakterer.

Modelvarianter og ydeevne

Wan 2.2-udgivelsen inkluderer:

  • Wan 2.2‑T2V‑A14BTekst til video
  • Wan 2.2‑I2V‑A14BBillede til video
  • Wan 2.2‑IT2V‑5BEn kompakt, samlet model med 5 milliarder parametre, der passer til forbrugervenlige GPU'er, Unified Generation

5B-varianten udnytter en højkomprimeret 3D VAE til 4×16×16 tidsrumstokenreduktion – hvilket muliggør jævn 1080p-output selv på beskeden hardware.

Wan 2.2-pakken indeholder to kernetilbud designet til forskellige anvendelsesscenarier:

14B-parameter MoE-model (Wan 2.2-T2V-A14B & Wan 2.2-I2V-A14B)

  • Anvender den fulde MoE-arkitektur for maksimal kvalitet.
  • Understøtter både tekst-til-video- og billede-til-video-arbejdsgange med en opløsning på op til 1080p.
  • Ideel til produktion og research på studieniveau.

5B-Parametertæt samlet model (Wan 2.2-IT2V-5B)

  • En kompakt, præstationsorienteret model, der kan implementeres på en enkelt forbrugervenlig GPU (f.eks. NVIDIA RTX 4090).
  • Genererer 720p, 24 fps videoer på få minutter og udnytter en højkomprimeret 3D VAE til at opnå 4×16×16 tidsmæssig og rumlig downsampling med minimalt kvalitetstab.
  • Sænker barrieren for hobbyister og små teams til at eksperimentere med AI-videogenerering.

Benchmarks viser, at den mindre model kan levere et 5-sekunders high-definition-klip på under fem minutter på standard gaming-hardware, hvilket gør Wan 2.2 til en af de hurtigste open source-løsninger i sin klasse.

Tilgængelighed og forpligtelse til open source

I tråd med Alibabas løfte om at demokratisere AI er Wan 2.2 fuldt open source og frit tilgængelig via flere platforme:

  • GitHub & Krammeansigt til direkte download af modeller og kode.
  • Moda-fællesskabet til fællesskabsdrevne udvidelser og integrationer.
  • Alibaba Cloud BaiLian API til on-demand-hosting i virksomhedsklassen.
  • Tongyi Wanxiang hjemmeside og app til browserbaseret eksperimentering uden kode.

Siden starten af 2025 har Wan-serien samlet over 5 millioner downloads på tværs af open source-fællesskabet, hvilket understreger dens rolle i at fremme samarbejdsbaseret innovation og færdighedsudvikling blandt AI-udøvere globalt.

Industriens implikationer

Udgivelsen af Wan 2.2 markerer et afgørende øjeblik inden for AI-assisteret filmproduktion og indholdsskabelse:

Kommercielt potentiale: Brands, annoncører og sociale medieplatforme vil kunne drage fordel af hurtig prototyping af videoaktiver, personligt tilpassede annoncekreativer og dynamiske storytelling-formater.

Sænkning af barrierer: Professionelle og uafhængige skabere kan nu opnå videoproduktion på næsten studieniveau uden dyre hardware- eller softwarelicenser.

Innovationskatalysator: Open sourcing af en MoE-baseret generativ videomodel accelererer forskningssamarbejde og kan potentielt afføde nye arkitekturer og kunstneriske værktøjer.

Kom godt i gang

CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af ​​AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.

Den seneste integration, Wan 2.2, vil snart blive vist på CometAPI, så følg med! Mens vi færdiggør Gemini 2.5 Flash-Lite Model-uploaden, kan du udforske vores andre modeller på Model-siden eller prøve dem i AI Playground.

Mens de venter, kan udviklere få adgang Veo 3 API og Midjourney Video API ved CometAPI For at generere video i stedet for WAN 2.2 er de seneste anførte versioner af Claude Models fra artiklens udgivelsesdato. For at begynde med, udforsk modellens muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI tilbyde en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.

Kort sagt fremmer Alibabas Wan 2.2 ikke blot den nyeste teknologi inden for video-AI, men eksemplificerer også, hvordan open source-økosystemer kan accelerere fremskridt og diversificere use cases. Efterhånden som udviklere begynder at eksperimentere med deres MoE-rygrad og filmiske kontroller, kan den næste bølge af AI-genereret videoindhold meget vel opstå fra de samme fællesskaber, som Alibaba har hjulpet med at styrke.

Læs mere

500+ modeller i én API

Op til 20% rabat