Alibaba stellt Wan 2.2 vor: Das weltweit erste Open-Source-MoE-Videogenerierungsmodell

Alibabas DAMO Academy heute offiziell veröffentlicht Wan 2.2, eine Suite der nächsten Generation von Open-Source-Videogenerierungsmodellen, die auf einem Expertenmischung (MoE) Architektur. Wan 2.2 verspricht bahnbrechende Verbesserungen bei der Rechenleistung, der Bewegungstreue und der filmischen Ausdruckskraft – und ermöglicht Entwicklern und Kreativen, hochwertige 1080p-Videos aus Text- oder Bildaufforderungen mit beispielloser Kontrolle und Flexibilität zu erstellen. Wan 2.2 bietet im Vergleich zu seinem Vorgänger Wan 2.1 erhebliche Verbesserungen bei der Bewegungsqualität, den visuellen Details und der Rechenleistung.

Wichtige Neuerungen in Wan 2.2

1. MoE-gesteuerte Rauschunterdrückungspipeline

Durch die Integration von Subnetzen kann das System Ressourcen dort zuweisen, wo sie am wichtigsten sind: grobe Linien für das Szenenlayout, gefolgt von einer feinkörnigen Detailverfeinerung. Dieses Design ermöglicht es dem Flaggschiffmodell von Wan 2.2, insgesamt 27 Milliarden Parameter zu verarbeiten und dabei nur 14 Milliarden pro Inferenzdurchgang zu aktivieren. Dadurch werden die für eine hochwertige Videosynthese erforderlichen Rechenressourcen effektiv halbiert.

Experte für hohe Geräuschpegel konzentriert sich auf die Festlegung der gesamten Bewegungsbahnen und der Szenenkomposition.
Experte für Geräuscharmut wendet sorgfältige Textur, Gesichtsdetails und Lichtnuancen an.

Dieses Dual-Expert-Framework stellt sicher, dass Entwickler längere, komplexere Sequenzen mit professioneller Kinotreue erstellen können – und das ohne den GPU-Speicherbedarf im Vergleich zu Wan 2.1 proportional zu erhöhen.

2. Kinoästhetisches Kontrollsystem

Aufbauend auf seinen architektonischen Innovationen führt es ein beispielloses „Film Aesthetics Control System“ ein, das es Benutzern ermöglicht, Beleuchtung, Farbkorrektur, Kamerawinkel und Komposition durch intuitive Stichworteingaben zu steuern. Durch die Kombination von Beschreibungen wie „Sonnenuntergangslicht“, „weiches Randlicht“ oder „ausgewogene Komposition aus niedrigem Winkel“ können Kreative automatisch Szenen erzeugen, die an Hollywood-Blockbuster oder Indie-Kunstfilme erinnern. Umgekehrt erzeugen Eingaben wie „kühle Töne“, „harte Beleuchtung“ und „dynamische Rahmung“ auf Abruf Bilder im Science-Fiction- oder Noir-Stil.

Als erstes Open-Source-KI-Videomodell integriert Wan 2.2 eine Steuerschnittstelle in Filmqualität:

Über 60 einstellbare Parameter Dazu gehören Beleuchtung, Farbkorrektur, Rahmung, Linseneffekte und Tiefenschärfe.
Intelligente Stilverknüpfung, sodass Benutzer Stimmungen beschreiben können (z. B. „Noir-Beleuchtung in der Dämmerung“) und das System automatisch komplexe Kamera- und Farbeinstellungen konfigurieren lassen können.
Vordefinierte Kinovoreinstellungen, wie „Vintage-Western“, „Neo-Tokio-Science-Fiction“ und „Dokumentarreportage“, optimieren kreative Arbeitsabläufe.

3. Verbesserte Physik und emotionaler Realismus

Wan 2.2 weist deutliche Verbesserungen bei der Simulation realer Phänomene und menschlicher Mikroausdrücke auf:

Physiksimulation für natürliche Strömungsdynamik, volumetrische Beleuchtung und Kollisionseffekte.
Erfassung von Mikroausdrücken im Gesicht, wobei subtile Hinweise wie zitternde Lippen, Augenbrauenbewegungen und unterdrückte Tränen mit hoher Wiedergabetreue wiedergegeben werden.
Szenenbearbeitung durch mehrere Personen, wodurch kohärente Interaktionen und eine gleichmäßige Beleuchtung der sich bewegenden Charaktere gewährleistet werden.

Modellvarianten und Leistung

Die Version Wan 2.2 enthält:

Wan 2.2‑T2V‑A14B: Text-zu-Video
Wan 2.2‑I2V‑A14B: Bild-zu-Video
Wan 2.2‑IT2V‑5B: Ein kompaktes, einheitliches Modell mit 5 Milliarden Parametern, das auf GPUs der Verbraucherklasse passt, Unified Generation

Die 5B-Variante nutzt ein hochkomprimiertes 3D-VAE für eine 4×16×16-Zeit-Raum-Token-Reduktion und ermöglicht so eine flüssige 1080p-Ausgabe selbst auf einfacher Hardware.

Die Wan 2.2-Suite umfasst zwei Kernangebote, die für unterschiedliche Anwendungsfälle konzipiert sind:

14B-Parameter MoE-Modell (Wan 2.2-T2V-A14B & Wan 2.2-I2V-A14B)

Nutzt die vollständige MoE-Architektur für maximale Qualität.
Unterstützt sowohl Text-zu-Video- als auch Bild-zu-Video-Workflows mit einer Auflösung von bis zu 1080p.
Ideal für Produktion und Forschung auf Studioniveau.

5B-Parameter dichtes einheitliches Modell (Wan 2.2-IT2V-5B)

Ein kompaktes, leistungsorientiertes Modell, das auf einer einzelnen GPU der Verbraucherklasse (z. B. NVIDIA RTX 4090) eingesetzt werden kann.
Generiert in wenigen Minuten 720p-Videos mit 24 fps und nutzt dabei ein hochkomprimiertes 3D-VAE, um ein zeitliches und räumliches Downsampling von 4×16×16 mit minimalem Qualitätsverlust zu erreichen.
Senkt die Hemmschwelle für Hobbyisten und kleine Teams, mit der KI-Videogenerierung zu experimentieren.

Benchmarks zeigen, dass das kleinere Modell auf Standard-Gaming-Hardware einen 5-sekündigen High-Definition-Clip in weniger als fünf Minuten liefern kann, was Wan 2.2 zu einer der schnellsten Open-Source-Lösungen seiner Klasse macht.

Zugänglichkeit und Open-Source-Engagement

Im Einklang mit Alibabas Versprechen, KI zu demokratisieren, ist Wan 2.2 vollständig Open Source und über mehrere Plattformen frei zugänglich:

GitHub und umarmendes Gesicht für direkte Modell- und Code-Downloads.
Moda-Community für Community-gesteuerte Erweiterungen und Integrationen.
Alibaba Cloud BaiLian API für On-Demand-Modellhosting auf Unternehmensniveau.
Tongyi Wanxiang Website und App für browserbasiertes Experimentieren ohne Code.

Seit Anfang 2025 wurde die Wan-Reihe in der Open-Source-Community über 5 Millionen Mal heruntergeladen, was ihre Rolle bei der Förderung gemeinsamer Innovation und Kompetenzentwicklung unter KI-Praktikern weltweit unterstreicht.

Auswirkungen auf die Branche

Die Veröffentlichung von Wan 2.2 markiert einen entscheidenden Moment in der KI-gestützten Filmproduktion und Inhaltserstellung:

Kommerzielles Potenzial: Marken, Werbetreibende und Social-Media-Plattformen profitieren von der schnellen Prototypisierung von Video-Assets, personalisierten Werbekreationen und dynamischen Storytelling-Formaten.

Barrieren abbauen: Profis und unabhängige Entwickler können jetzt Videoproduktionen auf nahezu Studioniveau ohne teure Hardware- oder Softwarelizenzen durchführen.

Innovationskatalysator: Die Bereitstellung eines generativen Videomodells auf Basis des MoE-Projekts als Open Source beschleunigt die Forschungszusammenarbeit und kann möglicherweise neue Architekturen und künstlerische Werkzeuge hervorbringen.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Die neueste Integration Wan 2.2 wird bald auf CometAPI erscheinen, also bleiben Sie dran! Während wir den Upload des Gemini 2.5 Flash-Lite-Modells abschließen, erkunden Sie unsere anderen Modelle auf der Seite „Modelle“ oder probieren Sie sie im AI Playground aus.

Während der Wartezeit können Entwickler auf Veo 3 API kombiniert mit einem nachhaltigen Materialprofil. Midjourney-Video-API - durch Konsolidierung, CometAPI Um Video anstelle von WAN 2.2 zu generieren, sind die neuesten Claude-Modellversionen zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells in der Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Zusammenfassend lässt sich sagen, dass Alibabas Wan 2.2 nicht nur den Stand der Technik in der Video-KI vorantreibt, sondern auch veranschaulicht, wie Open-Source-Ökosysteme den Fortschritt beschleunigen und Anwendungsfälle diversifizieren können. Wenn Entwickler beginnen, mit dem MoE-Backbone und den filmischen Steuerungen zu experimentieren, könnte die nächste Welle KI-generierter Videoinhalte durchaus aus genau den Communities entstehen, die Alibaba unterstützt hat.