Alibaba, Wan 2.2'yi Tanıttı: Dünyanın İlk Açık Kaynaklı MoE Video Üretim Modeli

CometAPI
AnnaJul 29, 2025
Alibaba, Wan 2.2'yi Tanıttı: Dünyanın İlk Açık Kaynaklı MoE Video Üretim Modeli

Alibaba'nın DAMO Akademisi bugün resmen yayınlandı Wan 2.2, açık kaynaklı video oluşturma modellerinin yeni nesil bir paketidir Uzman Karışımı (MoE) mimari. Wan 2.2, hesaplama verimliliği, hareket doğruluğu ve sinematik ifadede çığır açan iyileştirmeler vaat ediyor; geliştiricilerin ve içerik oluşturucuların, metin veya görüntü komutlarından benzeri görülmemiş kontrol ve esneklikle yüksek kaliteli 1080p videolar üretmesini sağlıyor. Wan 2.2, öncülü Wan 2.1 ile karşılaştırıldığında hareket kalitesi, görsel ayrıntı ve hesaplama verimliliğinde önemli kazanımlar sağlıyor.

WAN 2.2'deki Temel Yenilikler

1. MoE Güdümlü Gürültü Giderme Boru Hattı

Alt ağlar sayesinde sistem, kaynakları en önemli yerlere tahsis edebilir: sahne düzeni için genel hatlar ve ardından ayrıntılı iyileştirmeler. Bu tasarım, Wan 2.2'nin amiral gemisi modelinin toplam 27 milyar parametreye sahip olmasını ve çıkarım geçişi başına yalnızca 14 milyar parametreyi etkinleştirmesini sağlayarak, yüksek kaliteli video sentezi için gereken hesaplama kaynaklarını etkili bir şekilde yarıya indirir.

  • Yüksek Gürültü Uzmanı genel hareket yörüngelerinin ve sahne kompozisyonunun oluşturulmasına odaklanır.
  • Düşük Gürültü Uzmanı Titiz bir doku, yüz detayları ve aydınlatma nüansları uygular.

Bu çift uzmanlı çerçeve, içerik oluşturucuların, Wan 2.1'e kıyasla orantılı olarak artan GPU bellek taleplerine gerek kalmadan, profesyonel sinematik sadakatle daha uzun ve daha karmaşık sahneler üretebilmelerini sağlar.

2. Sinematik Estetik Kontrol Sistemi

Mimari yeniliklerinin üzerine inşa edilen bu sistem, kullanıcıların sezgisel anahtar kelime komutlarıyla aydınlatmayı, renk derecelendirmesini, kamera açılarını ve kompozisyonu yönlendirmelerine olanak tanıyan benzersiz bir "Film Estetiği Kontrol Sistemi" sunuyor. "Gün batımı parıltısı", "yumuşak kenar ışığı" veya "düşük açılı dengeli kompozisyon" gibi tanımlayıcıları birleştirerek, içerik oluşturucular otomatik olarak Hollywood gişe rekorları kıran filmleri veya bağımsız sanat filmlerini anımsatan sahneler üretebiliyor. Öte yandan, "soğuk tonlar", "sert aydınlatma" ve "dinamik kadrajlama" gibi girdiler, isteğe bağlı olarak bilim kurgu veya kara film tarzı görseller üretiyor.

Açık kaynaklı yapay zeka video modellerinde ilk kez Wan 2.2, film sınıfı kontrol arayüzü:

  • 60'tan fazla ayarlanabilir parametre aydınlatma, renk derecelendirme, kadrajlama, lens efektleri ve alan derinliği konularını kapsıyor.
  • Akıllı stil bağlantısıKullanıcıların ruh hallerini tanımlamasına (örneğin, "alacakaranlıkta karanlık ışıklandırma") ve sistemin karmaşık kamera ve renk kurulumlarını otomatik olarak yapılandırmasına olanak tanır.
  • Önceden tanımlanmış sinematik ön ayarlar"Vintage Western", "neo-Tokyo bilimkurgu" ve "belgesel röportaj" gibi filmler yaratıcı iş akışlarını kolaylaştırır.

3. Gelişmiş Fizik ve Duygusal Gerçekçilik

Wan 2.2, gerçek dünya olaylarının ve insan mikro ifadelerinin simülasyonunda belirgin iyileştirmeler göstermektedir:

  • Fizik simülasyonu doğal akışkanlar dinamiği, hacimsel aydınlatma ve çarpışma efektleri için.
  • Yüz mikro ifade yakalamatitreyen dudaklar, kaşların kıpırdaması ve bastırılan gözyaşları gibi ince ipuçlarını yüksek doğrulukla yansıtıyor.
  • Çok kişili sahne yönetimi, hareket eden karakterler arasında tutarlı etkileşimler ve tutarlı aydınlatma sağlanması.

Model Varyantları ve Performans

Wan 2.2 sürümü şunları içerir:

  • Wan 2.2‑T2V‑A14B: Metinden Videoya
  • Wan 2.2‑I2V‑A14B: Görüntüden Videoya
  • Wan 2.2‑IT2V‑5B: Tüketici sınıfı GPU'lara uyan kompakt 5 milyar parametreli birleşik model, Birleşik Nesil

5B varyantı, 3x4x16 zaman-mekan belirteci azaltımı için yüksek sıkıştırmalı 16D VAE'den yararlanır; bu da mütevazı donanımlarda bile sorunsuz 1080p çıkış sağlar.

Wan 2.2 paketi farklı kullanım durumları için tasarlanmış iki temel ürün içeriyor:

14B-Parametreli MoE Modeli (Wan 2.2-T2V-A14B ve Wan 2.2-I2V-A14B)

  • Maksimum kalite için tam MoE mimarisini kullanır.
  • 1080p çözünürlüğe kadar hem metinden videoya hem de görüntüden videoya iş akışlarını destekler.
  • Stüdyo düzeyinde prodüksiyon ve araştırma için idealdir.

5B-Parametre Yoğun Birleşik Model (Wan 2.2-IT2V-5B)

  • Tek bir tüketici sınıfı GPU'da (örneğin NVIDIA RTX 4090) dağıtılabilen kompakt, performansa yönelik bir model.
  • Dakikalar içinde 720p, 24 fps videolar üretir, minimum kalite kaybıyla 3×4×16 zamansal ve mekansal alt örnekleme elde etmek için yüksek sıkıştırmalı 16D VAE'den yararlanır.
  • Amatörlerin ve küçük ekiplerin yapay zeka video üretimiyle deney yapmalarının önündeki engelleri kaldırır.

Yapılan kıyaslamalar, daha küçük modelin standart oyun donanımlarında beş saniyelik yüksek çözünürlüklü bir klibi beş dakikadan kısa sürede sunabildiğini gösteriyor. Bu da Wan 5'yi sınıfındaki en hızlı açık kaynaklı çözümlerden biri haline getiriyor.

Erişilebilirlik ve Açık Kaynak Taahhüdü

Alibaba'nın yapay zekayı demokratikleştirme sözü doğrultusunda Wan 2.2 tamamen açık kaynaklıdır ve birden fazla platform üzerinden ücretsiz olarak erişilebilir:

  • GitHub ve Sarılma Yüzü doğrudan model ve kod indirmeleri için.
  • Moda Topluluğu Topluluk odaklı uzantılar ve entegrasyonlar için.
  • Alibaba Cloud BaiLian API kurumsal düzeyde, isteğe bağlı model barındırma için.
  • Tongyi Wanxiang Web Sitesi ve Uygulaması kodsuz, tarayıcı tabanlı deneyler için.

Wan serisi, 2025 yılı başından bu yana açık kaynaklı toplulukta 5 milyondan fazla indirmeye ulaştı ve bu da küresel çapta yapay zeka uygulayıcıları arasında iş birliğine dayalı inovasyonu ve beceri gelişimini teşvik etmedeki rolünün altını çiziyor.

Endüstri Etkileri

Wan 2.2'nin piyasaya sürülmesi, yapay zeka destekli film yapımcılığı ve içerik oluşturmada önemli bir anı işaret ediyor:

Ticari Potansiyel: Markalar, reklamverenler ve sosyal medya platformları, video varlıklarının, kişiselleştirilmiş reklam öğelerinin ve dinamik hikaye anlatımı formatlarının hızlı prototiplenmesinden faydalanabilir.

Engelleri Azaltmak: Profesyoneller ve bağımsız içerik oluşturucular artık pahalı donanım veya yazılım lisanslarına ihtiyaç duymadan stüdyo seviyesine yakın video prodüksiyonu gerçekleştirebiliyor.

İnovasyon Katalizörü: MoE tabanlı bir üretken video modelinin açık kaynaklı hale getirilmesi, araştırma iş birliğini hızlandırır ve potansiyel olarak yeni mimarilerin ve sanatsal araçların ortaya çıkmasına neden olur.

Başlamak

CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.

En son entegrasyon olan Wan 2.2 yakında CometAPI'de görünecek, bu yüzden bizi izlemeye devam edin! Gemini 2.5 Flash‑Lite Model yüklemesini tamamlarken, Modeller sayfasındaki diğer modellerimizi keşfedin veya AI Playground'da deneyin.

Beklerken geliştiriciler erişebilir Veo 3 API ve Midjourney Video API içinden Kuyrukluyıldız API'si WAN 2.2 yerine video üretmek için, makalenin yayınlandığı tarihte listelenen en son Claude Models sürümüdür. Başlamak için, modelin yeteneklerini keşfedin. Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.

Özetle, Alibaba'nın Wan 2.2 sürümü, video yapay zekasında en son teknolojiyi ilerletmekle kalmıyor, aynı zamanda açık kaynaklı ekosistemlerin ilerlemeyi nasıl hızlandırabileceğini ve kullanım alanlarını nasıl çeşitlendirebileceğini de örnekliyor. Geliştiriciler MoE omurgası ve sinematik kontrolleriyle denemeler yapmaya başladıkça, yapay zeka tarafından üretilen video içeriklerinin bir sonraki dalgası, Alibaba'nın güçlendirmeye yardımcı olduğu topluluklardan ortaya çıkabilir.

Devamını Oku

500+ Model Tek Bir API'de

%20'ye Varan İndirim