Akademi DAMO Alibaba hari ini secara rasmi dikeluarkan Wan 2.2, suite generasi seterusnya model penjanaan video sumber terbuka yang dibina di atas a Campuran Pakar (KPM) seni bina. Wan 2.2 menjanjikan peningkatan terobosan dalam kecekapan pengiraan, kesetiaan gerakan dan ekspresi sinematik—membolehkan pembangun dan pencipta menjana video 1080p berkualiti tinggi daripada gesaan teks atau imej dengan kawalan dan fleksibiliti yang belum pernah terjadi sebelumnya .Wan 2.2 memberikan keuntungan yang ketara dalam kualiti gerakan, perincian visual dan kecekapan pengiraan2.1, berbanding dengan Wan XNUMX kecekapan pengiraan.
Inovasi Utama dalam Wan 2.2
1. Talian Paip Denoising Didorong KPM
subrangkaian, sistem boleh memperuntukkan sumber di tempat yang paling penting—strok luas untuk susun atur pemandangan diikuti dengan penghalusan butiran halus. Reka bentuk ini membolehkan model perdana Wan 2.2 mempunyai 27 bilion jumlah parameter sambil mengaktifkan hanya 14 bilion setiap pas inferens, dengan berkesan mengurangkan separuh sumber pengiraan yang diperlukan untuk sintesis video berkualiti tinggi.
- Pakar Bunyi Tinggi menumpukan pada pembentukan keseluruhan trajektori gerakan dan komposisi adegan.
- Pakar Bunyi Rendah menggunakan tekstur yang teliti, perincian muka, dan nuansa pencahayaan.
Rangka kerja dwi-pakar ini memastikan bahawa pencipta boleh menjana jujukan yang lebih panjang dan lebih kompleks dengan kesetiaan sinematik profesional—semuanya tanpa meningkatkan permintaan memori GPU secara berkadar berbanding Wan 2.1 .
2. Sistem Kawalan Estetik Sinematik
Berdasarkan inovasi seni binanya, ia memperkenalkan "Sistem Kawalan Estetik Filem" yang tidak pernah berlaku sebelum ini yang membolehkan pengguna mengemudi pencahayaan, penggredan warna, sudut kamera dan komposisi melalui gesaan kata kunci intuitif. Dengan menggabungkan deskriptor seperti "cahaya matahari terbenam", "cahaya rim lembut" atau "komposisi seimbang sudut rendah", pencipta boleh menjana secara automatik adegan yang mengingatkan filem filem terkenal Hollywood atau seni indie. Sebaliknya, input seperti "nada sejuk," "pencahayaan keras" dan "pembingkaian dinamik" menghasilkan visual fiksyen sains atau gaya noir atas permintaan .
Buat pertama kali dalam model video AI sumber terbuka, Wan 2.2 menyepadukan a antara muka kawalan gred filem:
- 60+ parameter boleh laras meliputi pencahayaan, penggredan warna, pembingkaian, kesan kanta dan kedalaman medan.
- Pautan gaya pintar, membenarkan pengguna untuk menggambarkan perasaan (cth, "cahaya noir pada waktu senja") dan mempunyai sistem secara automatik mengkonfigurasi kamera kompleks dan persediaan warna.
- Pratetap sinematik yang dipratakrifkan, seperti "Barat vintaj", "neo‑Tokyo sci‑fi" dan "laporan dokumentari", memperkemas aliran kerja kreatif.
3. Fizik yang Dipertingkatkan dan Realisme Emosi
Wan 2.2 menunjukkan peningkatan yang ketara dalam mensimulasikan fenomena dunia sebenar dan ekspresi mikro manusia:
- Simulasi fizik untuk dinamik bendalir semula jadi, pencahayaan isipadu, dan kesan perlanggaran.
- Tangkapan ekspresi mikro muka, memberikan isyarat halus seperti bibir yang menggeletar, peralihan kening dan air mata yang ditahan dengan kesetiaan yang tinggi.
- Pengendalian adegan berbilang orang, memastikan interaksi yang koheren dan pencahayaan yang konsisten merentas watak yang bergerak.
Varian Model dan Prestasi
Keluaran Wan 2.2 termasuk:
- Wan 2.2‑T2V‑A14B: Teks-ke-Video
- Wan 2.2‑I2V‑A14B: Imej‑ke‑Video
- Wan 2.2‑IT2V‑5B: Model bersatu 5 bilion parameter padat yang sesuai dengan GPU gred pengguna, Penjanaan Disatukan
Varian 5B memanfaatkan VAE 3D mampat tinggi untuk pengurangan token ruang masa 4×16×16—membolehkan output 1080p lancar walaupun pada perkakasan sederhana.
Suite Wan 2.2 termasuk dua tawaran teras yang direka untuk kes penggunaan yang berbeza:
Model MoE 14B-Parameter (Wan 2.2-T2V-A14B & Wan 2.2-I2V-A14B)
- Menggunakan seni bina KPM penuh untuk kualiti maksimum.
- Menyokong kedua-dua aliran kerja teks-ke-video dan imej-ke-video pada resolusi sehingga 1080p.
- Sesuai untuk pengeluaran dan penyelidikan peringkat studio.
Model Bersatu Padat Parameter 5B (Wan 2.2-IT2V-5B)
- Model padat, berorientasikan prestasi boleh digunakan pada GPU gred pengguna tunggal (cth, NVIDIA RTX 4090).
- Menjana video 720p, 24 fps dalam beberapa minit, memanfaatkan VAE 3D mampatan tinggi untuk mencapai 4×16×16 pensampelan temporal dan spatial dengan kehilangan kualiti yang minimum.
- Mengurangkan halangan untuk penggemar dan pasukan kecil untuk bereksperimen dengan penjanaan video AI.
Penanda aras menunjukkan bahawa model yang lebih kecil boleh menyampaikan klip definisi tinggi 5 saat dalam masa kurang dari lima minit pada perkakasan permainan standard, menjadikan Wan 2.2 salah satu penyelesaian sumber terbuka terpantas dalam kelasnya.
Kebolehcapaian dan Komitmen Sumber Terbuka
Selaras dengan ikrar Alibaba untuk mendemokrasikan AI, Wan 2.2 adalah sumber terbuka sepenuhnya dan boleh diakses secara bebas melalui pelbagai platform:
- GitHub & Muka Berpeluk untuk muat turun model dan kod langsung.
- Komuniti Moda untuk sambungan dan penyepaduan yang dipacu komuniti.
- API Alibaba Cloud BaiLian untuk pengehosan model gred perusahaan, atas permintaan.
- Laman Web & Apl Tongyi Wanxiang untuk eksperimen tanpa kod, berasaskan penyemak imbas.
Sejak awal tahun 2025, siri Wan telah mengumpulkan lebih 5 juta muat turun merentas komuniti sumber terbuka, menekankan peranannya dalam memupuk inovasi dan pembangunan kemahiran kolaboratif dalam kalangan pengamal AI di seluruh dunia.
Implikasi Industri
Pelancaran Wan 2.2 menandakan detik penting dalam pembikinan filem dan penciptaan kandungan berbantukan AI:
Potensi Komersial: Jenama, pengiklan dan platform media sosial mendapat manfaat daripada prototaip pantas aset video, kreatif iklan yang diperibadikan dan format penceritaan dinamik.
Menurunkan Halangan: Profesional dan pencipta bebas kini boleh mencapai pengeluaran video hampir di peringkat studio tanpa lesen perkakasan atau perisian yang mahal.
Pemangkin Inovasi: Sumber terbuka model video generatif berasaskan MoE mempercepatkan kerjasama penyelidikan, berpotensi melahirkan seni bina dan alatan artistik baharu.
Bermula
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Penyepaduan terbaharu Wan 2.2 akan muncul di CometAPI tidak lama lagi, jadi nantikan! Sementara kami memuktamadkan muat naik Model Gemini 2.5 Flash‑Lite, teroka model kami yang lain pada halaman Model atau cuba mereka di Taman Permainan AI.
Sementara menunggu, pembangun boleh mengakses API Veo 3 and API Video Pertengahan Perjalanan melalui CometAPI untuk menjana video dan bukannya wan 2.2, versi model claude terkini yang disenaraikan adalah pada tarikh penerbitan artikel. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.
Ringkasnya, Wan 2.2 Alibaba bukan sahaja memajukan tahap seni dalam AI video tetapi juga menunjukkan cara ekosistem sumber terbuka boleh mempercepatkan kemajuan dan mempelbagaikan kes penggunaan. Apabila pembangun mula bereksperimen dengan tulang belakang MoE dan kawalan sinematiknya, gelombang kandungan video yang dijana AI yang seterusnya mungkin muncul daripada komuniti yang Alibaba telah bantu memperkasakan.
