Alibaba Meluncurkan Wan 2.2: Model Pembuatan Video MoE Sumber Terbuka Pertama di Dunia

DAMO Academy Alibaba resmi dirilis hari ini Wan 2.2, rangkaian model pembuatan video sumber terbuka generasi berikutnya yang dibangun di atas Campuran Ahli (MoE) Arsitektur. WAN 2.2 menjanjikan peningkatan terobosan dalam efisiensi komputasi, fidelitas gerakan, dan ekspresi sinematik—memungkinkan pengembang dan kreator menghasilkan video 1080p berkualitas tinggi dari teks atau gambar dengan kontrol dan fleksibilitas yang belum pernah ada sebelumnya. WAN 2.2 memberikan peningkatan signifikan dalam kualitas gerakan, detail visual, dan efisiensi komputasi dibandingkan pendahulunya, WAN 2.1.

Inovasi Utama dalam Wan 2.2

1. Pipa Denoising yang Didorong oleh Kementerian Lingkungan Hidup

subjaringan, sistem dapat mengalokasikan sumber daya di tempat yang paling dibutuhkan—sketsa umum untuk tata letak pemandangan diikuti dengan penyempurnaan detail yang sangat detail. Desain ini memungkinkan model unggulan Wan 2.2 untuk memiliki total 27 miliar parameter sementara hanya mengaktifkan 14 miliar per lintasan inferensi, yang secara efektif mengurangi separuh sumber daya komputasi yang dibutuhkan untuk sintesis video berkualitas tinggi.

Pakar Kebisingan Tinggi berfokus pada pembentukan lintasan gerak keseluruhan dan komposisi pemandangan.
Pakar Kebisingan Rendah menerapkan tekstur, detail wajah, dan nuansa pencahayaan yang cermat.

Kerangka kerja pakar ganda ini memastikan bahwa kreator dapat menghasilkan rangkaian yang lebih panjang dan lebih kompleks dengan fidelitas sinematik profesional—semuanya tanpa meningkatkan tuntutan memori GPU secara proporsional dibandingkan dengan Wan 2.1.

2. Sistem Kontrol Estetika Sinematik

Berdasarkan inovasi arsitekturnya, sistem ini memperkenalkan "Sistem Kontrol Estetika Film" yang belum pernah ada sebelumnya. Sistem ini memungkinkan pengguna untuk mengendalikan pencahayaan, gradasi warna, sudut kamera, dan komposisi melalui perintah kata kunci yang intuitif. Dengan menggabungkan deskriptor seperti "cahaya matahari terbenam", "cahaya tepi lembut", atau "komposisi seimbang sudut rendah", kreator dapat secara otomatis menghasilkan adegan yang mengingatkan pada film-film blockbuster Hollywood atau film seni indie. Sebaliknya, input seperti "nada dingin", "pencahayaan keras", dan "bingkai dinamis" menghasilkan visual bergaya fiksi ilmiah atau noir sesuai permintaan.

Untuk pertama kalinya dalam model video AI sumber terbuka, Wan 2.2 mengintegrasikan antarmuka kontrol kelas film:

60+ parameter yang dapat disesuaikan meliputi pencahayaan, gradasi warna, pembingkaian, efek lensa, dan kedalaman bidang.
Tautan gaya cerdas, yang memungkinkan pengguna mendeskripsikan suasana hati (misalnya, “pencahayaan noir saat senja”) dan membiarkan sistem secara otomatis mengonfigurasi pengaturan kamera dan warna yang rumit.
Preset sinematik yang telah ditentukan sebelumnya, seperti “film Barat klasik,” “film fiksi ilmiah neo-Tokyo,” dan “reportase dokumenter,” menyederhanakan alur kerja kreatif.

3. Peningkatan Fisika dan Realisme Emosional

Wan 2.2 menunjukkan peningkatan yang nyata dalam simulasi fenomena dunia nyata dan ekspresi mikro manusia:

Simulasi fisika untuk dinamika fluida alami, pencahayaan volumetrik, dan efek tabrakan.
Penangkapan ekspresi mikro wajah, menampilkan isyarat halus seperti bibir bergetar, pergerakan alis, dan air mata tertahan dengan kesetiaan tinggi.
Penanganan adegan multi-orang, memastikan interaksi yang koheren dan pencahayaan yang konsisten di seluruh karakter yang bergerak.

Varian Model dan Performa

Rilis Wan 2.2 meliputi:

Wan 2.2‑T2V‑A14B: Teks‑ke‑Video
Wan 2.2‑I2V‑A14B: Gambar‑ke‑Video
Wan 2.2‑IT2V‑5B:Model terpadu 5 miliar parameter yang ringkas dan sesuai dengan GPU kelas konsumen, Generasi Terpadu

Varian 5B memanfaatkan VAE 3D kompresi tinggi untuk pengurangan token ruang-waktu 4×16×16—memungkinkan keluaran 1080p yang lancar bahkan pada perangkat keras sederhana.

Rangkaian Wan 2.2 mencakup dua penawaran inti yang dirancang untuk berbagai kasus penggunaan:

Model MoE Parameter 14B (Wan 2.2-T2V-A14B & Wan 2.2-I2V-A14B)

Menggunakan arsitektur MoE penuh untuk kualitas maksimal.
Mendukung alur kerja teks ke video dan gambar ke video hingga resolusi 1080p.
Ideal untuk produksi dan penelitian tingkat studio.

Model Terpadu Padat Parameter 5B (Wan 2.2-IT2V-5B)

Model yang ringkas dan berorientasi pada kinerja yang dapat diterapkan pada satu GPU kelas konsumen (misalnya, NVIDIA RTX 4090).
Menghasilkan video 720p, 24 fps dalam hitungan menit, memanfaatkan 3D VAE kompresi tinggi untuk mencapai downsampling temporal dan spasial 4×16×16 dengan kehilangan kualitas minimal.
Menurunkan hambatan bagi para penghobi dan tim kecil untuk bereksperimen dengan pembuatan video AI.

Tolok ukur menunjukkan bahwa model yang lebih kecil dapat menghasilkan klip definisi tinggi 5 detik dalam waktu kurang dari lima menit pada perangkat keras game standar, menjadikan Wan 2.2 salah satu solusi sumber terbuka tercepat di kelasnya.

Aksesibilitas dan Komitmen Open‑Source

Sejalan dengan janji Alibaba untuk mendemokratisasi AI, Wan 2.2 sepenuhnya bersifat sumber terbuka dan dapat diakses secara bebas melalui berbagai platform:

GitHub & Wajah Pelukan untuk mengunduh model dan kode secara langsung.
Komunitas Moda untuk ekstensi dan integrasi yang digerakkan oleh komunitas.
API BaiLian Alibaba Cloud untuk hosting model sesuai permintaan tingkat perusahaan.
Situs & Aplikasi Tongyi Wanxiang untuk eksperimen tanpa kode dan berbasis browser.

Sejak awal tahun 2025, seri Wan telah mengumpulkan lebih dari 5 juta unduhan di seluruh komunitas sumber terbuka, yang menggarisbawahi perannya dalam mendorong inovasi kolaboratif dan pengembangan keterampilan di antara praktisi AI di seluruh dunia.

Implikasi Industri

Peluncuran Wan 2.2 menandai momen penting dalam pembuatan film dan konten berbantuan AI:

Potensi Komersial: Merek, pengiklan, dan platform media sosial dapat memperoleh manfaat dari pembuatan prototipe cepat aset video, materi iklan yang dipersonalisasi, dan format penceritaan dinamis.

Menurunkan Hambatan: Para profesional dan kreator independen kini dapat mencapai produksi video setingkat studio tanpa lisensi perangkat keras atau perangkat lunak yang mahal.

Katalis Inovasi: Pembukaan sumber model video generatif berbasis MoE mempercepat kolaborasi penelitian, yang berpotensi melahirkan arsitektur dan alat artistik baru.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Integrasi terbaru Wan 2.2 akan segera muncul di CometAPI, jadi nantikan terus! Sementara kami menyelesaikan unggahan Model Gemini 2.5 Flash‑Lite, jelajahi model kami yang lain di halaman Model atau cobalah di AI Playground.

Sambil menunggu, pengembang dapat mengakses API Veo 3 dan API Video Midjourney melalui API Komet untuk menghasilkan video, alih-alih WAN 2.2, versi terbaru model Claude yang tercantum adalah versi per tanggal publikasi artikel. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Singkatnya, Wan 2.2 dari Alibaba tidak hanya memajukan teknologi terkini dalam video AI, tetapi juga menunjukkan bagaimana ekosistem sumber terbuka dapat mempercepat kemajuan dan mendiversifikasi kasus penggunaan. Seiring para pengembang mulai bereksperimen dengan kerangka kerja MoE dan kontrol sinematiknya, gelombang konten video berbasis AI berikutnya kemungkinan besar akan muncul dari komunitas-komunitas yang telah diberdayakan oleh Alibaba.