อาลีบาบาเปิดตัว Wan 2.2: โมเดลการสร้างวิดีโอ MoE แบบโอเพนซอร์สตัวแรกของโลก

DAMO Academy ของ Alibaba เปิดตัวอย่างเป็นทางการแล้ววันนี้ วัน 2.2ชุดโมเดลการสร้างวิดีโอโอเพนซอร์สรุ่นถัดไปที่สร้างขึ้นบน ผู้เชี่ยวชาญหลากหลายสาขา (MoE) สถาปัตยกรรม Wan 2.2 สัญญาว่าจะพัฒนาประสิทธิภาพการประมวลผล ความแม่นยำของการเคลื่อนไหว และการแสดงออกทางภาพยนตร์อย่างก้าวกระโดด ช่วยให้นักพัฒนาและผู้สร้างสามารถสร้างวิดีโอ 1080p คุณภาพสูงจากข้อความหรือรูปภาพ พร้อมการควบคุมและความยืดหยุ่นที่เหนือชั้น Wan 2.2 มอบคุณภาพการเคลื่อนไหว รายละเอียดภาพ และประสิทธิภาพการประมวลผลที่ดีขึ้นอย่างเห็นได้ชัด เมื่อเทียบกับ Wan 2.1 ซึ่งเป็นรุ่นก่อนหน้า

นวัตกรรมสำคัญใน Wan 2.2

1. ท่อส่งกำจัดสัญญาณรบกวนที่ขับเคลื่อนโดย MoE

เครือข่ายย่อย ระบบสามารถจัดสรรทรัพยากรในส่วนที่สำคัญที่สุดได้ เช่น การจัดวางฉากแบบกว้างๆ ตามด้วยการปรับแต่งรายละเอียดที่ละเอียด การออกแบบนี้ช่วยให้โมเดลเรือธงของ Wan 2.2 มีพารามิเตอร์รวม 27 พันล้านพารามิเตอร์ ในขณะที่เปิดใช้งานเพียง 14 พันล้านพารามิเตอร์ต่อการอนุมานหนึ่งครั้ง ซึ่งช่วยลดทรัพยากรการประมวลผลที่จำเป็นสำหรับการสังเคราะห์วิดีโอคุณภาพสูงลงครึ่งหนึ่ง

ผู้เชี่ยวชาญด้านเสียงรบกวนสูง มุ่งเน้นไปที่การสร้างเส้นทางการเคลื่อนไหวโดยรวมและการจัดองค์ประกอบฉาก
ผู้เชี่ยวชาญด้านเสียงรบกวนต่ำ ใช้พื้นผิว รายละเอียดใบหน้า และแสงที่พิถีพิถัน

กรอบงานผู้เชี่ยวชาญคู่นี้ช่วยให้ผู้สร้างสามารถสร้างลำดับภาพที่ยาวขึ้นและซับซ้อนมากขึ้นด้วยความแม่นยำระดับภาพยนตร์มืออาชีพ โดยไม่ต้องเพิ่มความต้องการหน่วยความจำ GPU ตามสัดส่วนเมื่อเทียบกับ Wan 2.1

2. ระบบควบคุมสุนทรียศาสตร์ภาพยนตร์

ด้วยนวัตกรรมทางสถาปัตยกรรมอันล้ำสมัย เราจึงได้นำเสนอ “ระบบควบคุมสุนทรียศาสตร์ภาพยนตร์” ที่ไม่เคยมีมาก่อน ซึ่งช่วยให้ผู้ใช้สามารถควบคุมแสง การปรับสี มุมกล้อง และองค์ประกอบภาพได้ผ่านคำสำคัญที่ใช้งานง่าย ด้วยการผสานคำอธิบายต่างๆ เช่น “แสงตะวันอัสดง” “แสงขอบนุ่มนวล” หรือ “องค์ประกอบภาพมุมต่ำที่สมดุล” ผู้สร้างจึงสามารถสร้างฉากที่ชวนให้นึกถึงภาพยนตร์ฮอลลีวูดฟอร์มยักษ์หรือภาพยนตร์ศิลปะอิสระได้โดยอัตโนมัติ ในทางกลับกัน อินพุตต่างๆ เช่น “โทนสีเย็น” “แสงที่แข็ง” และ “การจัดเฟรมแบบไดนามิก” จะสร้างภาพสไตล์นิยายวิทยาศาสตร์หรือฟิล์มนัวร์ได้ตามต้องการ

เป็นครั้งแรกในโมเดลวิดีโอ AI โอเพนซอร์ส Wan 2.2 ได้รวม อินเทอร์เฟซควบคุมระดับฟิล์ม:

พารามิเตอร์ปรับได้มากกว่า 60 รายการ ครอบคลุมถึงการจัดแสง การปรับสี การจัดองค์ประกอบ เอฟเฟกต์เลนส์ และระยะชัดลึก
การเชื่อมโยงสไตล์สมาร์ทโดยให้ผู้ใช้บรรยายอารมณ์ได้ (เช่น "แสงสีดำในช่วงพลบค่ำ") และให้ระบบกำหนดค่ากล้องและการตั้งค่าสีที่ซับซ้อนโดยอัตโนมัติ
การตั้งค่าภาพยนตร์ที่กำหนดไว้ล่วงหน้าเช่น "ภาพยนตร์คาวบอยตะวันตก" "ภาพยนตร์ไซไฟแนวโตเกียวยุคใหม่" และ "สารคดีเชิงรายงาน" ช่วยเพิ่มประสิทธิภาพเวิร์กโฟลว์ด้านความคิดสร้างสรรค์

3. ฟิสิกส์ที่ได้รับการปรับปรุงและความสมจริงทางอารมณ์

Wan 2.2 แสดงให้เห็นถึงการปรับปรุงที่ชัดเจนในการจำลองปรากฏการณ์ในโลกแห่งความเป็นจริงและการแสดงออกทางจุลภาคของมนุษย์:

การจำลองทางฟิสิกส์ สำหรับพลศาสตร์ของไหลตามธรรมชาติ แสงเชิงปริมาตร และเอฟเฟกต์การชน
การจับภาพการแสดงออกทางสีหน้าแบบไมโครโดยถ่ายทอดสัญญาณที่ละเอียดอ่อน เช่น ริมฝีปากสั่น คิ้วขยับ และน้ำตาที่กลั้นไว้ได้อย่างแม่นยำสูง
การจัดการฉากหลายคนเพื่อให้แน่ใจว่ามีปฏิสัมพันธ์ที่สอดคล้องกันและแสงที่สม่ำเสมอทั่วทั้งตัวละครที่กำลังเคลื่อนไหว

รุ่นและประสิทธิภาพ

เวอร์ชัน Wan 2.2 ประกอบด้วย:

วัน 2.2‑T2V‑A14B: ข้อความเป็นวิดีโอ
วัน 2.2‑I2V‑A14B: ภาพเป็นวิดีโอ
วัน 2.2‑IT2V‑5B:โมเดลรวมพารามิเตอร์ 5 พันล้านแบบกะทัดรัดที่เหมาะกับ GPU ระดับผู้บริโภค Unified Generation

ตัวแปร 5B ใช้ประโยชน์จาก 3D VAE ที่มีการบีบอัดสูงเพื่อลดโทเค็นเวลาและช่องว่างขนาด 4×16×16 ช่วยให้สามารถส่งออกภาพ 1080p ได้อย่างราบรื่นแม้บนฮาร์ดแวร์ขนาดเล็ก

ชุด Wan 2.2 ประกอบด้วยข้อเสนอหลักสองรายการซึ่งออกแบบมาสำหรับกรณีการใช้งานที่แตกต่างกัน:

แบบจำลอง MoE พารามิเตอร์ 14B (Wan 2.2-T2V-A14B และ Wan 2.2-I2V-A14B)

ใช้สถาปัตยกรรม MoE เต็มรูปแบบเพื่อคุณภาพสูงสุด
รองรับเวิร์กโฟลว์การแปลงข้อความเป็นวิดีโอและแปลงรูปภาพเป็นวิดีโอด้วยความละเอียดสูงสุด 1080p
เหมาะสำหรับการผลิตและการวิจัยในระดับสตูดิโอ

5B-Parameter Dense Unified Model (Wan 2.2-IT2V-5B)

โมเดลที่กะทัดรัดและเน้นประสิทธิภาพที่สามารถปรับใช้กับ GPU ระดับผู้บริโภคตัวเดียวได้ (เช่น NVIDIA RTX 4090)
สร้างวิดีโอ 720p 24 fps ในเวลาไม่กี่นาที โดยใช้ 3D VAE ที่มีการบีบอัดสูงเพื่อให้ได้การลดขนาดชั่วคราวและเชิงพื้นที่ 4×16×16 พร้อมการสูญเสียคุณภาพน้อยที่สุด
ลดอุปสรรคสำหรับผู้ชื่นชอบและทีมเล็กๆ ในการทดลองกับการสร้างวิดีโอด้วย AI

เกณฑ์มาตรฐานบ่งชี้ว่าโมเดลขนาดเล็กสามารถส่งมอบคลิปความละเอียดสูง 5 วินาทีได้ในเวลาไม่ถึงห้านาทีบนฮาร์ดแวร์เกมมาตรฐาน ทำให้ Wan 2.2 เป็นหนึ่งในโซลูชันโอเพ่นซอร์สที่เร็วที่สุดในระดับเดียวกัน

การเข้าถึงและความมุ่งมั่นของโอเพนซอร์ส

สอดคล้องกับคำมั่นสัญญาของอาลีบาบาในการทำให้ AI เป็นประชาธิปไตย Wan 2.2 นั้นเป็นโอเพนซอร์สอย่างเต็มรูปแบบและเข้าถึงได้ฟรีผ่านแพลตฟอร์มต่างๆ:

GitHub และใบหน้ากอด สำหรับการดาวน์โหลดโมเดลและโค้ดโดยตรง
ชุมชนโมดา สำหรับการขยายและการรวมระบบที่ขับเคลื่อนโดยชุมชน
API ของ Alibaba Cloud BaiLian สำหรับการโฮสต์รุ่นตามความต้องการระดับองค์กร
เว็บไซต์และแอป Tongyi Wanxiang สำหรับการทดลองแบบไม่ใช้โค้ดและผ่านเบราว์เซอร์

ตั้งแต่ต้นปี 2025 ซีรีส์ Wan มียอดดาวน์โหลดมากกว่า 5 ล้านครั้งในชุมชนโอเพ่นซอร์ส ซึ่งเน้นย้ำถึงบทบาทในการส่งเสริมนวัตกรรมเชิงร่วมมือและการพัฒนาทักษะในหมู่ผู้ปฏิบัติงานด้าน AI ทั่วโลก

ผลกระทบทางอุตสาหกรรม

การเปิดตัว Wan 2.2 ถือเป็นช่วงเวลาสำคัญในการสร้างภาพยนตร์และการสร้างเนื้อหาด้วย AI:

ศักยภาพทางการค้า: แบรนด์ ผู้โฆษณา และแพลตฟอร์มโซเชียลมีเดียจะได้รับประโยชน์จากการสร้างต้นแบบอย่างรวดเร็วของสินทรัพย์วิดีโอ สื่อโฆษณาที่ปรับแต่งเฉพาะบุคคล และรูปแบบดั้งเดิมของการเล่าเรื่องแบบไดนามิก

การลดอุปสรรค: ปัจจุบัน ผู้เชี่ยวชาญและผู้สร้างอิสระสามารถผลิตวิดีโอได้เกือบถึงระดับสตูดิโอโดยไม่ต้องมีฮาร์ดแวร์หรือซอฟต์แวร์ราคาแพง

ตัวเร่งปฏิกิริยานวัตกรรม: การเปิดซอร์สโมเดลวิดีโอเชิงสร้างสรรค์ตาม MoE จะช่วยเร่งความร่วมมือในการวิจัย ซึ่งอาจก่อให้เกิดสถาปัตยกรรมและเครื่องมือทางศิลปะใหม่ๆ ได้

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

การผสานรวม Wan 2.2 ล่าสุดจะปรากฏบน CometAPI เร็วๆ นี้ โปรดติดตาม! ในขณะที่เรากำลังสรุปการอัปโหลดโมเดล Gemini 2.5 Flash‑Lite ให้สำรวจโมเดลอื่นๆ ของเราในหน้าโมเดลหรือลองใช้ใน AI Playground

ระหว่างรอผู้พัฒนาสามารถเข้าถึง วีโอ 3 API และ API วิดีโอ Midjourney ตลอด โคเมทเอพีไอ เพื่อสร้างวิดีโอแทน WAN 2.2 เวอร์ชันล่าสุดของโมเดล Claude ที่ระบุไว้คือ ณ วันที่เผยแพร่บทความ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

โดยสรุปแล้ว Wan 2.2 ของ Alibaba ไม่เพียงแต่พัฒนาความก้าวหน้าทางเทคโนโลยี AI สำหรับวิดีโอเท่านั้น แต่ยังเป็นตัวอย่างที่แสดงให้เห็นว่าระบบนิเวศโอเพนซอร์สสามารถเร่งความก้าวหน้าและสร้างความหลากหลายในการใช้งานได้อย่างไร เมื่อนักพัฒนาเริ่มทดลองใช้โครงสร้างพื้นฐานของ MoE และระบบควบคุมแบบภาพยนตร์ คลื่นลูกใหม่ของคอนเทนต์วิดีโอที่สร้างโดย AI อาจเกิดขึ้นจากชุมชนที่ Alibaba ได้ช่วยเสริมศักยภาพ