ข้อมูลจำเพาะทาง技术ของ Wan 2.6
| รายการ | Wan 2.6 Video Suite |
|---|---|
| ผู้ให้บริการ | Alibaba / Tongyi Lab |
| ตระกูลโมเดล | Wan 2.6 |
| ช่วงเวลาเปิดตัว | รุ่นประจำเดือนธันวาคม 2025 |
| ประเภทอินพุต | ข้อความ, รูปภาพ, วิดีโออ้างอิง, อินพุตเสียง |
| ประเภทเอาต์พุต | วิดีโอพร้อมเสียงที่ซิงโครไนซ์ (เป็นตัวเลือก) |
| โหมดหลัก | ข้อความสู่วิดีโอ (T2V), รูปภาพสู่วิดีโอ (I2V), อ้างอิงสู่วิดีโอ (R2V) |
| เวอร์ชัน Flash | I2V Flash, R2V Flash |
| รองรับความละเอียด | 720P และ 1080P |
| รองรับความยาว | 2–15 วินาที (ขึ้นกับเวิร์กโฟลว์) |
| ความสามารถด้านเสียง | การสร้างเสียงในตัว, การอ้างอิงเสียง, ลิปซิงก์ |
| รองรับหลายช็อต | 2–8 ส่วนฉากในเวิร์กโฟลว์เดียว |
| รองรับการอ้างอิง | แหล่งอ้างอิงสูงสุด 5 รายการ (ผสมรูปภาพ/วิดีโอขึ้นกับเวิร์กโฟลว์) |
| เวิร์กโฟลว์ API | การสร้างงานแบบอะซิงโครนัส + การโพลลิง |
Wan 2.6 คืออะไร?
Wan 2.6 เป็นระบบสร้างวิดีโอแบบมัลติโมดัลของ Alibaba ที่มุ่งเน้นการผลิตวิดีโอสั้นที่ควบคุมได้ แทนที่จะขับเคลื่อนด้วยพรอมป์เพียงอย่างเดียว โมเดลนี้ผสานพรอมป์ข้อความ แหล่งอ้างอิงรูปภาพ วิดีโออ้างอิง การกำหนดเงื่อนไขเสียง และการเชื่อมลำดับฉาก สำหรับเวิร์กโฟลว์ของผู้สร้าง การอัปเกรดสำคัญเหนือรุ่น Wan ก่อนหน้า คือการเสริมความคงเส้นคงวาตามแหล่งอ้างอิงให้แข็งแรงขึ้น และการสร้างเรื่องเล่าที่ยาวขึ้น
คุณสมบัติหลักของ Wan 2.6
- เวิร์กโฟลว์แบบอ้างอิงสู่วิดีโอ: ผู้ใช้สามารถป้อนแหล่งอ้างอิงเป็นรูปภาพหรือวิดีโอ เพื่อคงอัตลักษณ์ตัวละคร สไตล์ และความต่อเนื่องของเสียงข้ามการสร้างหลายครั้ง
- การสร้างเรื่องเล่าแบบหลายช็อต: รองรับการเชื่อมพรอมป์หลายรายการเข้าด้วยกัน เพื่อการเปลี่ยนฉากและความก้าวหน้าของเรื่องราวภายในเวิร์กโฟลว์การสร้างครั้งเดียว
- การซิงโครไนซ์เสียงในตัว: รองรับเสียงที่สร้างขึ้นในตัว การอัปโหลดเสียงแบบกำหนดเอง และเวิร์กโฟลว์ลิปซิงก์
- โหมดอินพุตที่ยืดหยุ่น: รองรับการสร้างด้วยพรอมป์อย่างเดียว การทำแอนิเมชันจากเฟรมแรก และเวิร์กโฟลว์ที่ขับเคลื่อนด้วยการอ้างอิง
- เวอร์ชัน Flash สำหรับการทำซ้ำ: เวอร์ชันที่เร็วขึ้นช่วยให้ทดสอบได้อย่างรวดเร็วก่อนเรนเดอร์คุณภาพสูงขั้นสุดท้าย
- คลิปที่ยาวขึ้น: ระยะเวลาคลิปยาวขึ้นเมื่อเทียบกับรุ่นก่อนหน้า รองรับการสร้างคอนเทนต์เชิงเรื่องเล่า
ผลการทดสอบเชิงเปรียบเทียบของ Wan 2.6
ความโปร่งใสของผลเบนช์มาร์กอย่างเป็นทางการสำหรับ Wan 2.6 ยังคงจำกัด; Alibaba เผยแพร่ตัวเลขเบนช์มาร์กมาตรฐานน้อยกว่าผู้ให้บริการ LLM ด้านข้อความ การประเมินส่วนใหญ่มาจากการทดสอบเวิร์กโฟลว์และการเปรียบเทียบภายในระบบนิเวศ มากกว่าจากลีดเดอร์บอร์ดสาธารณะ การทดสอบโดยชุมชนชี้ให้เห็นอย่างสม่ำเสมอว่า:
- ความคงเส้นคงวาของตัวละครดีขึ้นเมื่อเทียบกับรุ่น Wan เก่ากว่า
- การซิงโครไนซ์ภาพและเสียงที่ดีขึ้น
- ความต่อเนื่องหลายช็อตที่ดีขึ้น
- การกำหนดเงื่อนไขอ้างอิงที่เชื่อถือได้มากขึ้น
เนื่องจากการเผยแพร่เบนช์มาร์กมีจำกัด การทดสอบในสภาพการใช้งานจริงจึงยังคงมีความสำคัญก่อนการใช้งาน
Wan 2.6 เทียบกับโมเดลวิดีโออื่น
| คุณสมบัติ | Wan 2.6 | Wan 2.7 | Veo-family models |
|---|---|---|---|
| การสร้างเสียงในตัว | แข็งแกร่ง | แข็งแกร่งกว่า | แข็งแกร่ง |
| เวิร์กโฟลว์หลายช็อต | มี | ปรับปรุงแล้ว | ปานกลาง |
| อ้างอิงสู่วิดีโอ | เน้นเป็นพิเศษ | การควบคุมที่แข็งแกร่งกว่า | ปานกลาง |
| ระยะเวลาคลิป | สูงสุด 15s | ใกล้เคียง / ขึ้นกับเวิร์กโฟลว์ | แปรผัน |
| รองรับหลายแหล่งอ้างอิง | สูงสุด 5 รายการ | เวิร์กโฟลว์ที่ขยายเพิ่ม | ปานกลาง |
| เวิร์กโฟลว์การตัดต่อ | ปานกลาง | รองรับการตัดต่อได้ดีขึ้น | แข็งแกร่ง |
ข้อจำกัดของ Wan 2.6
- ความยาวคลิปที่สั้นยังคงจำกัดการผลิตเนื้อหาแบบยาว
- ฉากที่มีการเคลื่อนไหวสูงอาจยังแสดงความไม่เสถียรเชิงเวลา
- เวิร์กโฟลว์ที่พึ่งพาการอ้างอิงมากทำให้ความซับซ้อนในการตั้งค่าสูงขึ้น
- การรายงานเบนช์มาร์กสาธารณะยังคงจำกัด
- ไปป์ไลน์การสร้างแบบอะซิงโครนัสทำให้ความซับซ้อนในการผสานระบบเพิ่มขึ้น
กรณีการใช้งานตัวอย่าง
- วิดีโอการตลาดที่รักษาความคงเส้นคงวาของตัวละคร
- คลิปโซเชียลมีเดียแบบหลายฉาก
- แอนิเมชันอวตารสำหรับครีเอเตอร์
- วิดีโอสินค้าแบบขับเคลื่อนด้วยการอ้างอิง
- การเล่าเรื่องด้วย AI พร้อมเสียงที่ซิงโครไนซ์
- คอนเทนต์แบรนด์ที่ต้องการคงเอกลักษณ์