Thông số kỹ thuật của Wan 2.6
| Hạng mục | Bộ Video Wan 2.6 |
|---|---|
| Nhà cung cấp | Alibaba / Tongyi Lab |
| Dòng mô hình | Wan 2.6 |
| Khung thời gian phát hành | Thế hệ tháng 12/2025 |
| Loại đầu vào | Văn bản, hình ảnh, video tham chiếu, đầu vào âm thanh |
| Loại đầu ra | Video kèm tùy chọn âm thanh đồng bộ |
| Chế độ lõi | Văn bản‑sang‑Video (T2V), Hình ảnh‑sang‑Video (I2V), Tham chiếu‑sang‑Video (R2V) |
| Biến thể Flash | I2V Flash, R2V Flash |
| Hỗ trợ độ phân giải | 720P và 1080P |
| Hỗ trợ thời lượng | 2–15 giây (phụ thuộc quy trình) |
| Khả năng âm thanh | Tạo âm thanh gốc, tham chiếu giọng nói, đồng bộ khẩu hình |
| Hỗ trợ đa cú máy | 2–8 phân đoạn cảnh trong một quy trình duy nhất |
| Hỗ trợ tham chiếu | Tối đa 5 tham chiếu (trộn hình ảnh/video tùy theo quy trình) |
| Quy trình API | Tạo tác vụ bất đồng bộ + thăm dò |
Wan 2.6 là gì?
Wan 2.6 là hệ thống tạo video đa phương thức của Alibaba, tập trung vào sản xuất dạng ngắn có thể kiểm soát. Thay vì chỉ dựa vào prompt, mô hình kết hợp prompt văn bản, tham chiếu hình ảnh, video tham chiếu, điều kiện hóa âm thanh và xâu chuỗi cảnh cho quy trình sáng tạo. Nâng cấp lớn so với các bản Wan trước là giới thiệu tính nhất quán dựa trên tham chiếu mạnh hơn và khả năng tạo dựng câu chuyện dài hơn.
Các tính năng chính của Wan 2.6
- Quy trình tham chiếu‑sang‑video: Người dùng có thể cung cấp tham chiếu hình ảnh hoặc video để duy trì danh tính nhân vật, phong cách và tính liên tục về giọng nói xuyên suốt các lần tạo.
- Tạo kể chuyện đa cú máy: Hỗ trợ xâu chuỗi nhiều prompt cho chuyển cảnh và tiến triển câu chuyện trong một quy trình tạo duy nhất.
- Đồng bộ âm thanh tích hợp sẵn: Hỗ trợ sẵn việc tạo âm thanh, tải lên âm thanh tùy chỉnh và các quy trình đồng bộ khẩu hình.
- Chế độ đầu vào linh hoạt: Hỗ trợ tạo chỉ dựa trên prompt, hoạt họa khung đầu tiên và các quy trình do tham chiếu điều khiển.
- Biến thể Flash cho lặp thử: Các phiên bản nhanh cho phép thử nghiệm tốc độ cao trước khi render chất lượng cao cuối cùng.
- Clip dài hơn: Thời lượng clip được kéo dài so với các thế hệ trước, hỗ trợ tạo nội dung kể chuyện.
Hiệu năng benchmark của Wan 2.6
Mức độ minh bạch về benchmark chính thức của Wan 2.6 vẫn hạn chế; Alibaba công bố ít con số benchmark chuẩn hóa hơn so với các nhà cung cấp LLM văn bản. Phần lớn đánh giá đến từ thử nghiệm quy trình và so sánh trong hệ sinh thái thay vì các bảng xếp hạng công khai. Kiểm thử từ cộng đồng liên tục nhấn mạnh:
- Cải thiện tính nhất quán nhân vật so với các bản Wan cũ hơn.
- Đồng bộ âm thanh‑hình ảnh tốt hơn.
- Tính liên tục đa cú máy mạnh hơn.
- Điều kiện hóa tham chiếu đáng tin cậy hơn.
Vì việc công bố benchmark còn thưa thớt, thử nghiệm trong môi trường sản xuất vẫn quan trọng trước khi triển khai.
Wan 2.6 so với các mô hình video khác
| Tính năng | Wan 2.6 | Wan 2.7 | Các mô hình họ Veo |
|---|---|---|---|
| Tạo âm thanh gốc | Mạnh | Mạnh hơn | Mạnh |
| Quy trình đa cú máy | Có | Cải thiện | Trung bình |
| Tham chiếu‑sang‑video | Tập trung mạnh | Kiểm soát mạnh hơn | Trung bình |
| Thời lượng clip | Tối đa 15s | Tương tự / phụ thuộc quy trình | Thay đổi |
| Hỗ trợ đa tham chiếu | Tối đa 5 tham chiếu | Quy trình mở rộng | Trung bình |
| Quy trình chỉnh sửa | Trung bình | Hỗ trợ chỉnh sửa tốt hơn | Mạnh |
Hạn chế của Wan 2.6
- Thời lượng clip ngắn vẫn hạn chế sản xuất định dạng dài.
- Cảnh có chuyển động mạnh có thể vẫn xuất hiện bất ổn theo thời gian.
- Quy trình phụ thuộc nhiều vào tham chiếu làm tăng độ phức tạp thiết lập.
- Báo cáo benchmark công khai vẫn hạn chế.
- Pipeline tạo bất đồng bộ làm tăng độ phức tạp tích hợp.
Trường hợp sử dụng tiêu biểu
- Video tiếp thị nhất quán về nhân vật.
- Clip mạng xã hội đa cảnh.
- Hoạt họa avatar của nhà sáng tạo.
- Video sản phẩm dựa trên tham chiếu.
- Kể chuyện bằng AI với âm thanh đồng bộ.
- Nội dung thương hiệu cần duy trì bản sắc.