Q

Wan2.6

Mỗi Giây:$0.08
Tạo video từ văn bản và hình ảnh. Tạo và chỉnh sửa hình ảnh với tính nhất quán theo tham chiếu.
Mới
Sử dụng thương mại

Thông số kỹ thuật của Wan 2.6

Hạng mụcBộ Video Wan 2.6
Nhà cung cấpAlibaba / Tongyi Lab
Dòng mô hìnhWan 2.6
Khung thời gian phát hànhThế hệ tháng 12/2025
Loại đầu vàoVăn bản, hình ảnh, video tham chiếu, đầu vào âm thanh
Loại đầu raVideo kèm tùy chọn âm thanh đồng bộ
Chế độ lõiVăn bản‑sang‑Video (T2V), Hình ảnh‑sang‑Video (I2V), Tham chiếu‑sang‑Video (R2V)
Biến thể FlashI2V Flash, R2V Flash
Hỗ trợ độ phân giải720P và 1080P
Hỗ trợ thời lượng2–15 giây (phụ thuộc quy trình)
Khả năng âm thanhTạo âm thanh gốc, tham chiếu giọng nói, đồng bộ khẩu hình
Hỗ trợ đa cú máy2–8 phân đoạn cảnh trong một quy trình duy nhất
Hỗ trợ tham chiếuTối đa 5 tham chiếu (trộn hình ảnh/video tùy theo quy trình)
Quy trình APITạo tác vụ bất đồng bộ + thăm dò

Wan 2.6 là gì?

Wan 2.6 là hệ thống tạo video đa phương thức của Alibaba, tập trung vào sản xuất dạng ngắn có thể kiểm soát. Thay vì chỉ dựa vào prompt, mô hình kết hợp prompt văn bản, tham chiếu hình ảnh, video tham chiếu, điều kiện hóa âm thanh và xâu chuỗi cảnh cho quy trình sáng tạo. Nâng cấp lớn so với các bản Wan trước là giới thiệu tính nhất quán dựa trên tham chiếu mạnh hơn và khả năng tạo dựng câu chuyện dài hơn.

Các tính năng chính của Wan 2.6

  • Quy trình tham chiếu‑sang‑video: Người dùng có thể cung cấp tham chiếu hình ảnh hoặc video để duy trì danh tính nhân vật, phong cách và tính liên tục về giọng nói xuyên suốt các lần tạo.
  • Tạo kể chuyện đa cú máy: Hỗ trợ xâu chuỗi nhiều prompt cho chuyển cảnh và tiến triển câu chuyện trong một quy trình tạo duy nhất.
  • Đồng bộ âm thanh tích hợp sẵn: Hỗ trợ sẵn việc tạo âm thanh, tải lên âm thanh tùy chỉnh và các quy trình đồng bộ khẩu hình.
  • Chế độ đầu vào linh hoạt: Hỗ trợ tạo chỉ dựa trên prompt, hoạt họa khung đầu tiên và các quy trình do tham chiếu điều khiển.
  • Biến thể Flash cho lặp thử: Các phiên bản nhanh cho phép thử nghiệm tốc độ cao trước khi render chất lượng cao cuối cùng.
  • Clip dài hơn: Thời lượng clip được kéo dài so với các thế hệ trước, hỗ trợ tạo nội dung kể chuyện.

Hiệu năng benchmark của Wan 2.6

Mức độ minh bạch về benchmark chính thức của Wan 2.6 vẫn hạn chế; Alibaba công bố ít con số benchmark chuẩn hóa hơn so với các nhà cung cấp LLM văn bản. Phần lớn đánh giá đến từ thử nghiệm quy trình và so sánh trong hệ sinh thái thay vì các bảng xếp hạng công khai. Kiểm thử từ cộng đồng liên tục nhấn mạnh:

  • Cải thiện tính nhất quán nhân vật so với các bản Wan cũ hơn.
  • Đồng bộ âm thanh‑hình ảnh tốt hơn.
  • Tính liên tục đa cú máy mạnh hơn.
  • Điều kiện hóa tham chiếu đáng tin cậy hơn.

Vì việc công bố benchmark còn thưa thớt, thử nghiệm trong môi trường sản xuất vẫn quan trọng trước khi triển khai.

Wan 2.6 so với các mô hình video khác

Tính năngWan 2.6Wan 2.7Các mô hình họ Veo
Tạo âm thanh gốcMạnhMạnh hơnMạnh
Quy trình đa cú máyCải thiệnTrung bình
Tham chiếu‑sang‑videoTập trung mạnhKiểm soát mạnh hơnTrung bình
Thời lượng clipTối đa 15sTương tự / phụ thuộc quy trìnhThay đổi
Hỗ trợ đa tham chiếuTối đa 5 tham chiếuQuy trình mở rộngTrung bình
Quy trình chỉnh sửaTrung bìnhHỗ trợ chỉnh sửa tốt hơnMạnh

Hạn chế của Wan 2.6

  • Thời lượng clip ngắn vẫn hạn chế sản xuất định dạng dài.
  • Cảnh có chuyển động mạnh có thể vẫn xuất hiện bất ổn theo thời gian.
  • Quy trình phụ thuộc nhiều vào tham chiếu làm tăng độ phức tạp thiết lập.
  • Báo cáo benchmark công khai vẫn hạn chế.
  • Pipeline tạo bất đồng bộ làm tăng độ phức tạp tích hợp.

Trường hợp sử dụng tiêu biểu

  1. Video tiếp thị nhất quán về nhân vật.
  2. Clip mạng xã hội đa cảnh.
  3. Hoạt họa avatar của nhà sáng tạo.
  4. Video sản phẩm dựa trên tham chiếu.
  5. Kể chuyện bằng AI với âm thanh đồng bộ.
  6. Nội dung thương hiệu cần duy trì bản sắc.

Câu Hỏi Thường Gặp