Học viện DAMO của Alibaba chính thức ra mắt ngày hôm nay Wan 2.2, một bộ mô hình tạo video nguồn mở thế hệ tiếp theo được xây dựng trên Hỗn hợp chuyên gia (MoE) kiến trúc. Wan 2.2 hứa hẹn những cải tiến đột phá về hiệu quả tính toán, độ trung thực chuyển động và khả năng biểu đạt điện ảnh—cho phép các nhà phát triển và người sáng tạo tạo ra video 1080p chất lượng cao từ lời nhắc văn bản hoặc hình ảnh với khả năng kiểm soát và tính linh hoạt chưa từng có. Wan 2.2 mang lại những cải tiến đáng kể về chất lượng chuyển động, chi tiết hình ảnh và hiệu quả tính toán so với phiên bản tiền nhiệm Wan 2.1.
Những đổi mới chính trong Wan 2.2
1. Đường ống khử nhiễu do MoE điều khiển
Với các mạng con, hệ thống có thể phân bổ tài nguyên ở những nơi quan trọng nhất—từ những nét tổng quát cho bố cục cảnh, sau đó là tinh chỉnh chi tiết chi tiết. Thiết kế này cho phép mô hình chủ lực của Wan 2.2 sở hữu tổng cộng 27 tỷ tham số trong khi chỉ kích hoạt 14 tỷ tham số cho mỗi lần suy luận, giảm một nửa tài nguyên tính toán cần thiết cho quá trình tổng hợp video chất lượng cao.
- Chuyên gia về tiếng ồn cao tập trung vào việc thiết lập quỹ đạo chuyển động tổng thể và bố cục cảnh.
- Chuyên gia giảm tiếng ồn áp dụng kết cấu tỉ mỉ, chi tiết khuôn mặt và sắc thái ánh sáng.
Khung chuyên gia kép này đảm bảo rằng người sáng tạo có thể tạo ra các chuỗi phim dài hơn, phức tạp hơn với độ trung thực điện ảnh chuyên nghiệp—tất cả mà không làm tăng nhu cầu bộ nhớ GPU theo tỷ lệ so với Wan 2.1.
2. Hệ thống kiểm soát thẩm mỹ điện ảnh
Dựa trên những đổi mới về kiến trúc, hệ thống này giới thiệu một “Hệ thống Kiểm soát Thẩm mỹ Phim” chưa từng có, cho phép người dùng điều khiển ánh sáng, chỉnh màu, góc quay và bố cục thông qua các gợi ý từ khóa trực quan. Bằng cách kết hợp các mô tả như “ánh sáng hoàng hôn”, “ánh sáng viền mềm mại” hoặc “bố cục cân bằng góc thấp”, người sáng tạo có thể tự động tạo ra các cảnh quay gợi nhớ đến những bộ phim bom tấn Hollywood hoặc phim nghệ thuật độc lập. Ngược lại, các yếu tố đầu vào như “tông màu lạnh”, “ánh sáng mạnh” và “khung hình động” tạo ra hình ảnh theo phong cách khoa học viễn tưởng hoặc phim đen theo yêu cầu.
Lần đầu tiên trong các mô hình video AI nguồn mở, Wan 2.2 tích hợp giao diện điều khiển cấp phim:
- Hơn 60 thông số có thể điều chỉnh bao gồm ánh sáng, phân loại màu sắc, đóng khung, hiệu ứng ống kính và độ sâu trường ảnh.
- Liên kết kiểu thông minh, cho phép người dùng mô tả tâm trạng (ví dụ: "ánh sáng đen lúc chạng vạng") và hệ thống sẽ tự động cấu hình các thiết lập phức tạp về camera và màu sắc.
- Cài đặt trước điện ảnh được xác định trướcchẳng hạn như "phim viễn tây cổ điển", "khoa học viễn tưởng tân Tokyo" và "phóng sự tài liệu" giúp hợp lý hóa quy trình làm việc sáng tạo.
3. Vật lý nâng cao và chủ nghĩa hiện thực cảm xúc
Wan 2.2 chứng minh những cải tiến đáng kể trong việc mô phỏng các hiện tượng trong thế giới thực và các biểu hiện vi mô của con người:
- Mô phỏng vật lý cho động lực học chất lưu tự nhiên, ánh sáng thể tích và hiệu ứng va chạm.
- Chụp biểu cảm khuôn mặt, thể hiện những tín hiệu tinh tế như đôi môi run rẩy, sự thay đổi lông mày và những giọt nước mắt kìm nén với độ trung thực cao.
- Xử lý cảnh nhiều người, đảm bảo sự tương tác mạch lạc và ánh sáng nhất quán trên các nhân vật chuyển động.
Các biến thể mô hình và hiệu suất
Bản phát hành Wan 2.2 bao gồm:
- Wan 2.2‑T2V‑A14B: Chuyển văn bản thành video
- Wan 2.2‑I2V‑A14B: Hình ảnh thành video
- Wan 2.2‑IT2V‑5B: Một mô hình thống nhất 5 tỷ tham số nhỏ gọn phù hợp với GPU cấp tiêu dùng, Unified Generation
Biến thể 5B tận dụng VAE 3D nén cao để giảm mã thông báo thời gian-không gian 4×16×16—cho phép đầu ra 1080p mượt mà ngay cả trên phần cứng khiêm tốn.
Bộ Wan 2.2 bao gồm hai dịch vụ cốt lõi được thiết kế cho các trường hợp sử dụng khác nhau:
Mô hình MoE tham số 14B (Wan 2.2-T2V-A14B & Wan 2.2-I2V-A14B)
- Sử dụng toàn bộ kiến trúc MoE để đạt chất lượng tối đa.
- Hỗ trợ cả quy trình chuyển văn bản thành video và chuyển hình ảnh thành video ở độ phân giải lên tới 1080p.
- Lý tưởng cho sản xuất và nghiên cứu ở cấp độ phòng thu.
Mô hình thống nhất dày đặc 5B-Tham số (Wan 2.2-IT2V-5B)
- Một mô hình nhỏ gọn, hướng đến hiệu suất có thể triển khai trên một GPU cấp tiêu dùng duy nhất (ví dụ: NVIDIA RTX 4090).
- Tạo video 720p, 24 khung hình/giây trong vài phút, tận dụng VAE 3D nén cao để đạt được tốc độ lấy mẫu không gian và thời gian 4×16×16 với mức giảm chất lượng tối thiểu.
- Giảm bớt rào cản cho những người đam mê và các nhóm nhỏ muốn thử nghiệm công nghệ tạo video AI.
Điểm chuẩn cho thấy mô hình nhỏ hơn có thể cung cấp clip độ nét cao 5 giây trong vòng chưa đầy năm phút trên phần cứng chơi game tiêu chuẩn, khiến Wan 2.2 trở thành một trong những giải pháp nguồn mở nhanh nhất trong cùng loại.
Khả năng truy cập và cam kết nguồn mở
Phù hợp với cam kết dân chủ hóa AI của Alibaba, Wan 2.2 hoàn toàn là mã nguồn mở và có thể truy cập miễn phí thông qua nhiều nền tảng:
- GitHub & Ôm mặt để tải trực tiếp mô hình và mã.
- Cộng đồng Moda cho các tiện ích mở rộng và tích hợp do cộng đồng thúc đẩy.
- API Alibaba Cloud BaiLian dành cho mô hình lưu trữ theo yêu cầu, cấp doanh nghiệp.
- Trang web và ứng dụng Tongyi Wanxiang để thử nghiệm không cần mã, dựa trên trình duyệt.
Kể từ đầu năm 2025, loạt Wan đã đạt hơn 5 triệu lượt tải xuống trên toàn cộng đồng nguồn mở, nhấn mạnh vai trò của nó trong việc thúc đẩy đổi mới hợp tác và phát triển kỹ năng giữa các chuyên gia AI trên toàn cầu.
Ý nghĩa của ngành
Việc phát hành Wan 2.2 đánh dấu thời điểm quan trọng trong quá trình làm phim và sáng tạo nội dung bằng AI:
Tiềm năng thương mại: Các thương hiệu, nhà quảng cáo và nền tảng truyền thông xã hội sẽ được hưởng lợi từ việc tạo mẫu nhanh các nội dung video, quảng cáo cá nhân hóa và định dạng kể chuyện năng động.
Giảm thiểu rào cản: Các chuyên gia và nhà sáng tạo độc lập hiện có thể đạt được năng suất sản xuất video gần như ở phòng thu mà không cần giấy phép phần cứng hoặc phần mềm đắt tiền.
Chất xúc tác đổi mới: Việc mở nguồn mô hình video tạo ra dựa trên MoE sẽ đẩy nhanh quá trình hợp tác nghiên cứu, có khả năng tạo ra các kiến trúc và công cụ nghệ thuật mới.
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Phiên bản tích hợp mới nhất Wan 2.2 sẽ sớm xuất hiện trên CometAPI, vì vậy hãy chú ý theo dõi! Trong khi chúng tôi hoàn thiện việc tải lên Mô hình Flash‑Lite Gemini 2.5, hãy khám phá các mô hình khác của chúng tôi trên trang Mô hình hoặc dùng thử chúng trong AI Playground.
Trong khi chờ đợi, các nhà phát triển có thể truy cập API Veo 3 và API Video Midjourney thông qua Sao chổiAPI Để tạo video thay vì wan 2.2, phiên bản Claude Models mới nhất được liệt kê là phiên bản tính đến ngày bài viết được xuất bản. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Tóm lại, Wan 2.2 của Alibaba không chỉ thúc đẩy công nghệ AI video tiên tiến nhất mà còn minh họa cách hệ sinh thái nguồn mở có thể đẩy nhanh tiến độ và đa dạng hóa các trường hợp sử dụng. Khi các nhà phát triển bắt đầu thử nghiệm với nền tảng MoE và các điều khiển điện ảnh của nó, làn sóng nội dung video tiếp theo do AI tạo ra rất có thể sẽ xuất hiện từ chính những cộng đồng mà Alibaba đã hỗ trợ trao quyền.
