API Wan 2.1

CometAPI
AnnaMar 20, 2025
API Wan 2.1

Wan 2.1 API là giao diện tạo video tiên tiến do AI điều khiển, có khả năng chuyển đổi văn bản hoặc hình ảnh đầu vào thành video chân thực, chất lượng cao bằng các mô hình học sâu hiện đại.

API Wan 2.1

Thông tin cơ bản: Wan 2.1 là gì?

Wan 2.1 là một mô hình AI do Alibaba Cloud phát triển, được thiết kế để tạo nội dung video chất lượng cao từ các đầu vào dạng văn bản hoặc hình ảnh. Nó tận dụng các khuôn khổ học sâu tiên tiến, bao gồm Diffusion Transformers và 3D Variational Autoencoders (VAE), để tổng hợp các đoạn video động và mạch lạc về mặt hình ảnh. Là một giải pháp nguồn mở, Wan 2.1 có thể tiếp cận được với nhiều nhà phát triển, nhà nghiên cứu và người sáng tạo nội dung, giúp cải thiện đáng kể khả năng tạo video do AI điều khiển.

Chỉ số hiệu suất của Wan 2.1

Wan 2.1 đã chứng minh hiệu suất vượt trội về chất lượng video do AI tạo ra, luôn vượt trội hơn các mô hình nguồn mở hiện có và cạnh tranh với các giải pháp nguồn đóng thương mại. Mô hình này được xếp hạng cao trên VBench, một chuẩn mực được sử dụng để đánh giá các mô hình tạo video, đặc biệt xuất sắc trong việc tạo chuyển động phức tạp và tương tác nhiều đối tượng. So với các phiên bản trước, Wan 2.1 cung cấp tính nhất quán về mặt thời gian vượt trội, độ phân giải được cải thiện và giảm hiện tượng nhiễu, đảm bảo trải nghiệm xem liền mạch.

Chi tiết kỹ thuật

Đổi mới kiến ​​trúc

Mô hình được xây dựng trên một khuôn khổ tiên tiến kết hợp:

  • Bộ mã hóa tự động biến thiên 3D (VAE): Cải thiện khả năng nén không gian và thời gian, giảm mức sử dụng bộ nhớ trong khi vẫn duy trì chất lượng video cao.
  • Biến áp khuếch tán (DiT): Triển khai cơ chế chú ý toàn diện cho phép đạt được sự nhất quán về không gian và thời gian lâu dài trong quá trình tạo video.
  • Quy trình đào tạo nhiều giai đoạn: Tăng dần độ phân giải và thời lượng video để tối ưu hóa hiệu quả đào tạo và phân bổ tài nguyên tính toán.

Các biến thể mô hình

Để đáp ứng các nhu cầu khác nhau của người dùng, sản phẩm có nhiều cấu hình khác nhau:

  • Wan 2.1-T2V-14B:Mô hình chuyển văn bản thành video 14 tỷ tham số được tối ưu hóa để tổng hợp video chân thực, chất lượng cao.
  • Wan 2.1-T2V-1.3B:Mô hình 1.3 tỷ tham số dễ tiếp cận hơn chỉ cần 8.19 GB VRAM, cho phép GPU dành cho người tiêu dùng tạo video 5p dài 480 giây trong khoảng 4 phút.
  • Wan2.1-I2V-14B-480P & 720P: Các mô hình chuyển đổi hình ảnh sang video hỗ trợ nhiều độ phân giải khác nhau, được thiết kế để chuyển đổi hình ảnh tĩnh thành nội dung video động.

Bộ dữ liệu đào tạo và tiền xử lý

Bộ dữ liệu được sử dụng cho Wan 2.1 bao gồm các chuỗi video chất lượng cao, quy mô lớn được tuyển chọn cẩn thận bằng quy trình làm sạch và tăng cường dữ liệu nhiều bước. Điều này đảm bảo loại bỏ dữ liệu chất lượng thấp đồng thời tăng cường độ trung thực của hình ảnh và chuyển động. Quy trình tiền đào tạo được chia thành bốn giai đoạn, dần dần tinh chỉnh khả năng xử lý các độ phân giải và độ phức tạp khác nhau của mô hình.

Sự tiến hóa của Wan 2.1

Wan 2.1 là sự phát triển trực tiếp của các mô hình tạo video do AI điều khiển trước đó, tích hợp những cải tiến đáng kể so với các phiên bản trước. Sự chuyển đổi từ các mạng đối nghịch tạo sinh (GAN) thông thường sang các kiến ​​trúc dựa trên khuếch tán đã cải thiện đáng kể tính chân thực và tính mạch lạc của các video được tạo ra. Hơn nữa, việc áp dụng các cơ chế chú ý dựa trên bộ biến đổi đã cho phép mô hình hóa không gian thời gian tinh vi hơn, dẫn đến hiệu suất được cải thiện trên nhiều số liệu đánh giá.

Ưu điểm của Wan 2.1

Công nghệ tạo video hiện đại

Wan 2.1 vượt trội hơn các mô hình nguồn mở hiện có trong việc tạo ra các video chân thực với chuyển động phức tạp và các vật thể trông tự nhiên.

Hiệu suất tính toán cao

Kiến trúc được tối ưu hóa đảm bảo sử dụng GPU hiệu quả, cho phép ngay cả phần cứng tiêu dùng cũng có thể tạo ra nội dung video chất lượng cao.

Tiềm năng ứng dụng đa năng

Hỗ trợ chuyển văn bản thành video (T2V) và chuyển hình ảnh thành video (I2V), giúp nó có khả năng thích ứng cao với nhiều ngành công nghiệp khác nhau, bao gồm truyền thông, tiếp thị, giáo dục và trò chơi.

Khả năng truy cập nguồn mở

Wan 2.1 được cung cấp theo giấy phép Apache 2.0, thúc đẩy sự đổi mới và cho phép các nhà nghiên cứu và nhà phát triển AI áp dụng rộng rãi hơn.

Các chỉ số kỹ thuật

Hiệu suất chuẩn

  • Xếp hạng VBench:Luôn đạt điểm cao nhất trong các hạng mục tương tác nhiều đối tượng và độ phức tạp của chuyển động.
  • Tốc độ suy luận: Phiên bản nhỏ hơn (1.3B) tạo ra video 5p dài 480 giây trong 4 phút trên RTX 4090 mà không cần các kỹ thuật tối ưu hóa như lượng tử hóa.
  • Sử dụng bộ nhớ: Chỉ cần 8.19 GB VRAM để xử lý hiệu quả, giúp nhiều người dùng có thể sử dụng.

Các kịch bản ứng dụng

Quảng cáo và Tiếp thị Cho phép các thương hiệu tạo video quảng cáo chất lượng cao một cách nhanh chóng, giảm chi phí sản xuất và thời gian.

Giáo dục và Đào tạo Thúc đẩy sự phát triển nội dung hướng dẫn năng động, tăng cường sự tương tác và trải nghiệm học tập.

Giải trí và sáng tạo nội dung Cung cấp cho các nhà làm phim, họa sĩ hoạt hình và người sáng tạo nội dung các công cụ sản xuất video hỗ trợ AI.

Thực tế ảo (VR) và Thực tế tăng cường (AR) Hỗ trợ việc tạo ra trải nghiệm kỹ thuật số hấp dẫn thông qua nội dung video do AI tạo ra.

Chủ đề liên quan:3 mô hình tạo nhạc AI tốt nhất năm 2025

Kết luận

Wan 2.1 đại diện cho một bước tiến lớn trong việc tạo video do AI điều khiển, thiết lập các chuẩn mực mới về chất lượng, hiệu quả và khả năng truy cập. Sự kết hợp giữa kiến ​​trúc máy học hiện đại, hiệu quả tính toán cao và tính khả dụng của mã nguồn mở khiến nó trở thành một công cụ có giá trị trong nhiều ngành công nghiệp khác nhau. Khi AI tiếp tục thúc đẩy ranh giới của sự sáng tạo và tự động hóa, nó minh họa cho tiềm năng của các mô hình tạo ra trong việc định hình lại việc tạo nội dung kỹ thuật số.

Cách gọi Wan 2.1 API từ CometAPI

1.Đăng nhập đến cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước

2.Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, lấy khóa mã thông báo: sk-xxxxx và gửi.

  1. Lấy url của trang web này: https://api.cometapi.com/

  2. Chọn điểm cuối Wan 2.1 để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp xét nghiệm Apifox để thuận tiện cho bạn.

  3. Xử lý phản hồi API để nhận được câu trả lời đã tạo. Sau khi gửi yêu cầu API, bạn sẽ nhận được đối tượng JSON chứa nội dung hoàn thành đã tạo.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%