เอพีไอ Wan2.1

Wan 2.1 API เป็นอินเทอร์เฟซการสร้างวิดีโอที่ขับเคลื่อนด้วย AI ขั้นสูงที่แปลงอินพุตข้อความหรือรูปภาพให้กลายเป็นวิดีโอคุณภาพสูงและสมจริงโดยใช้โมเดลการเรียนรู้เชิงลึกที่ล้ำสมัย

เอพีไอ Wan2.1

ข้อมูลพื้นฐาน: Wan 2.1 คืออะไร?

Wan 2.1 คือโมเดล AI ที่พัฒนาโดย Alibaba Cloud ซึ่งออกแบบมาเพื่อสร้างเนื้อหาวิดีโอคุณภาพสูงจากอินพุตที่เป็นข้อความหรือรูปภาพ โดยใช้กรอบงานการเรียนรู้เชิงลึกขั้นสูง เช่น Diffusion Transformers และ 3D Variational Autoencoders (VAEs) เพื่อสังเคราะห์คลิปวิดีโอแบบไดนามิกและมีความสอดคล้องกันทางภาพ ในฐานะโซลูชันโอเพ่นซอร์ส Wan 2.1 สามารถเข้าถึงได้โดยนักพัฒนา นักวิจัย และผู้สร้างเนื้อหาจำนวนมาก ช่วยยกระดับความสามารถในการสร้างวิดีโอที่ขับเคลื่อนด้วย AI อย่างมาก

เมตริกประสิทธิภาพของ Wan 2.1

Wan 2.1 ได้แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในด้านคุณภาพวิดีโอที่สร้างโดย AI โดยทำผลงานได้ดีกว่าโมเดลโอเพ่นซอร์สที่มีอยู่และแข่งขันกับโซลูชันแบบปิดเชิงพาณิชย์ได้อย่างสม่ำเสมอ โมเดลนี้ได้รับการจัดอันดับสูงใน VBench ซึ่งเป็นเกณฑ์มาตรฐานที่ใช้ในการประเมินโมเดลการสร้างวิดีโอ โดยเฉพาะอย่างยิ่งในด้านการสร้างการเคลื่อนไหวที่ซับซ้อนและการโต้ตอบระหว่างวัตถุหลายชิ้น เมื่อเปรียบเทียบกับเวอร์ชันก่อนหน้า Wan 2.1 มอบความสอดคล้องตามเวลาที่เหนือกว่า ความละเอียดที่ได้รับการปรับปรุง และสิ่งแปลกปลอมที่ลดลง ช่วยให้มั่นใจได้ว่าจะได้รับประสบการณ์การรับชมที่ราบรื่น

รายละเอียดทางเทคนิค

นวัตกรรมทางสถาปัตยกรรม

โมเดลนี้สร้างขึ้นจากกรอบงานล้ำสมัยที่รวมเอา:

การเข้ารหัสอัตโนมัติแบบแปรผัน 3 มิติ (VAE):ปรับปรุงการบีบอัดเชิงพื้นที่และเวลาและลดการใช้หน่วยความจำพร้อมทั้งยังคงคุณภาพวิดีโอในระดับสูง
หม้อแปลงกระจายความร้อน (DiT):นำกลไกการให้ความสนใจเต็มรูปแบบมาใช้ซึ่งช่วยให้เกิดความสอดคล้องกันทั้งในเชิงพื้นที่และเวลาในระยะยาวในการสร้างวิดีโอ
กระบวนการฝึกอบรมหลายขั้นตอนเพิ่มความละเอียดและระยะเวลาของวิดีโออย่างค่อยเป็นค่อยไปเพื่อเพิ่มประสิทธิภาพการฝึกอบรมและการจัดสรรทรัพยากรการคำนวณ

รุ่น Variants

เพื่อรองรับความต้องการของผู้ใช้ที่แตกต่างกัน จึงมีให้เลือกหลายรูปแบบ:

วัน 2.1-T2V-14B:โมเดลข้อความเป็นวิดีโอที่มีพารามิเตอร์ 14 พันล้านพารามิเตอร์ที่ได้รับการปรับให้เหมาะสมสำหรับการสังเคราะห์วิดีโอที่มีคุณภาพสูงและสมจริง
วัน 2.1-T2V-1.3B:โมเดลพารามิเตอร์ 1.3 พันล้านที่เข้าถึงได้ง่ายกว่าซึ่งต้องการ VRAM เพียง 8.19 GB ช่วยให้ GPU ระดับผู้บริโภคสร้างวิดีโอ 5p ความยาว 480 วินาทีได้ในเวลาประมาณ 4 นาที
วาน 2.1-I2V-14B-480P และ 720P:โมเดลภาพเป็นวิดีโอที่รองรับความละเอียดต่างกัน ออกแบบมาเพื่อแปลงภาพนิ่งเป็นเนื้อหาวิดีโอแบบไดนามิก

ชุดข้อมูลการฝึกอบรมและการประมวลผลเบื้องต้น

ชุดข้อมูลที่ใช้สำหรับ Wan 2.1 ประกอบด้วยลำดับวิดีโอคุณภาพสูงขนาดใหญ่ที่คัดสรรมาอย่างรอบคอบโดยใช้กระบวนการทำความสะอาดและเพิ่มข้อมูลหลายขั้นตอน วิธีนี้ช่วยให้กำจัดข้อมูลคุณภาพต่ำได้ในขณะที่ปรับปรุงความเที่ยงตรงของภาพและการเคลื่อนไหว กระบวนการก่อนการฝึกแบ่งออกเป็น XNUMX ขั้นตอน โดยปรับปรุงความสามารถของโมเดลในการจัดการกับความละเอียดและความซับซ้อนของการเคลื่อนไหวที่แตกต่างกันอย่างค่อยเป็นค่อยไป

วิวัฒนาการของ Wan 2.1

Wan 2.1 เป็นวิวัฒนาการโดยตรงจากโมเดลการสร้างวิดีโอที่ขับเคลื่อนด้วย AI ก่อนหน้านี้ โดยผสานรวมการปรับปรุงที่สำคัญจากรุ่นก่อนหน้า การเปลี่ยนผ่านจากเครือข่ายการต่อต้านเชิงสร้างสรรค์ (GAN) แบบเดิมไปเป็นสถาปัตยกรรมที่อิงตามการแพร่กระจายได้ปรับปรุงความสมจริงและความสอดคล้องของวิดีโอที่สร้างขึ้นอย่างมีนัยสำคัญ นอกจากนี้ การนำกลไกการให้ความสนใจตามตัวแปลงมาใช้ยังทำให้การสร้างแบบจำลองเชิงปริภูมิและเวลามีความซับซ้อนมากขึ้น ส่งผลให้ประสิทธิภาพดีขึ้นในเมตริกการประเมินหลายตัว

ข้อดีของ Wan 2.1

การสร้างวิดีโอที่ล้ำสมัย

Wan 2.1 เหนือกว่าโมเดลโอเพนซอร์สที่มีอยู่เดิมในการสร้างวิดีโอที่สมจริงด้วยการเคลื่อนไหวที่ซับซ้อนและวัตถุที่ดูเป็นธรรมชาติ

ประสิทธิภาพการคำนวณสูง

สถาปัตยกรรมที่ได้รับการปรับให้เหมาะสมช่วยให้มั่นใจถึงการใช้งาน GPU ที่มีประสิทธิภาพ ช่วยให้แม้แต่ฮาร์ดแวร์ระดับผู้บริโภคก็สามารถสร้างเนื้อหาวิดีโอคุณภาพสูงได้

ศักยภาพการใช้งานที่หลากหลาย

รองรับการแปลงข้อความเป็นวิดีโอ (T2V) และการแปลงภาพเป็นวิดีโอ (I2V) ทำให้ปรับใช้ได้หลากหลายอุตสาหกรรม รวมถึงสื่อ การตลาด การศึกษา และเกม

การเข้าถึงแบบโอเพ่นซอร์ส

Wan 2.1 พร้อมใช้งานภายใต้ใบอนุญาต Apache 2.0 ส่งเสริมนวัตกรรมและเปิดใช้งานการนำไปใช้ในวงกว้างมากขึ้นในหมู่นักวิจัยและนักพัฒนา AI

ตัวชี้วัดทางเทคนิค

ประสิทธิภาพมาตรฐาน

การจัดอันดับ VBench:ได้รับคะแนนสูงสุดอย่างสม่ำเสมอในหมวดหมู่การโต้ตอบหลายวัตถุและความซับซ้อนของการเคลื่อนไหว
ความเร็วในการอนุมาน:โมเดลขนาดเล็กกว่า (1.3B) สร้างวิดีโอ 5p ความยาว 480 วินาทีใน 4 นาทีบน RTX 4090 โดยไม่ต้องใช้เทคนิคการปรับแต่งเช่นการวัดปริมาณ
การใช้หน่วยความจำ:ต้องการ VRAM เพียง 8.19 GB เพื่อการประมวลผลที่มีประสิทธิภาพ ช่วยให้ผู้ใช้หลากหลายกลุ่มสามารถเข้าถึงได้

สถานการณ์แอ็พพลิเคชัน

โฆษณาและการตลาด ช่วยให้แบรนด์ต่างๆ สามารถสร้างวิดีโอส่งเสริมการขายคุณภาพสูงได้อย่างรวดเร็ว ลดต้นทุนการผลิตและระยะเวลา

การศึกษาและการฝึกอบรม อำนวยความสะดวกในการพัฒนาเนื้อหาการเรียนการสอนแบบไดนามิก เพิ่มการมีส่วนร่วมและประสบการณ์การเรียนรู้

ความบันเทิงและการสร้างเนื้อหา เพิ่มศักยภาพให้กับผู้สร้างภาพยนตร์ นักสร้างแอนิเมชัน และผู้สร้างเนื้อหาด้วยเครื่องมือการผลิตวิดีโอที่ช่วยด้วย AI

Virtual Reality (VR) และ Augmented Reality (AR) รองรับการสร้างประสบการณ์ดิจิทัลที่ดื่มด่ำผ่านทรัพยากรวิดีโอที่สร้างโดย AI

หัวข้อที่เกี่ยวข้อง:โมเดล AI Music Generation ที่ดีที่สุด 3 อันดับแรกของปี 2025

สรุป

Wan 2.1 ถือเป็นความก้าวหน้าครั้งสำคัญในการสร้างวิดีโอที่ขับเคลื่อนด้วย AI โดยกำหนดมาตรฐานใหม่ในด้านคุณภาพ ประสิทธิภาพ และการเข้าถึง การผสมผสานระหว่างสถาปัตยกรรมการเรียนรู้ของเครื่องจักรที่ล้ำสมัย ประสิทธิภาพการคำนวณสูง และความพร้อมใช้งานของโอเพนซอร์สทำให้ Wan XNUMX เป็นเครื่องมือที่มีค่าสำหรับอุตสาหกรรมต่างๆ ในขณะที่ AI ยังคงขยายขอบเขตของความคิดสร้างสรรค์และระบบอัตโนมัติต่อไป Wan XNUMX แสดงให้เห็นถึงศักยภาพของโมเดลเชิงสร้างสรรค์ในการปรับเปลี่ยนการสร้างเนื้อหาดิจิทัล

วิธีการเรียกใช้งาน Wan 2.1 API จาก CometAPI

1.ล็อกอิน ไปยัง โคเมตาปิดอทคอม. หากคุณยังไม่ได้เป็นผู้ใช้ของเรา กรุณาลงทะเบียนก่อน

2.รับรหัส API ของข้อมูลรับรองการเข้าถึง ของอินเทอร์เฟซ คลิก "เพิ่มโทเค็น" ที่โทเค็น API ในศูนย์ส่วนบุคคล รับคีย์โทเค็น: sk-xxxxx และส่ง

รับ URL ของเว็บไซต์นี้: https://api.cometapi.com/
เลือกจุดสิ้นสุด Wan 2.1 เพื่อส่งคำขอ API และตั้งค่าเนื้อหาคำขอ วิธีการคำขอและเนื้อหาคำขอจะได้รับจาก เอกสาร API ของเว็บไซต์ของเราเว็บไซต์ของเรายังให้บริการทดสอบ Apifox เพื่อความสะดวกของคุณอีกด้วย
ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากส่งคำขอ API แล้ว คุณจะได้รับอ็อบเจ็กต์ JSON ที่มีคำตอบที่สร้างขึ้น