โมเดลการสร้างวิดีโอของ OpenAI โซระ ถือเป็นก้าวกระโดดครั้งสำคัญในด้าน AI เชิงสร้างสรรค์ ซึ่งช่วยให้สามารถสังเคราะห์วิดีโอความคมชัดระดับ Full HD จากข้อความแจ้งเตือนแบบง่ายๆ ได้ นับตั้งแต่เปิดตัวในเดือนกุมภาพันธ์ 2024 Sora ได้จุดประกายความตื่นเต้นให้กับศักยภาพด้านความคิดสร้างสรรค์และความกังวลเกี่ยวกับผลกระทบทางจริยธรรมและกฎหมาย ด้านล่างนี้คือการสำรวจที่ครอบคลุม โซระได้รับการฝึกอย่างไรโดยอาศัยการรายงานและการเปิดเผยข้อมูลทางเทคนิคล่าสุด
โซระคืออะไร?
Sora คือเครื่องมือแปลงข้อความเป็นวิดีโออันล้ำสมัยของ OpenAI ที่สร้างคลิปวิดีโอความละเอียดสูงที่สมจริงจากคำอธิบายข้อความสั้นๆ ซึ่งแตกต่างจากรุ่นก่อนหน้าที่จำกัดให้เหลือเพียงวิดีโอความละเอียดต่ำเพียงไม่กี่วินาที Sora สามารถสร้างวิดีโอที่มีความยาวสูงสุด 1 นาทีที่ความละเอียด Full HD (1920×1080) พร้อมการเคลื่อนไหวที่ราบรื่นและฉากที่มีรายละเอียด
Sora มีคุณสมบัติอะไรบ้าง?
- การสร้างวิดีโอโดยใช้ข้อความ:ผู้ใช้ป้อนคำกระตุ้น (เช่น "หิมะที่ตกลงมาอย่างสงบในสวนสาธารณะแห่งหนึ่งในโตเกียว") และโซระจะแสดงวิดีโอคลิปที่ตรงกับคำอธิบายนั้นออกมา
- การแก้ไขและขยายความ:Sora สามารถขยายวิดีโอที่มีอยู่ เติมเฟรมที่หายไป และเปลี่ยนแปลงทิศทางหรือรูปแบบการเล่นได้
- จากสถิตสู่การเคลื่อนที่:โมเดลสามารถสร้างภาพเคลื่อนไหวจากภาพนิ่ง แปลงภาพถ่ายหรือภาพประกอบให้กลายเป็นฉากที่เคลื่อนไหวได้
- ความหลากหลายด้านสุนทรียศาสตร์:ผ่านโทเค็นสไตล์ ผู้ใช้สามารถปรับแต่งแสง การปรับสี และเอฟเฟกต์ภาพยนตร์ได้
สถาปัตยกรรมอะไรที่ทำให้ Sora มีพลัง?
Sora สร้างขึ้นบนรากฐานของหม้อแปลงที่คล้ายกับ GPT-4 แต่ปรับการแสดงอินพุตให้เหมาะกับการจัดการมิติเวลาและพื้นที่ของวิดีโอ:
- โทเค็นแพทช์เชิงพื้นที่-เชิงเวลา:เฟรมวิดีโอจะถูกแบ่งออกเป็นแพตช์ 3 มิติที่บันทึกทั้งภูมิภาคพิกเซลและวิวัฒนาการตามกาลเวลา
- การแพร่กระจายแบบก้าวหน้า:โดยเริ่มจากสัญญาณรบกวน Sora จะทำการกำจัดสัญญาณรบกวนอย่างต่อเนื่อง โดยปรับปรุงรายละเอียดเชิงพื้นที่และการเคลื่อนไหวที่สอดคล้องกันไปพร้อมๆ กัน
- การปรับสภาพหลายรูปแบบ:การฝังข้อความจากแบบจำลองภาษาขนาดใหญ่เป็นแนวทางในกระบวนการแพร่กระจาย ช่วยให้แน่ใจถึงการจัดแนวความหมายกับคำเตือนของผู้ใช้
โซระได้รับการฝึกอย่างไร?
ใช้ชุดข้อมูลใด?
OpenAI ยังไม่ได้เปิดเผยชุดข้อมูลที่เป็นกรรมสิทธิ์ที่รองรับ Sora อย่างสมบูรณ์ แต่หลักฐานและรายงานที่มีอยู่แนะนำคอร์ปัสการฝึกอบรมแบบผสม:
- คลังวิดีโอสาธารณะวิดีโอที่ไม่จำกัดลิขสิทธิ์จำนวนหลายล้านชั่วโมงจากแพลตฟอร์มเช่น Pexels, Internet Archive และไลบรารีฟุตเทจสต็อกที่มีลิขสิทธิ์
- YouTube และเนื้อหาเกี่ยวกับเกมการสืบสวนบ่งชี้ว่าเพื่อเพิ่มความสมบูรณ์ให้กับสถานการณ์ไดนามิก (เช่น การเคลื่อนไหวของตัวละคร ฟิสิกส์) OpenAI ได้รวมภาพจากการถ่ายทอดสดเกมและการบันทึกการเล่นเกม รวมถึงวิดีโอ Minecraft ซึ่งทำให้เกิดคำถามเกี่ยวกับการปฏิบัติตามใบอนุญาต
- คลิปจากผู้ใช้:ในช่วงระยะเบต้า ผู้ทดสอบ Sora จะส่งวิดีโอส่วนตัวเพื่อใช้เป็นข้อมูลอ้างอิงสไตล์ ซึ่ง OpenAI จะนำไปใช้ในการปรับแต่ง
- การฝึกอบรมเบื้องต้นแบบสังเคราะห์:นักวิจัยได้สร้างลำดับการเคลื่อนไหวแบบอัลกอริทึม (เช่น รูปร่างที่เคลื่อนไหว ฉากสังเคราะห์) เพื่อเริ่มต้นความเข้าใจทางฟิสิกส์ของโมเดลก่อนที่จะนำภาพจากโลกแห่งความเป็นจริงมาใช้
มีการทำการประมวลผลเบื้องต้นอะไรบ้าง?
ก่อนการฝึกอบรม ข้อมูลวิดีโอทั้งหมดจะได้รับการประมวลผลอย่างละเอียดเพื่อสร้างรูปแบบมาตรฐานและเพื่อให้มั่นใจถึงความเสถียรของการฝึกอบรม:
- การทำให้ความละเอียดเป็นปกติ:คลิปได้รับการปรับขนาดและเพิ่มความละเอียดให้เท่ากันที่ 1920×1080 โดยอัตราเฟรมจะซิงโครไนซ์ที่ 30 FPS
- การแบ่งส่วนตามเวลา:วิดีโอที่ยาวกว่าจะถูกตัดเป็นส่วนๆ ละ 1 นาทีเพื่อให้ตรงกับช่วงเวลาของโซระ
- การเสริมข้อมูล:เทคนิคต่างๆ เช่น การครอบตัดแบบสุ่ม จิตเตอร์ของสี การย้อนกลับของเวลา และการแทรกสัญญาณรบกวน ทำให้ชุดข้อมูลมีความสมบูรณ์มากขึ้น ส่งผลให้มีความทนทานต่อรูปแบบแสงและการเคลื่อนไหวที่หลากหลายมากขึ้น
- การติดแท็กข้อมูลเมตา:สคริปต์ที่วิเคราะห์ข้อความที่มาพร้อมกัน (ชื่อเรื่อง คำบรรยาย) เพื่อสร้างตัวอย่างแบบคู่ (วิดีโอ ข้อความ) ช่วยให้สามารถกำหนดเงื่อนไขข้อความภายใต้การดูแลได้
- การตรวจสอบอคติ:ในช่วงเริ่มต้นของกระบวนการ มีการตรวจสอบคลิปย่อยบางส่วนด้วยตนเองเพื่อระบุและลดอคติในเนื้อหาที่ชัดเจน (เช่น แบบแผนทางเพศ) แม้ว่าการวิเคราะห์ในภายหลังจะเผยให้เห็นว่ายังคงมีความท้าทายอยู่
OpenAI สร้างโครงสร้างกระบวนการฝึกอบรมของ Sora อย่างไร?
ด้วยการสร้างข้อมูลเชิงลึกจากกรอบการทำงานสร้างภาพของ DALL·E 3 ไพลน์ไลน์การฝึกอบรมของ Sora จะผสานสถาปัตยกรรมเฉพาะทางและฟังก์ชันการสูญเสียที่ปรับแต่งมาสำหรับความสอดคล้องตามเวลาและการจำลองทางฟิสิกส์
สถาปัตยกรรมแบบจำลองและวัตถุประสงค์ก่อนการฝึกอบรม
Sora ใช้สถาปัตยกรรมแบบทรานส์ฟอร์มเมอร์ที่ปรับให้เหมาะสมสำหรับข้อมูลวิดีโอ โดยมีกลไกการใส่ใจทั้งเชิงปริภูมิและเวลาที่จับรายละเอียดทั้งในระดับเฟรมและเส้นทางการเคลื่อนที่ ในระหว่างการฝึกเบื้องต้น โมเดลจะเรียนรู้ที่จะทำนายแพตช์ที่ถูกปิดบังในเฟรมต่อเนื่อง โดยขยายเฟรมที่ถูกปิดบังไปข้างหน้าและข้างหลังเพื่อทำความเข้าใจความต่อเนื่อง
ดัดแปลงจาก DALL·E 3
บล็อกการสังเคราะห์ภาพหลักใน Sora มาจากเทคนิคการแพร่กระจายของ DALL·E 3 ซึ่งได้รับการอัปเกรดให้รองรับมิติเวลาเพิ่มเติม การดัดแปลงนี้เกี่ยวข้องกับเงื่อนไขทั้งการฝังข้อความและเฟรมวิดีโอก่อนหน้า ทำให้สามารถสร้างคลิปใหม่ๆ ได้อย่างราบรื่นหรือขยายคลิปที่มีอยู่
การจำลองโลกทางกายภาพ
วัตถุประสงค์หลักของการฝึกอบรมคือการปลูกฝัง "แบบจำลองโลก" เชิงสัญชาตญาณที่สามารถจำลองปฏิสัมพันธ์ทางกายภาพ เช่น แรงโน้มถ่วง การชนของวัตถุ และการเคลื่อนไหวของกล้อง รายงานทางเทคนิคของ OpenAI เน้นย้ำถึงการใช้เงื่อนไขการสูญเสียที่ได้รับแรงบันดาลใจจากฟิสิกส์เสริม ซึ่งจะลงโทษเอาต์พุตที่ไม่น่าเชื่อถือทางกายภาพ แม้ว่าแบบจำลองจะยังคงมีปัญหาในการจัดการกับพลวัตที่ซับซ้อน เช่น การเคลื่อนที่ของของไหลและเงาที่มีมิติแตกต่างกัน
ต้องเผชิญกับความท้าทายและข้อโต้แย้งอะไรบ้าง?
กังวลเกี่ยวกับกฎหมายและจริยธรรม?
การใช้เนื้อหาที่เผยแพร่ต่อสาธารณะและสร้างขึ้นโดยผู้ใช้ทำให้เกิดการตรวจสอบทางกฎหมาย:
- ข้อพิพาทเรื่องลิขสิทธิ์:อุตสาหกรรมสร้างสรรค์ในสหราชอาณาจักรได้ออกมาล็อบบี้ไม่ให้บริษัท AI ฝึกอบรมผลงานของศิลปินโดยไม่มีการยินยอมอย่างชัดเจน ส่งผลให้เกิดการอภิปรายในรัฐสภาในขณะที่ Sora เปิดตัวในสหราชอาณาจักรเมื่อเดือนกุมภาพันธ์ 2025
- เงื่อนไขการให้บริการแพลตฟอร์ม:YouTube ได้แจ้งเตือนถึงการละเมิดที่อาจเกิดขึ้นซึ่งเกิดจากการรวบรวมข้อมูลวิดีโอของผู้ใช้สำหรับการฝึกอบรม AI ส่งผลให้ OpenAI ต้องตรวจสอบนโยบายการนำเข้าข้อมูลของตน
- คดี:จากกรณีตัวอย่างที่เกิดขึ้นกับโมเดลข้อความและรูปภาพ เครื่องมือสร้างวิดีโอ เช่น Sora อาจต้องเผชิญกับการฟ้องร้องแบบกลุ่มจากกรณีใช้งานภาพที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาต
มีอคติในข้อมูลการฝึกอบรม?
แม้จะมีความพยายามบรรเทาผลกระทบ แต่ Sora ยังคงแสดงอคติอย่างเป็นระบบ:
- เพศและอคติทางอาชีพ:การวิเคราะห์ของ WIRED พบว่าวิดีโอที่สร้างโดย Sora แสดงให้เห็นซีอีโอและนักบินเป็นผู้ชายอย่างไม่สมดุล ในขณะที่ผู้หญิงปรากฏตัวส่วนใหญ่ในบทบาทผู้ดูแลหรือบริการ
- การเป็นตัวแทนด้านเชื้อชาติ:นางแบบคนนี้มีปัญหาในการเลือกโทนสีผิวและลักษณะใบหน้าที่หลากหลาย โดยมักจะเลือกใช้ภาพลักษณ์ที่สว่างกว่าหรือเน้นไปทางตะวันตก
- ความสามารถทางกายภาพ:ผู้พิการส่วนใหญ่มักถูกแสดงให้เห็นใช้รถเข็น ซึ่งสะท้อนให้เห็นถึงความเข้าใจที่แคบๆ เกี่ยวกับความพิการ
- เส้นทางการแก้ปัญหา:OpenAI ได้ลงทุนในทีมลดอคติ และวางแผนที่จะรวมข้อมูลการฝึกอบรมที่เป็นตัวแทนมากขึ้นและเทคนิคการเพิ่มประสิทธิภาพที่เป็นจริง
ความก้าวหน้าอะไรบ้างที่ขับเคลื่อนการปรับปรุงการฝึกอบรม?
การจำลองและการสร้างแบบจำลองโลก?
ความสามารถของโซระในการสร้างฉากที่สมจริงนั้นขึ้นอยู่กับโมดูลจำลองโลกขั้นสูง:
- ไพรเออร์ที่ได้รับข้อมูลทางฟิสิกส์:Sora สร้างกลไกฟิสิกส์เชิงสัญชาตญาณภายในเลเยอร์หม้อแปลงโดยได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลสังเคราะห์ที่สร้างแบบจำลองแรงโน้มถ่วง พลศาสตร์ของไหล และการตอบสนองต่อการชน
- เครือข่ายความสอดคล้องทางเวลา:ซับโมดูลเฉพาะทางบังคับใช้ความสม่ำเสมอในทุกเฟรม ลดการสั่นไหวและการเคลื่อนไหวที่มักเกิดขึ้นในแนวทางการแปลงข้อความเป็นวิดีโอก่อนหน้านี้
ปรับปรุงความสมจริงทางกายภาพ?
ความก้าวหน้าทางเทคนิคที่สำคัญช่วยเพิ่มความเที่ยงตรงของเอาต์พุตของ Sora:
- การกระจายความละเอียดสูง:กลยุทธ์การแพร่กระจายตามลำดับชั้นจะสร้างรูปแบบการเคลื่อนไหวที่มีความละเอียดต่ำก่อน จากนั้นจึงปรับขนาดเป็น Full HD โดยรักษาการเคลื่อนไหวโดยรวมและรายละเอียดที่ละเอียดอ่อนไว้
- ความใส่ใจข้ามกาลเวลา:การใส่ใจตนเองในเวลาช่วยให้โมเดลสามารถอ้างอิงเฟรมที่ห่างไกลได้ ช่วยให้มั่นใจถึงความสอดคล้องในระยะยาว (เช่น การวางแนวและวิถีของตัวละครจะคงอยู่เป็นเวลาหลายวินาที)
- การถ่ายโอนสไตล์ไดนามิก:อะแดปเตอร์สไตล์เรียลไทม์ผสมผสานสุนทรียศาสตร์ภาพหลากหลายแบบ ช่วยให้สามารถเปลี่ยนรูปแบบระหว่างภาพยนตร์ สารคดี หรือแอนิเมชันได้ภายในคลิปเดียว
ทิศทางการฝึกซ้อมของโซระในอนาคตจะเป็นอย่างไร?
เทคนิคลดอคติ?
OpenAI และชุมชน AI ที่กว้างขึ้นกำลังสำรวจวิธีการเพื่อแก้ไขอคติที่ฝังรากลึก:
- การเพิ่มข้อมูลที่ไม่เป็นข้อเท็จจริงการสังเคราะห์เวอร์ชันทางเลือกของคลิปการฝึกอบรม (เช่น การสลับเพศหรือชาติพันธุ์) เพื่อบังคับให้แบบจำลองแยกแอตทริบิวต์ออกจากบทบาท
- การต่อต้านอคติ:การบูรณาการตัวแยกแยะที่ลงโทษผลลัพธ์แบบแผนระหว่างการฝึกอบรม
- บทวิจารณ์แบบ Human-in-the-loop:ความร่วมมืออย่างต่อเนื่องกับกลุ่มผู้ใช้ที่มีความหลากหลายเพื่อตรวจสอบและให้ข้อเสนอแนะเกี่ยวกับผลลัพธ์ของแบบจำลองก่อนเผยแพร่สู่สาธารณะ
ขยายความหลากหลายของชุดข้อมูลหรือไม่?
การสร้างความมั่นใจว่าองค์กรฝึกอบรมมีความสมบูรณ์มากขึ้นถือเป็นสิ่งสำคัญ:
- ความร่วมมือทางวิดีโอระดับโลก:การอนุญาตให้ใช้เนื้อหาจากสื่อที่ไม่ใช่ตะวันตกเพื่อแสดงถึงวัฒนธรรม สภาพแวดล้อม และสถานการณ์ต่างๆ ที่หลากหลายมากขึ้น
- การปรับแต่งเฉพาะโดเมน:ฝึกอบรม Sora ในรูปแบบเฉพาะทางด้านภาพทางการแพทย์ กฎหมาย หรือวิทยาศาสตร์ ช่วยให้สร้างวิดีโอที่เกี่ยวข้องกับโดเมนได้อย่างแม่นยำ
- เปิดเกณฑ์มาตรฐาน:การทำงานร่วมกันกับกลุ่มวิจัยเพื่อสร้างชุดข้อมูลมาตรฐานที่พร้อมให้ใช้งานสาธารณะสำหรับการประเมินข้อความเป็นวิดีโอ ส่งเสริมความโปร่งใสและการแข่งขัน
สรุป
Sora เป็นผู้นำในด้านการสร้างวิดีโอจากข้อความ โดยผสมผสานการแพร่กระจายตามทรานส์ฟอร์มเมอร์ คอร์ปัสวิดีโอขนาดใหญ่ และไพรเออร์จำลองโลกเพื่อสร้างคลิปที่สมจริงอย่างที่ไม่เคยมีมาก่อน อย่างไรก็ตาม กระบวนการฝึกอบรมซึ่งสร้างขึ้นจากชุดข้อมูลขนาดใหญ่ที่ไม่โปร่งใสบางส่วนนั้นได้ก่อให้เกิดความท้าทายที่เร่งด่วนในด้านกฎหมาย จริยธรรม และอคติ ในขณะที่ OpenAI และชุมชนที่กว้างขึ้นพัฒนาเทคนิคสำหรับการขจัดอคติ การปฏิบัติตามใบอนุญาต และการกระจายชุดข้อมูล รุ่นต่อไปของ Sora สัญญาว่าจะมีการสังเคราะห์วิดีโอที่เป็นธรรมชาติมากยิ่งขึ้น ซึ่งจะปลดล็อกแอปพลิเคชันสร้างสรรค์และมืออาชีพใหม่ๆ ในขณะที่เรียกร้องการกำกับดูแลที่รอบคอบเพื่อปกป้องสิทธิทางศิลปะและความเท่าเทียมทางสังคม
เริ่มต้นใช้งาน
CometAPI มอบอินเทอร์เฟซ REST แบบรวมที่รวบรวมโมเดล AI หลายร้อยโมเดล รวมถึงตระกูล Gemini ของ Google ภายใต้จุดสิ้นสุดที่สอดคล้องกัน โดยมีการจัดการคีย์ API ในตัว โควตาการใช้งาน และแดชบอร์ดการเรียกเก็บเงิน แทนที่จะต้องจัดการ URL และข้อมูลรับรองของผู้ขายหลายราย คุณสามารถชี้ลูกค้าของคุณไปที่ https://api.cometapi.com/v1 และระบุรุ่นเป้าหมายในแต่ละคำขอ
นักพัฒนาสามารถเข้าถึงได้ โซระ เอพีไอ ตลอด โคเมทเอพีไอในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API สำหรับคำแนะนำโดยละเอียด
