โซระได้รับการฝึกอย่างไร?

โมเดลการสร้างวิดีโอของ OpenAI โซระ ถือเป็นก้าวกระโดดครั้งสำคัญในด้าน AI เชิงสร้างสรรค์ ซึ่งช่วยให้สามารถสังเคราะห์วิดีโอความคมชัดระดับ Full HD จากข้อความแจ้งเตือนแบบง่ายๆ ได้ นับตั้งแต่เปิดตัวในเดือนกุมภาพันธ์ 2024 Sora ได้จุดประกายความตื่นเต้นให้กับศักยภาพด้านความคิดสร้างสรรค์และความกังวลเกี่ยวกับผลกระทบทางจริยธรรมและกฎหมาย ด้านล่างนี้คือการสำรวจที่ครอบคลุม โซระได้รับการฝึกอย่างไรโดยอาศัยการรายงานและการเปิดเผยข้อมูลทางเทคนิคล่าสุด

โซระคืออะไร?

Sora คือเครื่องมือแปลงข้อความเป็นวิดีโออันล้ำสมัยของ OpenAI ที่สร้างคลิปวิดีโอความละเอียดสูงที่สมจริงจากคำอธิบายข้อความสั้นๆ ซึ่งแตกต่างจากรุ่นก่อนหน้าที่จำกัดให้เหลือเพียงวิดีโอความละเอียดต่ำเพียงไม่กี่วินาที Sora สามารถสร้างวิดีโอที่มีความยาวสูงสุด 1 นาทีที่ความละเอียด Full HD (1920×1080) พร้อมการเคลื่อนไหวที่ราบรื่นและฉากที่มีรายละเอียด

Sora มีคุณสมบัติอะไรบ้าง?

การสร้างวิดีโอโดยใช้ข้อความ:ผู้ใช้ป้อนคำกระตุ้น (เช่น "หิมะที่ตกลงมาอย่างสงบในสวนสาธารณะแห่งหนึ่งในโตเกียว") และโซระจะแสดงวิดีโอคลิปที่ตรงกับคำอธิบายนั้นออกมา
การแก้ไขและขยายความ:Sora สามารถขยายวิดีโอที่มีอยู่ เติมเฟรมที่หายไป และเปลี่ยนแปลงทิศทางหรือรูปแบบการเล่นได้
จากสถิตสู่การเคลื่อนที่:โมเดลสามารถสร้างภาพเคลื่อนไหวจากภาพนิ่ง แปลงภาพถ่ายหรือภาพประกอบให้กลายเป็นฉากที่เคลื่อนไหวได้
ความหลากหลายด้านสุนทรียศาสตร์:ผ่านโทเค็นสไตล์ ผู้ใช้สามารถปรับแต่งแสง การปรับสี และเอฟเฟกต์ภาพยนตร์ได้

สถาปัตยกรรมอะไรที่ทำให้ Sora มีพลัง?

Sora สร้างขึ้นบนรากฐานของหม้อแปลงที่คล้ายกับ GPT-4 แต่ปรับการแสดงอินพุตให้เหมาะกับการจัดการมิติเวลาและพื้นที่ของวิดีโอ:

โทเค็นแพทช์เชิงพื้นที่-เชิงเวลา:เฟรมวิดีโอจะถูกแบ่งออกเป็นแพตช์ 3 มิติที่บันทึกทั้งภูมิภาคพิกเซลและวิวัฒนาการตามกาลเวลา
การแพร่กระจายแบบก้าวหน้า:โดยเริ่มจากสัญญาณรบกวน Sora จะทำการกำจัดสัญญาณรบกวนอย่างต่อเนื่อง โดยปรับปรุงรายละเอียดเชิงพื้นที่และการเคลื่อนไหวที่สอดคล้องกันไปพร้อมๆ กัน
การปรับสภาพหลายรูปแบบ:การฝังข้อความจากแบบจำลองภาษาขนาดใหญ่เป็นแนวทางในกระบวนการแพร่กระจาย ช่วยให้แน่ใจถึงการจัดแนวความหมายกับคำเตือนของผู้ใช้

ใช้ชุดข้อมูลใด?

OpenAI ยังไม่ได้เปิดเผยชุดข้อมูลที่เป็นกรรมสิทธิ์ที่รองรับ Sora อย่างสมบูรณ์ แต่หลักฐานและรายงานที่มีอยู่แนะนำคอร์ปัสการฝึกอบรมแบบผสม:

คลังวิดีโอสาธารณะวิดีโอที่ไม่จำกัดลิขสิทธิ์จำนวนหลายล้านชั่วโมงจากแพลตฟอร์มเช่น Pexels, Internet Archive และไลบรารีฟุตเทจสต็อกที่มีลิขสิทธิ์
YouTube และเนื้อหาเกี่ยวกับเกมการสืบสวนบ่งชี้ว่าเพื่อเพิ่มความสมบูรณ์ให้กับสถานการณ์ไดนามิก (เช่น การเคลื่อนไหวของตัวละคร ฟิสิกส์) OpenAI ได้รวมภาพจากการถ่ายทอดสดเกมและการบันทึกการเล่นเกม รวมถึงวิดีโอ Minecraft ซึ่งทำให้เกิดคำถามเกี่ยวกับการปฏิบัติตามใบอนุญาต
คลิปจากผู้ใช้:ในช่วงระยะเบต้า ผู้ทดสอบ Sora จะส่งวิดีโอส่วนตัวเพื่อใช้เป็นข้อมูลอ้างอิงสไตล์ ซึ่ง OpenAI จะนำไปใช้ในการปรับแต่ง
การฝึกอบรมเบื้องต้นแบบสังเคราะห์:นักวิจัยได้สร้างลำดับการเคลื่อนไหวแบบอัลกอริทึม (เช่น รูปร่างที่เคลื่อนไหว ฉากสังเคราะห์) เพื่อเริ่มต้นความเข้าใจทางฟิสิกส์ของโมเดลก่อนที่จะนำภาพจากโลกแห่งความเป็นจริงมาใช้

มีการทำการประมวลผลเบื้องต้นอะไรบ้าง?

ก่อนการฝึกอบรม ข้อมูลวิดีโอทั้งหมดจะได้รับการประมวลผลอย่างละเอียดเพื่อสร้างรูปแบบมาตรฐานและเพื่อให้มั่นใจถึงความเสถียรของการฝึกอบรม:

การทำให้ความละเอียดเป็นปกติ:คลิปได้รับการปรับขนาดและเพิ่มความละเอียดให้เท่ากันที่ 1920×1080 โดยอัตราเฟรมจะซิงโครไนซ์ที่ 30 FPS
การแบ่งส่วนตามเวลา:วิดีโอที่ยาวกว่าจะถูกตัดเป็นส่วนๆ ละ 1 นาทีเพื่อให้ตรงกับช่วงเวลาของโซระ
การเสริมข้อมูล:เทคนิคต่างๆ เช่น การครอบตัดแบบสุ่ม จิตเตอร์ของสี การย้อนกลับของเวลา และการแทรกสัญญาณรบกวน ทำให้ชุดข้อมูลมีความสมบูรณ์มากขึ้น ส่งผลให้มีความทนทานต่อรูปแบบแสงและการเคลื่อนไหวที่หลากหลายมากขึ้น
การติดแท็กข้อมูลเมตา:สคริปต์ที่วิเคราะห์ข้อความที่มาพร้อมกัน (ชื่อเรื่อง คำบรรยาย) เพื่อสร้างตัวอย่างแบบคู่ (วิดีโอ ข้อความ) ช่วยให้สามารถกำหนดเงื่อนไขข้อความภายใต้การดูแลได้
การตรวจสอบอคติ:ในช่วงเริ่มต้นของกระบวนการ มีการตรวจสอบคลิปย่อยบางส่วนด้วยตนเองเพื่อระบุและลดอคติในเนื้อหาที่ชัดเจน (เช่น แบบแผนทางเพศ) แม้ว่าการวิเคราะห์ในภายหลังจะเผยให้เห็นว่ายังคงมีความท้าทายอยู่

OpenAI สร้างโครงสร้างกระบวนการฝึกอบรมของ Sora อย่างไร?

ด้วยการสร้างข้อมูลเชิงลึกจากกรอบการทำงานสร้างภาพของ DALL·E 3 ไพลน์ไลน์การฝึกอบรมของ Sora จะผสานสถาปัตยกรรมเฉพาะทางและฟังก์ชันการสูญเสียที่ปรับแต่งมาสำหรับความสอดคล้องตามเวลาและการจำลองทางฟิสิกส์

สถาปัตยกรรมแบบจำลองและวัตถุประสงค์ก่อนการฝึกอบรม

Sora ใช้สถาปัตยกรรมแบบทรานส์ฟอร์มเมอร์ที่ปรับให้เหมาะสมสำหรับข้อมูลวิดีโอ โดยมีกลไกการใส่ใจทั้งเชิงปริภูมิและเวลาที่จับรายละเอียดทั้งในระดับเฟรมและเส้นทางการเคลื่อนที่ ในระหว่างการฝึกเบื้องต้น โมเดลจะเรียนรู้ที่จะทำนายแพตช์ที่ถูกปิดบังในเฟรมต่อเนื่อง โดยขยายเฟรมที่ถูกปิดบังไปข้างหน้าและข้างหลังเพื่อทำความเข้าใจความต่อเนื่อง

ดัดแปลงจาก DALL·E 3

บล็อกการสังเคราะห์ภาพหลักใน Sora มาจากเทคนิคการแพร่กระจายของ DALL·E 3 ซึ่งได้รับการอัปเกรดให้รองรับมิติเวลาเพิ่มเติม การดัดแปลงนี้เกี่ยวข้องกับเงื่อนไขทั้งการฝังข้อความและเฟรมวิดีโอก่อนหน้า ทำให้สามารถสร้างคลิปใหม่ๆ ได้อย่างราบรื่นหรือขยายคลิปที่มีอยู่

การจำลองโลกทางกายภาพ

วัตถุประสงค์หลักของการฝึกอบรมคือการปลูกฝัง "แบบจำลองโลก" เชิงสัญชาตญาณที่สามารถจำลองปฏิสัมพันธ์ทางกายภาพ เช่น แรงโน้มถ่วง การชนของวัตถุ และการเคลื่อนไหวของกล้อง รายงานทางเทคนิคของ OpenAI เน้นย้ำถึงการใช้เงื่อนไขการสูญเสียที่ได้รับแรงบันดาลใจจากฟิสิกส์เสริม ซึ่งจะลงโทษเอาต์พุตที่ไม่น่าเชื่อถือทางกายภาพ แม้ว่าแบบจำลองจะยังคงมีปัญหาในการจัดการกับพลวัตที่ซับซ้อน เช่น การเคลื่อนที่ของของไหลและเงาที่มีมิติแตกต่างกัน

ต้องเผชิญกับความท้าทายและข้อโต้แย้งอะไรบ้าง?

กังวลเกี่ยวกับกฎหมายและจริยธรรม?

การใช้เนื้อหาที่เผยแพร่ต่อสาธารณะและสร้างขึ้นโดยผู้ใช้ทำให้เกิดการตรวจสอบทางกฎหมาย:

ข้อพิพาทเรื่องลิขสิทธิ์:อุตสาหกรรมสร้างสรรค์ในสหราชอาณาจักรได้ออกมาล็อบบี้ไม่ให้บริษัท AI ฝึกอบรมผลงานของศิลปินโดยไม่มีการยินยอมอย่างชัดเจน ส่งผลให้เกิดการอภิปรายในรัฐสภาในขณะที่ Sora เปิดตัวในสหราชอาณาจักรเมื่อเดือนกุมภาพันธ์ 2025
เงื่อนไขการให้บริการแพลตฟอร์ม:YouTube ได้แจ้งเตือนถึงการละเมิดที่อาจเกิดขึ้นซึ่งเกิดจากการรวบรวมข้อมูลวิดีโอของผู้ใช้สำหรับการฝึกอบรม AI ส่งผลให้ OpenAI ต้องตรวจสอบนโยบายการนำเข้าข้อมูลของตน
คดี:จากกรณีตัวอย่างที่เกิดขึ้นกับโมเดลข้อความและรูปภาพ เครื่องมือสร้างวิดีโอ เช่น Sora อาจต้องเผชิญกับการฟ้องร้องแบบกลุ่มจากกรณีใช้งานภาพที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาต

มีอคติในข้อมูลการฝึกอบรม?

แม้จะมีความพยายามบรรเทาผลกระทบ แต่ Sora ยังคงแสดงอคติอย่างเป็นระบบ:

เพศและอคติทางอาชีพ:การวิเคราะห์ของ WIRED พบว่าวิดีโอที่สร้างโดย Sora แสดงให้เห็นซีอีโอและนักบินเป็นผู้ชายอย่างไม่สมดุล ในขณะที่ผู้หญิงปรากฏตัวส่วนใหญ่ในบทบาทผู้ดูแลหรือบริการ
การเป็นตัวแทนด้านเชื้อชาติ:นางแบบคนนี้มีปัญหาในการเลือกโทนสีผิวและลักษณะใบหน้าที่หลากหลาย โดยมักจะเลือกใช้ภาพลักษณ์ที่สว่างกว่าหรือเน้นไปทางตะวันตก
ความสามารถทางกายภาพ:ผู้พิการส่วนใหญ่มักถูกแสดงให้เห็นใช้รถเข็น ซึ่งสะท้อนให้เห็นถึงความเข้าใจที่แคบๆ เกี่ยวกับความพิการ
เส้นทางการแก้ปัญหา:OpenAI ได้ลงทุนในทีมลดอคติ และวางแผนที่จะรวมข้อมูลการฝึกอบรมที่เป็นตัวแทนมากขึ้นและเทคนิคการเพิ่มประสิทธิภาพที่เป็นจริง

ความก้าวหน้าอะไรบ้างที่ขับเคลื่อนการปรับปรุงการฝึกอบรม?

การจำลองและการสร้างแบบจำลองโลก?

ความสามารถของโซระในการสร้างฉากที่สมจริงนั้นขึ้นอยู่กับโมดูลจำลองโลกขั้นสูง:

ไพรเออร์ที่ได้รับข้อมูลทางฟิสิกส์:Sora สร้างกลไกฟิสิกส์เชิงสัญชาตญาณภายในเลเยอร์หม้อแปลงโดยได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลสังเคราะห์ที่สร้างแบบจำลองแรงโน้มถ่วง พลศาสตร์ของไหล และการตอบสนองต่อการชน
เครือข่ายความสอดคล้องทางเวลา:ซับโมดูลเฉพาะทางบังคับใช้ความสม่ำเสมอในทุกเฟรม ลดการสั่นไหวและการเคลื่อนไหวที่มักเกิดขึ้นในแนวทางการแปลงข้อความเป็นวิดีโอก่อนหน้านี้

ปรับปรุงความสมจริงทางกายภาพ?

ความก้าวหน้าทางเทคนิคที่สำคัญช่วยเพิ่มความเที่ยงตรงของเอาต์พุตของ Sora:

การกระจายความละเอียดสูง:กลยุทธ์การแพร่กระจายตามลำดับชั้นจะสร้างรูปแบบการเคลื่อนไหวที่มีความละเอียดต่ำก่อน จากนั้นจึงปรับขนาดเป็น Full HD โดยรักษาการเคลื่อนไหวโดยรวมและรายละเอียดที่ละเอียดอ่อนไว้
ความใส่ใจข้ามกาลเวลา:การใส่ใจตนเองในเวลาช่วยให้โมเดลสามารถอ้างอิงเฟรมที่ห่างไกลได้ ช่วยให้มั่นใจถึงความสอดคล้องในระยะยาว (เช่น การวางแนวและวิถีของตัวละครจะคงอยู่เป็นเวลาหลายวินาที)
การถ่ายโอนสไตล์ไดนามิก:อะแดปเตอร์สไตล์เรียลไทม์ผสมผสานสุนทรียศาสตร์ภาพหลากหลายแบบ ช่วยให้สามารถเปลี่ยนรูปแบบระหว่างภาพยนตร์ สารคดี หรือแอนิเมชันได้ภายในคลิปเดียว

ทิศทางการฝึกซ้อมของโซระในอนาคตจะเป็นอย่างไร?

เทคนิคลดอคติ?

OpenAI และชุมชน AI ที่กว้างขึ้นกำลังสำรวจวิธีการเพื่อแก้ไขอคติที่ฝังรากลึก:

การเพิ่มข้อมูลที่ไม่เป็นข้อเท็จจริงการสังเคราะห์เวอร์ชันทางเลือกของคลิปการฝึกอบรม (เช่น การสลับเพศหรือชาติพันธุ์) เพื่อบังคับให้แบบจำลองแยกแอตทริบิวต์ออกจากบทบาท
การต่อต้านอคติ:การบูรณาการตัวแยกแยะที่ลงโทษผลลัพธ์แบบแผนระหว่างการฝึกอบรม
บทวิจารณ์แบบ Human-in-the-loop:ความร่วมมืออย่างต่อเนื่องกับกลุ่มผู้ใช้ที่มีความหลากหลายเพื่อตรวจสอบและให้ข้อเสนอแนะเกี่ยวกับผลลัพธ์ของแบบจำลองก่อนเผยแพร่สู่สาธารณะ

ขยายความหลากหลายของชุดข้อมูลหรือไม่?

การสร้างความมั่นใจว่าองค์กรฝึกอบรมมีความสมบูรณ์มากขึ้นถือเป็นสิ่งสำคัญ:

ความร่วมมือทางวิดีโอระดับโลก:การอนุญาตให้ใช้เนื้อหาจากสื่อที่ไม่ใช่ตะวันตกเพื่อแสดงถึงวัฒนธรรม สภาพแวดล้อม และสถานการณ์ต่างๆ ที่หลากหลายมากขึ้น
การปรับแต่งเฉพาะโดเมน:ฝึกอบรม Sora ในรูปแบบเฉพาะทางด้านภาพทางการแพทย์ กฎหมาย หรือวิทยาศาสตร์ ช่วยให้สร้างวิดีโอที่เกี่ยวข้องกับโดเมนได้อย่างแม่นยำ
เปิดเกณฑ์มาตรฐาน:การทำงานร่วมกันกับกลุ่มวิจัยเพื่อสร้างชุดข้อมูลมาตรฐานที่พร้อมให้ใช้งานสาธารณะสำหรับการประเมินข้อความเป็นวิดีโอ ส่งเสริมความโปร่งใสและการแข่งขัน

สรุป

Sora เป็นผู้นำในด้านการสร้างวิดีโอจากข้อความ โดยผสมผสานการแพร่กระจายตามทรานส์ฟอร์มเมอร์ คอร์ปัสวิดีโอขนาดใหญ่ และไพรเออร์จำลองโลกเพื่อสร้างคลิปที่สมจริงอย่างที่ไม่เคยมีมาก่อน อย่างไรก็ตาม กระบวนการฝึกอบรมซึ่งสร้างขึ้นจากชุดข้อมูลขนาดใหญ่ที่ไม่โปร่งใสบางส่วนนั้นได้ก่อให้เกิดความท้าทายที่เร่งด่วนในด้านกฎหมาย จริยธรรม และอคติ ในขณะที่ OpenAI และชุมชนที่กว้างขึ้นพัฒนาเทคนิคสำหรับการขจัดอคติ การปฏิบัติตามใบอนุญาต และการกระจายชุดข้อมูล รุ่นต่อไปของ Sora สัญญาว่าจะมีการสังเคราะห์วิดีโอที่เป็นธรรมชาติมากยิ่งขึ้น ซึ่งจะปลดล็อกแอปพลิเคชันสร้างสรรค์และมืออาชีพใหม่ๆ ในขณะที่เรียกร้องการกำกับดูแลที่รอบคอบเพื่อปกป้องสิทธิทางศิลปะและความเท่าเทียมทางสังคม

เริ่มต้นใช้งาน

CometAPI มอบอินเทอร์เฟซ REST แบบรวมที่รวบรวมโมเดล AI หลายร้อยโมเดล รวมถึงตระกูล Gemini ของ Google ภายใต้จุดสิ้นสุดที่สอดคล้องกัน โดยมีการจัดการคีย์ API ในตัว โควตาการใช้งาน และแดชบอร์ดการเรียกเก็บเงิน แทนที่จะต้องจัดการ URL และข้อมูลรับรองของผู้ขายหลายราย คุณสามารถชี้ลูกค้าของคุณไปที่ https://api.cometapi.com/v1 และระบุรุ่นเป้าหมายในแต่ละคำขอ

นักพัฒนาสามารถเข้าถึงได้ โซระ เอพีไอ ตลอด โคเมทเอพีไอในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API สำหรับคำแนะนำโดยละเอียด

โซระได้รับการฝึกอย่างไร?

โซระคืออะไร?

Sora มีคุณสมบัติอะไรบ้าง?

สถาปัตยกรรมอะไรที่ทำให้ Sora มีพลัง?