คุณลักษณะสำคัญ
- ความสมจริงทางกายภาพและความต่อเนื่อง: การจำลองความคงอยู่ของวัตถุ การเคลื่อนไหว และฟิสิกส์ที่ดีขึ้น เพื่อลดสิ่งผิดเพี้ยนทางภาพ
- เสียงที่ซิงก์กัน: สร้าง บทสนทนาและเอฟเฟกต์เสียง ที่สอดคล้องกับการกระทำบนหน้าจอ
- ความสามารถในการกำกับและช่วงสไตล์: ควบคุมรายละเอียดมากขึ้นในเรื่องการจัดกรอบกล้อง ทางเลือกด้านสไตล์ และการกำหนดเงื่อนไขของพรอมป์สำหรับความสวยงามที่หลากหลาย
- การควบคุมเชิงสร้างสรรค์: ลำดับหลายช็อตที่คงเส้นคงวามากขึ้น, ปรับปรุง ความสมจริงด้านฟิสิกส์และการเคลื่อนไหว, และตัวควบคุมด้านสไตล์และไทมิงเมื่อเทียบกับ Sora 1
รายละเอียดทางเทคนิค
OpenAI อธิบายชุดโมเดล Sora ว่าใช้ประโยชน์จากกระบวนการแพร่แบบแฝงสำหรับวิดีโอ (latent video diffusion) ร่วมกับตัวลดสัญญาณรบกวนที่ใช้ทรานส์ฟอร์เมอร์และการกำหนดเงื่อนไขหลายโมดัล เพื่อผลิตเฟรมที่มีความสอดคล้องตามเวลาและเสียงที่จัดแนวกัน Sora 2 มุ่งเน้นการปรับปรุงความเป็นฟิสิกส์ของการเคลื่อนไหว (สอดคล้องกับโมเมนตัม, แรงลอยตัว), ช็อตที่ยาวขึ้นและคงเส้นคงวา, และการซิงโครไนซ์อย่างชัดเจนระหว่างภาพที่สร้างขึ้นกับคำพูด/เอฟเฟกต์เสียงที่สร้างขึ้น เอกสารสาธารณะเน้นความปลอดภัยระดับโมเดลและกลไกการกลั่นกรองเนื้อหา (การบล็อกแบบเข้มงวดสำหรับเนื้อหาที่ไม่อนุญาตบางประเภท, เกณฑ์ที่เข้มงวดขึ้นสำหรับผู้เยาว์, และกระบวนการยินยอมสำหรับความเหมือนบุคคล)
ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย
- ข้อบกพร่องยังคงอยู่: Sora 2 ทำผิดพลาด (สิ่งผิดเพี้ยนตามเวลา, ฟิสิกส์ไม่สมบูรณ์ในกรณีขอบ, ข้อผิดพลาดด้านเสียง/การออกเสียง) — Sora 2 ดีขึ้นแต่ยังไม่สมบูรณ์ OpenAI ระบุอย่างชัดเจนว่าโมเดลยังมีรูปแบบความล้มเหลว
- ความเสี่ยงจากการนำไปใช้ผิดวัตถุประสงค์: การสร้างความเหมือนโดยไม่มีความยินยอม, ดีพเฟค, ข้อกังวลเรื่องลิขสิทธิ์, และความเสี่ยงต่อสุขภาวะ/การมีส่วนร่วมของวัยรุ่น OpenAI กำลังเปิดตัว เวิร์กโฟลว์การยินยอม, การอนุญาต cameo ที่เข้มงวดขึ้น, เกณฑ์การกลั่นกรองสำหรับผู้เยาว์ที่เข้มงวดขึ้น, และทีมกลั่นกรองโดยมนุษย์
- ขีดจำกัดด้านเนื้อหาและกฎหมาย: แอปและโมเดลบล็อกเนื้อหาที่โจ่งแจ้ง/รุนแรงและจำกัดการสร้างความเหมือนของบุคคลสาธารณะโดยไม่มีความยินยอม; มีรายงานว่า OpenAI ใช้กลไก opt-out สำหรับแหล่งข้อมูลที่มีลิขสิทธิ์ ผู้ปฏิบัติงานควรประเมินความเสี่ยงด้าน IP และความเป็นส่วนตัว/กฎหมายก่อนใช้งานจริงในการผลิต
- การปรับใช้ในปัจจุบันเน้น คลิปสั้น (ฟีเจอร์ของแอปอ้างอิงคลิปสร้างสรรค์ความยาว ~10 วินาที) และการอัปโหลดภาพถ่ายเหมือนจริงที่หนักหรือไม่จำกัดถูกควบคุมในระหว่าง
กรณีใช้งานหลักและเชิงปฏิบัติ
- การสร้างเพื่อสังคมและคลิปไวรัล: การสร้างและรีมิกซ์คลิปแนวตั้งสั้นสำหรับฟีดโซเชียลอย่างรวดเร็ว (กรณีใช้งานแอป Sora)
- การสร้างต้นแบบและการพรีวิชวลไลเซชัน: ม็อกอัพฉากอย่างรวดเร็ว สตอรี่บอร์ด ภาพแนวคิด พร้อมเสียงชั่วคราวที่ซิงก์สำหรับทีมสร้างสรรค์
- โฆษณาและคอนเทนต์รูปแบบสั้น: การทดสอบแนวคิดเชิงสร้างสรรค์และทรัพย์สินสำหรับแคมเปญขนาดเล็กเมื่อได้รับสิทธิและความยินยอมอย่างถูกต้อง
- การวิจัยและการเสริมศักยภาพทูลเชน: เครื่องมือสำหรับห้องปฏิบัติการสื่อในการศึกษาการสร้างแบบจำลองโลกและการจัดแนวแบบหลายโมดัล (ขึ้นอยู่กับไลเซนส์และรั้วป้องกันด้านความปลอดภัย)