คุณสมบัติหลัก

การสร้างแบบหลายสื่อ (วิดีโอ + เสียง) — Sora-2-Pro สร้างเฟรมวิดีโอพร้อมเสียงที่ซิงโครไนซ์ (บทสนทนา เสียงบรรยากาศ SFX) แทนการผลิตวิดีโอและเสียงแยกกัน
ความเที่ยงตรงสูง / ระดับ “Pro” — ปรับจูนเพื่อให้ได้ความเที่ยงตรงทางภาพสูงขึ้น รับมือช็อตที่ยาก (การเคลื่อนไหวซับซ้อน การบังกัน และปฏิสัมพันธ์ทางกายภาพ) และคงความสม่ำเสมอต่อฉากได้นานกว่า Sora-2 (รุ่นไม่ Pro) อาจใช้เวลาประมวลผลนานกว่ารุ่นมาตรฐาน Sora-2
ความยืดหยุ่นของอินพุต — รองรับพรมต์ข้อความล้วน และสามารถรับเฟรมภาพอินพุตหรือภาพอ้างอิงเพื่อกำหนดคอมโพส (เวิร์กโฟลว์ input_reference)
แคมิโอ/การแทรกภาพเหมือน — สามารถแทรกรูปลักษณ์ของผู้ใช้ที่บันทึกไว้ลงในฉากที่สร้างขึ้น โดยผ่านเวิร์กโฟลว์การยินยอมในแอป
ความสมจริงทางกายภาพ: ปรับปรุงความคงอยู่ของวัตถุและความเที่ยงตรงของการเคลื่อนไหว (เช่น โมเมนตัม แรงลอยตัว) ลดอาการ “วาร์ป” ที่ไม่สมจริงซึ่งพบบ่อยในระบบก่อนหน้า
ความสามารถในการควบคุม: รองรับพรมต์แบบมีโครงสร้างและคำสั่งระดับช็อต เพื่อให้ผู้สร้างกำหนดกล้อง แสง และลำดับหลายช็อตได้

รายละเอียดทางเทคนิคและส่วนเชื่อมต่อ

ตระกูลโมเดล: Sora 2 (base) และ Sora 2 Pro (รุ่นคุณภาพสูง)
รูปแบบอินพุต: พรมต์ข้อความ ภาพอ้างอิง และวิดีโอ/เสียงแคมิโอสั้นๆ สำหรับภาพเหมือน
รูปแบบเอาต์พุต: วิดีโอเข้ารหัส (พร้อมเสียง) — พารามิเตอร์เปิดผ่านเอ็นด์พอยต์ /v1/videos (เลือกโมเดลด้วย model: "sora-2-pro") หน้าสัมผัส API สอดคล้องกับตระกูลเอ็นด์พอยต์วิดีโอของ OpenAI สำหรับการสร้าง/ดึง/รายการ/ลบ
การฝึกและสถาปัตยกรรม (สรุสารภาพ): OpenAI อธิบายว่า Sora 2 ถูกฝึกด้วยข้อมูลวิดีโอขนาดใหญ่ พร้อมการฝึกหลังเพื่อปรับปรุงการจำลองโลก; รายละเอียดเฉพาะ (ขนาดโมเดล ชุดข้อมูลที่แน่นอน และการโทเคไนซ์) ไม่ได้เปิดเผยแบบบรรทัดต่อบรรทัด คาดว่ามีการใช้ทรัพยากรคอมพิวต์สูง ตัวโทเคไนเซอร์วิดีโอเฉพาะทาง และส่วนประกอบการจัดแนวหลายสื่อ

API endpoints & เวิร์กโฟลว์: แสดงเวิร์กโฟลว์แบบงาน: ส่งคำขอ POST เพื่อสร้างงาน (model="sora-2-pro"), รับ job id หรือที่อยู่ จากนั้นโพลหรือรอจนเสร็จและดาวน์โหลดไฟล์ผลลัพธ์ พารามิเตอร์ทั่วไปในตัวอย่างที่เผยแพร่ได้แก่ prompt, seconds/duration, size/resolution และ input_reference สำหรับการเริ่มต้นที่ขับเคลื่อนด้วยภาพ

Typical parameters :

model: "sora-2-pro"
prompt: คำอธิบายฉากด้วยภาษาธรรมชาติ อาจรวมคิวบทสนทนา
seconds / duration: ความยาวคลิปเป้าหมาย (รุ่น Pro รองรับคุณภาพสูงสุดภายในช่วงความยาวที่มีให้)
size / resolution: มีรายงานจากชุมชนว่ารุ่น Pro รองรับได้ถึง 1080p ในหลายกรณีใช้งาน

อินพุตเนื้อหา: สามารถส่งไฟล์ภาพ (JPEG/PNG/WEBP) เป็นเฟรมหรือภาพอ้างอิงได้ เมื่อใช้ ควรให้ภาพตรงกับความละเอียดเป้าหมายและใช้เป็นสมอคอมโพส
พฤติกรรมการเรนเดอร์: รุ่น Pro ถูกปรับให้ให้ความสำคัญกับความสอดคล้องระหว่างเฟรมกับเฟรมและฟิสิกส์ที่สมจริง; โดยทั่วไปหมายถึงเวลาในการคำนวณนานขึ้นและต้นทุนต่อคลิปสูงกว่ารุ่นไม่ Pro

ประสิทธิภาพการทดสอบมาตรฐาน

จุดแข็งเชิงคุณภาพ: OpenAI ปรับปรุงความสมจริง ความสอดคล้องทางฟิสิกส์ และการซิงก์เสียง เมื่อเทียบกับโมเดลวิดีโอก่อนหน้า ผลลัพธ์ VBench อื่นๆ ระบุว่า Sora-2 และอนุพันธ์อยู่ในระดับแนวหน้าหรือใกล้เคียงในด้านระบบปิดและความสอดคล้องตามเวลา
เวลาประมวลผล/ปริมาณงานแบบอิสระ (ตัวอย่างการทดสอบ): Sora-2-Pro ใช้เวลาเฉลี่ย ~2.1 นาที สำหรับคลิป 20 วินาทีที่ 1080p ในการเปรียบเทียบหนึ่งครั้ง ในขณะที่คู่แข่ง (Runway Gen-3 Alpha Turbo) เร็วกว่า (~1.7 นาที) ในงานเดียวกัน — ต้องแลกระหว่างคุณภาพกับเวลาเรนเดอร์และการปรับให้เหมาะกับแพลตฟอร์ม

ข้อจำกัด (ด้านปฏิบัติและความปลอดภัย)

ฟิสิกส์/ความสม่ำเสมอไม่สมบูรณ์ — แม้จะดีขึ้นแต่ยังอาจมีสิ่งประหลาดตา การเคลื่อนไหวไม่เป็นธรรมชาติ หรือข้อผิดพลาดการซิงก์เสียง
ข้อจำกัดด้านความยาวและคอมพิวต์ — คลิปยาวต้องใช้คอมพิวต์มาก; เวิร์กโฟลว์จริงมักจำกัดความยาวคลิปให้สั้น (หลักวินาทีถึงหลักสิบวินาทีสำหรับเอาต์พุตคุณภาพสูง)
ความเป็นส่วนตัว/ความยินยอม — การแทรกภาพเหมือน (“แคมิโอ”) มีความเสี่ยงด้านความยินยอมและการบิดเบือนข้อมูล; OpenAI มีการควบคุมด้านความปลอดภัยและกลไกเพิกถอนในแอป แต่การผสานใช้งานอย่างรับผิดชอบเป็นสิ่งจำเป็น
ต้นทุนและเวลาแฝง — การเรนเดอร์คุณภาพ Pro อาจมีค่าใช้จ่ายสูงและช้ากว่าโมเดลที่เบากว่าหรือคู่แข่ง; ต้องคำนึงถึงการคิดค่าบริการต่อวินาที/ต่อการเรนเดอร์และคิวงาน
การกรองเนื้อหาด้านความปลอดภัย — การสร้างเนื้อหาที่เป็นอันตรายหรือมีลิขสิทธิ์ถูกจำกัด; โมเดลและแพลตฟอร์มมีชั้นความปลอดภัยและการกลั่นกรอง

กรณีใช้งานทั่วไปและที่แนะนำ

กรณีใช้งาน:

ต้นแบบการตลาดและโฆษณา — สร้างพรูฟออฟคอนเซ็ปต์แบบภาพยนตร์อย่างรวดเร็ว
พรีวิชวลไลเซชัน — สตอรีบอร์ด การบล็อกกล้อง การมองเห็นช็อต
คอนเทนต์สั้นสำหรับโซเชียล — คลิปสไตล์ต่างๆ พร้อมบทสนทนาและเอฟเฟกต์เสียงที่ซิงก์
วิธีเข้าถึง Sora 2 Pro API

ขั้นตอนที่ 1: สมัครเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console ของคุณ รับ API key สิทธิ์การเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับคีย์โทเคน: sk-xxxxx และส่ง

cometapi-key

ขั้นตอนที่ 2: ส่งคำขอไปยัง Sora 2 Pro API

เลือกเอ็นด์พอยต์ “sora-2-pro” เพื่อส่งคำขอ API และกำหนด request body วิธีการและโครงสร้าง request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบผ่าน Apifox เพื่อความสะดวก แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ base URL อย่างเป็นทางการคือ Create video

ใส่คำถามหรือคำขอของคุณลงในช่อง content — นี่คือสิ่งที่โมเดลจะตอบสนอง ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับสถานะงานและข้อมูลผลลัพธ์

การฝึกภายใน/การจำลอง — สร้างภาพสถานการณ์สำหรับงานวิจัย RL หรือหุ่นยนต์ (ด้วยความระมัดระวัง)
งานสร้างสรรค์การผลิต — เมื่อนำมารวมกับการตัดต่อโดยมนุษย์ (ต่อคลิปสั้นๆ เกรดสี แทนที่เสียง)