Bagaimana Sora dilatih?

Model pembuatan video OpenAI sora mewakili lompatan signifikan dalam AI generatif, yang memungkinkan sintesis video HD penuh dari perintah teks sederhana. Sejak peluncurannya pada bulan Februari 2024, Sora telah memicu kegembiraan atas potensi kreatifnya dan kekhawatiran atas implikasi etika dan hukumnya. Berikut adalah eksplorasi komprehensif bagaimana Sora dilatih, mengacu pada pelaporan dan pengungkapan teknis terkini.

Apa itu Sora?

Sora adalah pengubah teks ke video perintis OpenAI yang menghasilkan klip video beresolusi tinggi yang realistis dari deskripsi tekstual singkat. Tidak seperti model sebelumnya yang terbatas pada rekaman beresolusi rendah selama beberapa detik, Sora dapat menghasilkan video berdurasi hingga 1 menit pada resolusi Full HD (1920×1080), dengan gerakan halus dan adegan terperinci.

Kemampuan apa yang ditawarkan Sora?

Pembuatan video berbasis teks: Pengguna memasukkan perintah (misalnya, “hujan salju yang tenang di taman Tokyo”), dan Sora mengeluarkan klip video yang sesuai dengan deskripsi tersebut.
Pengeditan dan ekstensi: Sora dapat memperluas video yang ada, mengisi frame yang hilang, dan mengubah arah atau gaya pemutaran.
Statis ke gerak:Model dapat menganimasikan gambar diam, mengubah foto atau ilustrasi menjadi adegan bergerak.
Variasi estetika: Melalui token gaya, pengguna dapat menyesuaikan pencahayaan, gradasi warna, dan efek sinematik.

Arsitektur apa yang menggerakkan Sora?

Sora dibangun di atas fondasi transformator yang mirip dengan GPT-4, tetapi mengadaptasi representasi inputnya untuk menangani dimensi temporal dan spasial video:

Token patch spasio-temporal: Bingkai video dibagi menjadi beberapa bagian 3D yang menangkap wilayah piksel dan evolusinya seiring waktu.
Difusi progresif: Dimulai dari kebisingan, Sora menghilangkan kebisingan secara berulang, menyempurnakan detail spasial dan gerakan yang koheren secara bersamaan.
Pengkondisian multimoda: Penanaman teks dari model bahasa yang besar memandu proses penyebaran, memastikan keselarasan semantik dengan perintah pengguna.

Dataset mana yang digunakan?

OpenAI belum sepenuhnya mengungkapkan kumpulan data milik perusahaan yang menjadi dasar Sora, namun bukti dan pelaporan yang tersedia menunjukkan adanya korpus pelatihan gabungan:

Repositori video publikJutaan jam video yang tidak dibatasi hak cipta dari platform seperti Pexels, Internet Archive, dan perpustakaan rekaman stok berlisensi.
Konten YouTube dan game: Investigasi menunjukkan bahwa untuk memperkaya skenario dinamis (misalnya, pergerakan karakter, fisika), OpenAI menggabungkan rekaman dari streaming langsung permainan dan rekaman permainan—termasuk video Minecraft—yang menimbulkan pertanyaan tentang kepatuhan lisensi.
Klip yang disumbangkan pengguna:Selama fase beta, penguji Sora mengirimkan video pribadi sebagai referensi gaya, yang digunakan OpenAI untuk penyempurnaan.
Pelatihan sintetis: Para peneliti membuat rangkaian gerakan algoritmik (misalnya, bentuk bergerak, pemandangan sintetis) untuk memperkuat pemahaman model tentang fisika sebelum memperkenalkan rekaman dunia nyata.

Praproses apa yang dilakukan?

Sebelum pelatihan, semua data video menjalani pemrosesan ekstensif untuk menstandardisasi format dan memastikan stabilitas pelatihan:

Normalisasi resolusi: Klip diubah ukurannya dan diberi bantalan ke resolusi seragam 1920×1080, dengan kecepatan bingkai disinkronkan pada 30 FPS.
Segmentasi temporal: Video yang lebih panjang dipotong menjadi segmen 1 menit untuk menyesuaikan dengan cakrawala generasi Sora.
Augmentasi data: Teknik seperti pemotongan acak, perubahan warna, pembalikan temporal, dan injeksi noise memperkaya himpunan data, meningkatkan ketahanan terhadap beragam pola pencahayaan dan gerakan.
Penandaan metadata: Skrip mengurai teks yang menyertai (judul, keterangan) untuk membuat contoh berpasangan (video, teks), yang memungkinkan pengkondisian teks yang diawasi.
Audit bias:Pada awal proses, sejumlah klip ditinjau secara manual untuk mengidentifikasi dan mengurangi bias konten yang nyata (misalnya, stereotip gender), meskipun analisis selanjutnya mengungkapkan bahwa tantangan tetap ada.

Bagaimana OpenAI menyusun metodologi pelatihan Sora?

Berdasarkan wawasan dari kerangka kerja pembuatan gambar DALL·E 3, jalur pelatihan Sora memadukan arsitektur khusus dan fungsi kehilangan yang disesuaikan untuk koherensi temporal dan simulasi fisika.

Arsitektur model dan tujuan pra-pelatihan

Sora menggunakan arsitektur berbasis transformer yang dioptimalkan untuk data video, dengan mekanisme perhatian spasiotemporal yang menangkap detail tingkat bingkai dan lintasan gerakan. Selama pra-pelatihan, model belajar memprediksi patch bertopeng di seluruh bingkai berurutan—memperluas bingkai bertopeng ke depan dan ke belakang untuk memahami kontinuitas.

Adaptasi dari DALL·E 3

Blok inti sintesis gambar di Sora berasal dari teknik difusi DALL·E 3, yang ditingkatkan untuk menangani dimensi temporal tambahan. Adaptasi ini melibatkan pengkondisian pada penyisipan tekstual dan bingkai video sebelumnya, yang memungkinkan pembuatan klip baru atau perluasan klip yang sudah ada tanpa hambatan.

Simulasi dunia fisik

Tujuan pelatihan utama adalah untuk menanamkan "model dunia" intuitif yang mampu mensimulasikan interaksi fisik—seperti gravitasi, tabrakan objek, dan gerakan kamera. Laporan teknis OpenAI menyoroti penggunaan istilah kerugian yang terinspirasi oleh fisika tambahan yang menghukum keluaran yang secara fisik tidak masuk akal, meskipun model tersebut masih kesulitan dengan dinamika kompleks seperti gerakan fluida dan bayangan bernuansa.

Tantangan dan kontroversi apa yang dihadapi?

Kekhawatiran hukum dan etika?

Penggunaan konten yang tersedia untuk umum dan yang dibuat oleh pengguna telah memicu pengawasan hukum:

Sengketa hak cipta:Industri kreatif di Inggris telah melobi agar perusahaan AI tidak boleh memberikan pelatihan pada karya seniman tanpa persetujuan tertulis yang jelas, sehingga memicu perdebatan parlemen sementara Sora diluncurkan di Inggris pada Februari 2025.
Ketentuan layanan platform:YouTube telah menandai potensi pelanggaran yang timbul dari pengambilan video pengguna untuk pelatihan AI, yang mendorong OpenAI untuk meninjau kebijakan pengumpulannya.
gugatan: Mengikuti preseden yang ditetapkan oleh kasus-kasus terhadap model teks dan gambar, alat video generatif seperti Sora mungkin menghadapi gugatan class action atas penggunaan rekaman berhak cipta yang tidak sah.

Bias dalam data pelatihan?

Meskipun ada upaya mitigasi, Sora menunjukkan bias sistematis:

Stereotip gender dan pekerjaan: Analisis WIRED menemukan video yang dibuat Sora secara tidak proporsional menggambarkan CEO dan pilot sebagai pria, sementara wanita sebagian besar muncul dalam peran pengasuhan atau layanan.
Representasi rasial:Model tersebut berjuang dengan berbagai warna kulit dan fitur wajah, sering kali cenderung memiliki warna kulit lebih terang atau berciri khas Barat.
Kemampuan fisik:Orang-orang cacat paling sering ditampilkan menggunakan kursi roda, mencerminkan pemahaman yang sempit tentang cacat.
Jalur solusi:OpenAI telah berinvestasi dalam tim pengurangan bias dan berencana untuk menggabungkan data pelatihan yang lebih representatif dan teknik augmentasi kontrafaktual.

Kemajuan apa yang mendorong peningkatan pelatihan?

Simulasi dan pemodelan dunia?

Kemampuan Sora untuk menampilkan adegan realistis bergantung pada modul simulasi dunia tingkat lanjut:

Prioritas berdasarkan fisika:Dilatih terlebih dahulu pada kumpulan data sintetis yang memodelkan gravitasi, dinamika fluida, dan respons tabrakan, Sora membangun mesin fisika intuitif dalam lapisan transformatornya.
Jaringan koherensi temporal: Submodul khusus menegakkan konsistensi di seluruh bingkai, mengurangi kedipan dan gangguan gerakan yang umum terjadi pada pendekatan teks-ke-video sebelumnya.

Peningkatan realisme fisik?

Terobosan teknis utama meningkatkan kesetiaan hasil produksi Sora:

Difusi resolusi tinggi: Strategi difusi hierarkis pertama-tama menghasilkan pola gerakan resolusi rendah, lalu meningkatkannya ke Full HD, mempertahankan gerakan global dan detail halus.
Perhatian lintas waktu: Perhatian diri temporal memungkinkan model untuk mereferensikan bingkai yang jauh, memastikan konsistensi jangka panjang (misalnya, orientasi dan lintasan karakter dipertahankan selama beberapa detik).
Transfer gaya dinamis: Adaptor gaya waktu nyata memadukan berbagai estetika visual, memungkinkan peralihan antara tampilan sinematik, dokumenter, atau animasi dalam satu klip.

Apa arah masa depan untuk pelatihan Sora?

Teknik untuk mengurangi bias?

OpenAI dan komunitas AI yang lebih luas sedang menjajaki metode untuk mengatasi bias yang sudah mengakar:

Penambahan data kontrafaktual: Mensintesis versi alternatif klip pelatihan (misalnya, menukar jenis kelamin atau etnis) untuk memaksa model memisahkan atribut dari peran.
Penyimpangan yang bersifat adversarial: Mengintegrasikan diskriminator yang menghukum keluaran stereotip selama pelatihan.
Ulasan tentang manusia dalam lingkaran: Kemitraan berkelanjutan dengan beragam kelompok pengguna untuk mengaudit dan memberikan umpan balik pada keluaran model sebelum rilis publik.

Memperluas keragaman kumpulan data?

Memastikan korpus pelatihan yang lebih kaya sangatlah penting:

Kemitraan video global: Melisensikan konten dari media non-Barat untuk mewakili budaya, lingkungan, dan skenario yang lebih luas.
Penyetelan halus khusus domain: Melatih varian khusus Sora pada rekaman medis, hukum, atau ilmiah—memungkinkan pembuatan video yang akurat dan relevan dengan domain.
Benchmark terbuka: Berkolaborasi dengan konsorsium penelitian untuk membuat kumpulan data standar yang tersedia untuk publik untuk evaluasi teks-ke-video, mendorong transparansi dan persaingan.

Kesimpulan

Sora berdiri di garis depan pembuatan teks ke video, menggabungkan difusi berbasis transformer, korpora video skala besar, dan simulasi dunia sebelumnya untuk menghasilkan klip yang sangat realistis. Namun, jalur pelatihannya—yang dibangun di atas kumpulan data yang sangat besar dan sebagian tidak transparan—menimbulkan tantangan hukum, etika, dan bias yang mendesak. Saat OpenAI dan komunitas yang lebih luas mengembangkan teknik untuk menghilangkan bias, kepatuhan lisensi, dan diversifikasi kumpulan data, iterasi Sora berikutnya menjanjikan sintesis video yang lebih naturalistik, membuka aplikasi kreatif dan profesional baru sambil menuntut tata kelola yang waspada untuk melindungi hak artistik dan keadilan sosial.

Mulai

CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—termasuk keluarga Gemini Google—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Alih-alih mengelola beberapa URL dan kredensial vendor, Anda mengarahkan klien Anda ke https://api.cometapi.com/v1 dan tentukan model target dalam setiap permintaan.

Pengembang dapat mengakses API Sora melalui API KometUntuk memulai, jelajahi kemampuan model di Playground dan konsultasikan Panduan API untuk petunjuk rinci.

Bagaimana Sora dilatih?

Apa itu Sora?

Kemampuan apa yang ditawarkan Sora?

Arsitektur apa yang menggerakkan Sora?