Sora nasıl eğitiliyor?

OpenAI'nin video oluşturma modeli Sora üretken AI'da önemli bir sıçramayı temsil eder ve basit metin istemlerinden tam HD videonun sentezlenmesini sağlar. Şubat 2024'te tanıtılmasından bu yana Sora, yaratıcı potansiyeli ve etik ve yasal etkileri konusunda heyecan uyandırdı. Aşağıda kapsamlı bir inceleme bulunmaktadır Sora nasıl eğitiliyorSon raporlama ve teknik açıklamalar dikkate alınarak.

Sora nedir?

Sora, kısa metinsel açıklamalardan gerçekçi, yüksek çözünürlüklü video klipler üreten OpenAI'nin öncü metinden videoya dönüştürücüsüdür. Birkaç saniyelik düşük çözünürlüklü görüntülerle sınırlı olan önceki modellerin aksine, Sora, akıcı hareket ve ayrıntılı sahnelerle Full HD (1×1920) çözünürlükte 1080 dakikaya kadar uzunlukta videolar üretebilir.

Sora hangi yetenekleri sunuyor?

Metin odaklı video üretimi: Kullanıcılar bir komut girer (örneğin, "Tokyo parkında sakin bir kar yağışı") ve Sora bu açıklamaya uyan bir video klibi çıkarır.
Düzenleme ve genişletme: Sora mevcut videoları genişletebilir, eksik kareleri doldurabilir ve oynatma yönünü veya stilini değiştirebilir.
Statik-hareket:Model, durağan görüntüleri canlandırabilir, fotoğraf veya çizimleri hareketli sahnelere dönüştürebilir.
Estetik varyasyon:Kullanıcılar stil simgeleri aracılığıyla aydınlatmayı, renk derecelendirmesini ve sinematik efektleri ayarlayabilirler.

Sora hangi mimariden güç alıyor?

Sora, GPT-4'e benzer dönüştürücü temeller üzerine kuruludur, ancak giriş gösterimini videonun zamansal ve mekansal boyutlarını işleyecek şekilde uyarlar:

Uzaysal-zamansal yama belirteçleri:Video kareleri, hem piksel bölgelerini hem de bunların zaman içindeki evrimini yakalayan 3 boyutlu parçalara bölünür.
İlerici difüzyon:Sora, gürültüden başlayarak yinelemeli olarak gürültüyü azaltır, mekansal ayrıntıları ve tutarlı hareketi eş zamanlı olarak iyileştirir.
Çok modlu şartlandırma:Büyük bir dil modelinden gelen metin yerleştirmeleri, yayılma sürecini yönlendirerek kullanıcı istemleriyle anlamsal uyumu sağlar.

Sora nasıl eğitildi?

Hangi veri kümeleri kullanıldı?

OpenAI, Sora'nın temelindeki tescilli veri kümelerini henüz tam olarak açıklamadı ancak mevcut kanıtlar ve raporlamalar, bileşik bir eğitim gövdesi olduğunu gösteriyor:

Genel video depoları:Pexels, Internet Archive ve lisanslı stok görüntü kütüphaneleri gibi platformlardan milyonlarca saatlik telif hakkı kısıtlaması olmayan video.
YouTube ve oyun içeriği:Araştırmalar, dinamik senaryoları (örneğin karakter hareketleri, fizik) zenginleştirmek için OpenAI'nin oyun canlı yayınlarından ve oyun kayıtlarından görüntüler (Minecraft videoları dahil) eklediğini ve bu durumun lisans uyumluluğu konusunda soruları gündeme getirdiğini gösteriyor.
Kullanıcıların katkıda bulunduğu kliplerBeta aşamasında Sora test kullanıcıları, kişisel videolarını stil referansları olarak gönderdiler ve OpenAI bunları ince ayar yapmak için kullandı.
Sentetik ön eğitim: Araştırmacılar, gerçek dünya görüntülerini tanıtmadan önce, modelin fizik anlayışını geliştirmek için algoritmik hareket dizileri (örneğin hareket eden şekiller, sentetik sahneler) oluşturdular.

Hangi ön işlemeler yapıldı?

Eğitimden önce, formatın standartlaştırılması ve eğitim kararlılığının sağlanması için tüm video verileri kapsamlı bir işleme tabi tutuldu:

Çözünürlük normalizasyonu: Klipler yeniden boyutlandırıldı ve kare hızları 1920 FPS'de senkronize edilerek tek tip 1080×30 çözünürlüğe getirildi.
Zamansal segmentasyon: Sora'nın jenerasyon ufkuna uyması için daha uzun videolar 1 dakikalık parçalara bölündü.
Veri büyütme: Rastgele kırpma, renk titremesi, zamansal tersine çevirme ve gürültü enjeksiyonu gibi teknikler veri setini zenginleştirerek, farklı ışık ve hareket desenlerine karşı sağlamlığı artırdı.
Meta veri etiketleme: Eşleştirilmiş (video, metin) örnekler oluşturmak için eşlik eden metinleri (başlıklar, altyazılar) ayrıştıran komut dosyaları, denetlenen metin koşullandırmasını mümkün kılar.
Önyargı denetimi: Sürecin başlarında, açık içerik önyargılarını (örneğin, cinsiyet kalıpları) belirlemek ve azaltmak için kliplerin bir alt kümesi manuel olarak incelendi; ancak daha sonraki analizler zorlukların devam ettiğini ortaya koydu.

OpenAI, Sora'nın eğitim metodolojisini nasıl yapılandırıyor?

DALL·E 3'ün görüntü oluşturma çerçevesinden elde edilen içgörülere dayanan Sora'nın eğitim hattı, zamansal tutarlılık ve fizik simülasyonu için özel olarak tasarlanmış özel mimarileri ve kayıp işlevlerini entegre ediyor.

Model mimarisi ve ön eğitim hedefleri

Sora, hem kare düzeyindeki ayrıntıları hem de hareket yörüngelerini yakalayan uzaysal-zamansal dikkat mekanizmalarıyla video verileri için optimize edilmiş bir transformatör tabanlı mimari kullanır. Ön eğitim sırasında, model ardışık kareler boyunca maskeli yamaları tahmin etmeyi öğrenir; maskeli kareleri ileri ve geri uzatarak sürekliliği kavrar.

DALL·E 3'ten uyarlama

Sora'daki temel görüntü sentezleme blokları, ek zamansal boyutu ele almak için yükseltilmiş DALL·E 3'ün difüzyon tekniklerinden türetilmiştir. Bu uyarlama, hem metinsel yerleştirmeler hem de önceki video kareleri üzerinde koşullandırmayı içerir ve yeni kliplerin sorunsuz bir şekilde oluşturulmasını veya mevcut olanların genişletilmesini sağlar.

Fiziksel dünya simülasyonu

Temel eğitim hedeflerinden biri, yerçekimi, nesne çarpışmaları ve kamera hareketi gibi fiziksel etkileşimleri simüle edebilen sezgisel bir "dünya modeli" aşılamaktır. OpenAI'nin teknik raporu, fiziksel olarak mantıksız çıktıları cezalandıran yardımcı fizikten esinlenen kayıp terimlerinin kullanımını vurgular, ancak model hala akışkan hareket ve nüanslı gölgeler gibi karmaşık dinamiklerle mücadele eder.

Hangi zorluklar ve tartışmalar yaşandı?

Yasal ve etik kaygılarınız mı var?

Kamuya açık ve kullanıcılar tarafından oluşturulan içeriklerin kullanımı hukuki incelemeye tabi tutulmuştur:

Telif hakkı anlaşmazlıkları: İngiltere'deki yaratıcı endüstriler, yapay zeka firmalarının sanatçıların çalışmaları üzerinde açık bir onay olmadan eğitim almasına izin verilmesine karşı lobi faaliyetleri yürüttü ve bu durum, Sora'nın İngiltere'de Şubat 2025'te piyasaya sürülmesiyle birlikte parlamentoda tartışma yarattı.
Platform hizmet şartları:YouTube, yapay zeka eğitimi için kullanıcı videolarının toplanmasından kaynaklanan potansiyel ihlalleri işaretledi ve bu durum OpenAI'nin veri toplama politikalarını gözden geçirmesine yol açtı.
Davalar: Metin ve görüntü modellerine karşı açılan davaların emsalleri uyarınca, Sora gibi üretken video araçları, telif hakkıyla korunan görüntülerin izinsiz kullanımı nedeniyle toplu davalarla karşı karşıya kalabilir.

Eğitim verilerinde önyargılar mı var?

Azaltma çabalarına rağmen Sora sistematik önyargılar sergiliyor:

Cinsiyet ve mesleki stereotipler:WIRED'ın yaptığı bir analiz, Sora tarafından oluşturulan videolarda CEO'ların ve pilotların orantısız bir şekilde erkek olarak tasvir edildiğini, kadınların ise çoğunlukla bakım veya hizmet rollerinde yer aldığını buldu.
Irksal temsil:Model, farklı cilt tonları ve yüz hatlarıyla mücadele ediyor, çoğunlukla daha açık tenli veya Batı merkezli imajlara yöneliyor.
Fiziksel yetenek: Engelli bireylerin çoğunlukla tekerlekli sandalye kullanırken gösterilmesi, engelliliğe ilişkin dar bir anlayışı yansıtmaktadır.
Çözüm yolu: OpenAI, önyargı azaltma ekiplerine yatırım yaptı ve daha temsili eğitim verileri ile karşıt olgusal artırma tekniklerini dahil etmeyi planlıyor.

Hangi ilerlemeler eğitimdeki gelişmeleri yönlendirdi?

Simülasyon ve dünya modelleme?

Sora'nın gerçekçi sahneleri oluşturma yeteneği gelişmiş dünya simülasyon modüllerine dayanıyor:

Fizik temelli ön bilgiler:Yer çekimi, akışkanlar dinamiği ve çarpışma tepkilerini modelleyen sentetik veri kümeleri üzerinde önceden eğitilen Sora, dönüştürücü katmanları içerisinde sezgisel bir fizik motoru oluşturur.
Zamansal tutarlılık ağları:Özel alt modüller, önceki metinden videoya dönüştürme yaklaşımlarında yaygın olan titreme ve hareket titremesini azaltarak kareler arasında tutarlılığı sağlar.

Fiziksel gerçekçilikte iyileştirmeler mi?

Sora'nın çıktı doğruluğunu artıran önemli teknik gelişmeler:

Yüksek çözünürlüklü difüzyon: Hiyerarşik yayılma stratejileri öncelikle düşük çözünürlüklü hareket desenleri üretir, ardından hem genel hareketi hem de ince ayrıntıları koruyarak Full HD'ye yükseltir.
Zaman içinde dikkat: Zamansal öz-dikkat, modelin uzak karelere referans vermesine olanak tanır ve uzun vadeli tutarlılığı garanti eder (örneğin, bir karakterin yönelimi ve yörüngesi birkaç saniye boyunca korunur).
Dinamik stil transferi:Gerçek zamanlı stil adaptörleri, birden fazla görsel estetiği harmanlayarak tek bir klip içinde sinematik, belgesel veya animasyonlu görünümler arasında geçişlere olanak tanır.

Sora'nın gelecekteki eğitimi nasıl olacak?

Önyargıyı azaltma teknikleri?

OpenAI ve daha geniş AI topluluğu yerleşik önyargıları ele almak için yöntemler araştırıyor:

Karşıt olgusal veri çoğaltımı:Eğitim kliplerinin alternatif versiyonlarını sentezlemek (örneğin, cinsiyetleri veya etnik kökenleri değiştirmek) ve modeli, nitelikler ile rollerin bağlantısını kesmeye zorlamak.
Karşıt taraflı tarafsızlık:Eğitim sırasında basmakalıp çıktıları cezalandıran ayrımcıların entegre edilmesi.
İnsan-içeride inceleme: Model çıktılarının kamuoyuna açıklanmasından önce denetlenmesi ve geri bildirim sağlanması amacıyla çeşitli kullanıcı gruplarıyla devam eden ortaklık.

Veri seti çeşitliliğini artırmak mı?

Daha zengin eğitim metinlerinin sağlanması hayati önem taşımaktadır:

Küresel video ortaklıkları: Daha geniş bir kültür, çevre ve senaryo yelpazesini temsil etmek için Batı dışı medya kuruluşlarından içerik lisanslamak.
Alana özgü ince ayar: Sora'nın tıbbi, hukuki veya bilimsel görüntüler üzerinde eğitilmiş özel varyantları, doğru ve alanla ilgili video üretimine olanak tanır.
Açık kıyaslamalar: Metinden videoya değerlendirme için standartlaştırılmış, kamuya açık veri kümeleri oluşturmak amacıyla araştırma konsorsiyumlarıyla iş birliği yapmak, şeffaflığı ve rekabeti teşvik etmek.

Sonuç

Sora, dönüştürücü tabanlı difüzyon, büyük ölçekli video korpusları ve dünya simülasyonu ön bilgilerini birleştirerek benzeri görülmemiş derecede gerçekçi klipler üretmek için metinden videoya üretimin ön saflarında yer almaktadır. Yine de, büyük, kısmen opak veri kümeleri üzerine inşa edilen eğitim hattı, acil yasal, etik ve önyargıyla ilgili zorluklar ortaya çıkarmaktadır. OpenAI ve daha geniş topluluk, önyargısızlaştırma, lisanslama uyumluluğu ve veri kümesi çeşitlendirmesi tekniklerini ilerlettikçe, Sora'nın sonraki yinelemeleri daha da doğal video sentezi vaat ediyor, yeni yaratıcı ve profesyonel uygulamaların kilidini açarken sanatsal hakları ve toplumsal eşitliği korumak için dikkatli bir yönetim talep ediyor.

Başlamak

CometAPI, Google'ın Gemini ailesi de dahil olmak üzere yüzlerce AI modelini tutarlı bir uç noktada toplayan birleşik bir REST arayüzü sağlar; yerleşik API anahtarı yönetimi, kullanım kotaları ve faturalama panoları bulunur. Birden fazla satıcı URL'si ve kimlik bilgilerini bir arada yürütmek yerine, istemcinizi https://api.cometapi.com/v1 ve her istekte hedef modeli belirtin.

Geliştiriciler erişebilir Sora API içinden Kuyrukluyıldız API'siBaşlamak için, Oyun Alanında modelin yeteneklerini keşfedin ve danışın API kılavuzu detaylı talimatlar için.