關鍵特性
- 物理真實感與連貫性: 改進物體恆常性、運動與物理的模擬,以減少視覺偽影。
- 同步音訊: 生成與畫面動作對齊的對白與音效。
- 可控性與風格範圍: 對鏡頭構圖、風格選擇,以及面向不同美學的提示條件化提供更細緻的控制。
- 創作控制: 與 Sora 1 相比,提供更一致的多鏡頭序列、改進的物理與運動真實感,以及對風格與時間的控制。
技術細節
OpenAI 將 Sora 家族模型描述為利用潛在影片擴散流程,結合以 Transformer 為基礎的去噪器與多模態條件化,以生成在時間上連貫的影格與對齊的音訊。Sora 2 著重於提升運動的物理性(遵循動量、浮力)、更長且一致的鏡頭,以及在生成影像與生成語音/音效之間的明確同步。公開資料強調模型層級的安全性與內容審核掛鉤(對特定不允許內容的硬性封鎖、針對未成年人的更高門檻,以及針對肖像的同意流程)。
限制與安全考量
- 不完美之處仍然存在: Sora 2 會出錯(時間偽影、邊緣情況下的物理不完美、語音/口型表達錯誤)—Sora 2有所改進但並不完美。OpenAI 明確指出該模型仍存在失敗模式。
- 濫用風險: 非自願的肖像生成、深偽、版權問題,以及青少年福祉/參與風險。OpenAI 正在推出同意工作流程、更嚴格的客串許可、針對未成年人的審核門檻,以及人工審核團隊。
- 內容與法律限制: 該 app 與模型會封鎖露骨/暴力內容,並在未獲同意時限制公共人物肖像的生成;另有報導稱 OpenAI 採用對受版權保護來源的退出機制。在投入生產使用前,從業者應評估 IP 與隱私/法律風險。
- 目前的部署重點在短片(app 功能提及 ~10 秒的創意短片),並對大量或不受限制的寫實上傳加以限制 during
主要與實際用例
- 社交創作與爆紅短片: 為社交動態快速生成與重混直式短片(Sora app 使用場景)。
- 原型製作與預可視化: 為創意團隊提供快速場景樣稿、分鏡、概念視覺,以及同步的臨時音訊。
- 廣告與短內容: 在取得倫理/法律許可的前提下,用於概念驗證的創意測試與小型行銷素材。
- 研究與工具鏈增強: 供媒體實驗室研究世界建模與多模態對齊的工具(受限於授權與安全防護)。