2025 年 9 月 30 日,OpenAI 公佈 索拉2號,下一代文本到視頻和音頻模型以及一個名為 空此次發布代表了 OpenAI 迄今為止在生成視頻領域最引人注目的舉措:試圖將 ChatGPT 為文本帶來的那種快速、富有創意的迭代引入短視頻,同時將這種功能打包在一個應用程序中,類似於 TikTok 和 Reels 那種可滑動、由動態驅動的體驗。該模型在原版 Sora(於 2024 年初首次推出)的基礎上進行了擴展,增加了同步音訊、更緊密的物理模擬、多鏡頭一致性,以及允許用戶將經過驗證的自身肖像插入生成場景的功能。
以下我將詳細介紹 Sora 2 是什麼、它目前能做什麼(和不能做什麼)、OpenAI 如何在商業和產品中對其進行包裝、它相對於現有工具的表現如何,以及創作者和工作室接下來應該期待什麼。
Sora 2 到底是什麼?它與原版 Sora 有何不同?
Sora 2 作為一款車型和一款產品
Sora 2 既是 機器學習模型 和 產品生態系統此機器學習模型經過訓練,可以將文字提示(以及可選的圖像)轉換為包含同步聲音(語音、擬音音效和環境音頻)的短視頻,同時保留物體持久性、合理的物理特性以及跨多機位拍攝的場景連續性。產品層包括一款名為 Sora 的全新 iOS 應用程式(僅限邀請用戶使用,最初在美國和加拿大推出)、sora.com 上的網頁體驗以及計劃中的開發者 API。
與 Sora 1 相比有何變化
OpenAI 將 Sora 2 定位為相較於初代 Sora 的重大架構和訓練進步:早期的模型可以產生引人入勝的幀,但在運動真實感、跨鏡頭的物體關係一致性以及音頻同步方面往往存在不足。 Sora 2 強調改進的世界模擬——更好地遵循現實世界的物理規律和連貫的多鏡頭故事情節——以及原生音訊生成,使視訊和聲音能夠同時製作,而不是在後期拼接。這正是 OpenAI 強調的主要技術差異。
創意改進:
- 改進的物理和世界模擬:Sora 2 更尊重場景中的動量、碰撞、浮力和其他物理特性,因此跳躍、投擲或水互動等動作看起來可信。
- 更好的可操控性和風格範圍:創作者可以更可靠地請求攝影機移動、鏡頭類型或藝術風格,並期望模型能夠執行。 OpenAI 將 Sora 2 定位為能夠更直接地控制構圖和時間。
- 更高的真實感和幀一致性:Sora 2 減少了幀間的閃爍和合成偽影,在短片中產生了更平滑的運動和物體永久性。
Sora 2 可以產生哪些類型的輸出?
- 文字轉影片剪輯:簡短、高保真序列,展現出改進的幀連貫性和逼真的物體運動。
- 同步音訊:Sora 2 能夠產生與視覺效果和時間同步的語音、環境音和音效。相較於之前許多缺乏連貫音訊的視訊模型,這是一個關鍵的進步。
- 自我插入/混音:透過 Sora 應用程序,同意的用戶可以提供簡短的影片樣本,其他人可以重複使用這些樣本來產生 AI 客串——並允許物件撤銷或限制使用。
Sora 2 的主要功能是什麼?
原生音訊和同步聲音
核心進步是 同步音訊Sora 2 可以產生對話(與可見唇部動作同步的語音)、環境音景以及與螢幕事件一致的音效。只需一次生成即可產生可靠的視聽輸出,簡化了創作者的工作流程,讓他們無需再使用單獨的音訊產生器或手動進行聲音設計。
物理真實感與多鏡頭一致性
Sora 2 附帶 寶石 工作流程:使用者可以錄製簡短的應用程式內視訊和語音檢查,以便模型將經過驗證的肖像和聲音插入生成的場景中。 OpenAI 建構了同意控制、活體檢查以及元資料/浮水印功能,以限制濫用。基於 Sora 2 構建的 Sora 應用程式的一大亮點是用戶可以透過「Cameo」或同意使用流程將人物(包括自己和受邀好友)添加到生成的影片片段中。 OpenAI 在該功能中內建了身份驗證和同意控制:貢獻者可以成為生成作品的共同所有者,並可以撤銷或限制其肖像的使用。公眾人物的肖像受到限制,露骨內容會被封鎖。
可控性和風格範圍
Sora 2 支援更強的可操控性:創作者可以自訂相機類型、電影風格、動畫處理方式(例如,動畫風格 vs. 照片寫實風格),並且可以使用混音功能對場景進行迭代。該系統宣稱能夠產生電影、動畫、照片寫實或超現實風格的輸出,同時高保真遵循用戶的指令。 Sora 應用程式加入了社交和混音機制,方便創作者在彼此的作品上進行創作(需進行同意控制-請參閱安全部分)。
Sora 2 的定價是多少?用戶如何購買?
Sora 2 Pro 以及與 ChatGPT Pro 的集成
OpenAI 提供了一個 Sora 2 Pro — 至少在發佈時,更高品質的版本可作為實驗選項使用 聊天GPT專業版 透過 sora.com 訂閱,並將很快整合到 Sora 應用程式中。 ChatGPT Pro 是一個付費版本(由 OpenAI 先前宣布),包含優先運算存取權限;Sora 2 Pro 則定位為專業創作者的高級、更高解析度、更長時長的產品。 OpenAI 也表示,後續將推出收費 API,其定價機制類似於現有圖像 API,採用按代或代幣形式(具體的按片段或每秒 API 費率在發佈時尚未公佈)。
我今天怎麼才能訪問?
透過OpenAI: Sora 2 和 Sora 應用程式將在美國和加拿大的 iOS 平台上透過邀請的方式推出;OpenAI 正在採用分階段的方式(候補名單/邀請)來監控使用情況並完善安全控制。對於許多用戶來說,最直接的途徑是:註冊 Sora 候補名單;如果想要優先使用或捆綁使用,請加入 ChatGPT Pro;或者,隨著 OpenAI 擴大其可用性,請關注其在公共應用商店的發布。
透過 CometAPI: CometAPI 現已支援 Sora 2 API 呼叫。我們很高興地宣布,CometAPI 現已全面支援 OpenAI 最新的 Sora 2 視訊生成模型!開發者現在可以透過我們統一的 API 介面輕鬆存取這項突破性的 AI 視訊生成技術。
價格:
- 透過 OpenAI:免費或 ChatGPT Pro:200 美元/月。免費在 Sora 候補名單上註冊並獲得邀請碼。
- 透過 CometAPI: 使用串流媒體,每次 0.16 美元。
如何透過 CometAPI 存取並使用 Sora 2?
如何開始(訪問路徑)
sora-2 現已上線,並與 OpenAI Chat Completions 相容。 CometAPI 已支援存取 Sora2
- 註冊/登入 彗星API 並建立 API 金鑰(通常顯示為
sk-xxxxx)。將其複製到剪貼簿。 - 取得 CometAPI 的 API Doc,將 base URL 切換為 cometapi,使用從 cometapi 控制台取得的 key 進行呼叫。
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: sk-' \
--header 'Content-Type: application/json' \
--header 'Accept: /' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"model": "sora-2",
"stream": true,
"messages":
}
請注意:
- 由於首次發布期間官方計算能力有限,您可能會遇到一些不穩定的情況 - 感謝您的耐心。
- 對於使用聊天格式的視訊生成,請使用串流輸出
使用 Sora 2 進行快速工程的技巧
- 使用 清晰的鏡頭描述 (攝影機角度、取景、動作)以實現更可靠的多鏡頭連貫性。
- 指定 聲音提示 如果您需要同步效果(例如,「00:02 時關門聲,00:04 時輕輕腳步聲」)。
- 使用浮雕時, 簡短的語音樣本 幫助模特兒匹配節奏;尊重隱私和同意。
- 從較低解析度/自由運行開始進行廉價迭代,然後升級到 Pro 進行最終渲染。
這些實用規則反映了圖像和文字生成中既定的最佳實踐,但針對運動和聲音的額外維度進行了調整。
我的測試和結果
目前可以實現十秒的影片時長,音畫完美同步,超越Veo3。
準備好使用 Sora 2 了嗎?
開發人員可以訪問 Sora 2 API 透過 CometAPI, 最新型號版本 始終與官方網站同步更新。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
準備出發了嗎? → 立即註冊 CometAPI !
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。
Sora 2 對誰最有用?
閃耀的用例
- 短篇社交視頻,其中快速迭代和混音文化很重要(Sora 應用程式提要)。
- 為需要視覺模型的電影製作人、廣告商和遊戲概念藝術家提供快速原型設計。
- 敘述場景與視覺效果結合的教育和行銷動畫很有價值。
- 小型工作室和創作者缺乏大量製作預算,但需要完善和動作真實感。
不太適合…
- 長格式、高解析度的製作流程需要嚴格的逐幀控制(傳統的 VFX 流程仍然依賴人類藝術家)。
- 需要對複雜事件進行明確的事實準確性的情況(Sora 2 具有生成性,可以發明合理但不正確的細節)。
結論——你應該嘗試 Sora 2 嗎?
如果您的作品受益於快速迭代、短篇電影視覺效果或整合的音視頻合成,那麼 Sora 2 代表著創意工具領域的重大進步:它減少了創意與動態可聽內容之間的摩擦。對於社交創作者、行銷人員和概念藝術家來說,它開啟了新的工作流程。然而,對於高風險的製作、法律敏感內容或長篇敘事作品,團隊應該將 Sora 2 視為強大的創意助手,而不是熟練的人工製作團隊的替代品。



