Veo 3.1 即將到來:Veo 是 Google 的一系列 AI 影片生成模型(目前為 Veo 3 / Veo 3 Fast)。Google 最近釋出了 Veo 3 的重大改進(縱向 9:16、1080p、Veo 3 Fast、更低定價),並且有傳聞/社群貼文指出 Veo 3.1 即將發布——但 Google 尚未發布官方的 Veo 3.1 版本公告。我將列出已確認的事實、可能/預期的變更,以及與 OpenAI 的 Sora 2 的直接比較。
什麼是 Veo
Veo 是 Google(DeepMind / Google Cloud / Gemini 系列)的生成式影片模型產品線,能將文字或圖片轉換為短影片——並且(在 Veo 3)可原生生成音訊(音效、環境音與對話)。它透過 Google Cloud(Vertex AI / Gemini API)提供給開發者與企業使用,並在輸出中內建來源標記/SynthID 浮水印。
Veo 3 已經帶來了什麼
- 文字 → 影片 與 圖片 → 影片 能力(包含預覽級的圖生影)。
- 原生音訊生成(音樂、環境音、對話)——Veo 3 首次將音訊作為一級能力。
- 兩個變體:高品質的 Veo 3 與 Veo 3 Fast(針對速度/迭代優化)。
- 平台可用性: 在 Vertex AI / Gemini API 上提供(付費預覽 → 於 2025 年中期逐步開放一般可用)。
- 安全/來源: SynthID 浮水印,以及人物/兒童生成的使用控制/審批。
那麼——Veo 3.1 預期會帶來什麼?
狀態: 目前 Google 尚無官方的 Veo 3.1 產品頁或完整發佈說明。然而,多則 Google 開發者貼文/社群貼文與推文顯示,名為「Veo 3.1」的近期增量更新即將到來,預計將著重於音訊、品質與格式支援的迭代改進,而非完整的世代重寫。
以下是我基於 x 的貼文與 Veo 3 特性所做的一些推測:
- 更好的原生音訊(對話、多聲部唇形同步) ——對話更乾淨、更好的 SFX 混音與空間化處理)。Veo 3 已可原生生成音訊;Veo 3.1 可能提升對話寫實度與語言支援,以對齊競品近期的升級。
- 某些常見輸出的更快/更便宜管道(更多與 Veo 3 Fast 的對齊與最佳化)。
- 更佳的圖生影保真度與更好的角色/姿勢一致性(多幀片段中)。
- 擴充長寬比/解析度控制(更靈活的 9:16/16:9 與 1080p 配置)。Google 已加入縱向與 1080p;Veo 3.1 可能進一步擴充這些控制。
- 更長片段/放寬 8 秒上限——社群需求與 Google 先前路線圖顯示,延長時長是可能目標(Veo 3 目前最佳化為 8 秒片段)。
- 更好的圖生影保真度與擴展的圖轉影支援(在寫實度與運動連續性上的改進),延續 Veo 3 的圖生影預覽功能。

比較 Veo 3/(預期)Veo 3.1 → OpenAI Sora 2
主要重點
- Veo 3(Google):從文字/圖片提示生成高保真 8 秒短影片;原生音訊;整合於 Gemini/Gemini API 與 Vertex AI;為生產與開發者 API 整合而優化。
- Sora 2(OpenAI):OpenAI 的旗艦影像+音訊模型,著重物理寫實、連貫運動、同步對話與聲音,並附帶社交應用(Sora),提供 cameo/同意系統以整合用戶肖像,強調寫實與安全控管。
優勢
- Veo(目前):強大的開發者/企業整合(Vertex AI、Gemini API)、生產級定價選項、雲端客戶清晰導入路徑、縱向/1080p+快速變體。適合導入企業流程的業務。
- Sora 2:出色的物理準確性與多模同步(對話+視覺),以及面向消費者的應用,整合社交工作流程(cameo 功能、審核)。適合創作者製作寫實敘事場景與接入應用生態。
如何現在使用 Veo——以及為 Veo 3.1 做好準備
- 在 Gemini(消費者/網頁/行動端)體驗:Veo 生成已在 Gemini 應用中開放(在提示欄點選「影片」選項)。存取等級(Pro/Ultra)會影響可用的 Veo 變體。
- 程式化/企業方案:透過 API 使用 CometAPI(Veo 模型 ID 可見於模型文件)。CometAPI 提供 veo3-pro、veo3-fast 與 veo3。詳細資訊請參考 Veo 3 的文件。
實用提示(開發者): 若要請求縱向輸出,設定 aspectRatio 參數(例如 "9:16"),並檢查模型設定(Veo 3 vs Veo 3 Fast)以及你的方案對解析度的限制(720p vs 1080p)。
如何(現在)使用 Sora 2
Sora 應用: Sora 2 隨 Sora 應用上線(首波邀請制在美國與加拿大)。OpenAI 表示稍後將擴大存取與 API。若你現在想試用 Sora 2,請查看 CometAPI 的 Sora 2 頁面。CometAPI 已支援 Sora 2 API,並可生成約 ~10 秒的社群短片,強調人物運動的寫實性。
入門指南
CometAPI 是一個統一的 API 平台,將超過 500 個來自領先提供商的 AI 模型——例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到單一、對開發者友善的介面中。透過提供一致的驗證、請求格式與回應處理,CometAPI 大幅簡化在你的應用中整合 AI 能力的流程。無論你在打造聊天機器人、影像生成器、音樂創作工具,或資料驅動的分析管線,CometAPI 都能讓你更快速迭代、控管成本、保持對供應商的中立,同時掌握 AI 生態系的最新突破。
開發者可透過 CometAPI 存取 Veo 3.1 API,最新的模型版本 將與官方網站保持同步更新。開始之前,請先在 Playground 探索模型能力,並參閱 API guide 以取得詳細說明。存取前請確認你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助你完成整合。
準備好了嗎?→ 立即註冊 CometAPI!
