Google Veo 3.1:新版本對 AI 影片有何變化以及如何使用它

CometAPI
AnnaOct 15, 2025
Google Veo 3.1:新版本對 AI 影片有何變化以及如何使用它

谷歌今天擴展了其生成視頻工具包, 維奧 3.1這是對公司 Veo 系列視訊模型的漸進式但意義重大的更新。 Veo 3.1 定位於快速原型生成和高保真製作工作流程之間的中間地帶,它帶來了更豐富的音訊、更長、更連貫的剪輯生成、更嚴格的提示遵循以及一系列工作流程功能,旨在使 AI 驅動的視訊對故事講述者、品牌和開發者更有用。此次更新與 Google Flow 編輯應用程式的更新同時發布,並在 Google 開發者平台上以付費預覽版的形式提供。

什麼是 Veo 3.1?

Veo 3.1 是 Google 生成影片模型系列的最新公開版本。它基於 Veo 3 引入的架構和功能集,但重點關注 音訊整合、更長的剪輯長度和敘事連續性. 前幾代優先考慮短小、可循環或概念驗證的剪輯(通常只有幾秒鐘),而 Veo 3.1 支持更長的單一剪輯——谷歌和合作夥伴正在演示長達 一分鐘 適用於某些生成模式,並以 1080p 輸出作為更高保真用例的基準。該模型還為電影製作人和創作者引入了一些便利功能,例如,能夠提供首幀和末幀來決定視覺弧線、「視訊素材」(由多個參考影像驅動內容)以及場景擴展(創建保留上下文的額外鏡頭)。

提供兩種操作模式:主力 Veo 3.1 型號(注重品質和保真度)和 我看到 3.1 Fast (用一些保真度來換取更快的迭代),讓團隊可以快速製作原型,然後升級或重新渲染更高品質的版本以獲得最終交付成果。

Veo 3.1 明確定位為革命性的升級,旨在增強音訊、延長場景長度,並添加更精細的編輯功能(插入/刪除、場景擴展、首幀和末幀插值以及參考影像引導),而非重寫架構。與 2025 年初發布的 Veo 3 相比,Veo 3.1 圍繞著三個實用方面構建:(1) 更豐富的原生音頻,(2) 更先進的場景和鏡頭控制,以及 (3) 質量和長度的提升。

跨功能更豐富的原生音訊

Veo 3 引入了同步聲音功能,而 Veo 3.1 則擴展了音訊輸出的豐富性和情境感知能力。 Veo 3.1 內建了同步的情境音訊(對話、環境音和音效),無需單獨的聲音設計流程。 Google明確地將產生的音訊添加到先前用於生成無聲視訊的功能中(例如,Increments to Video、Frames to Video 和 Scene Extension)。這項改進減少了後製步驟,使創作者和團隊能夠更輕鬆地進行快速迭代。谷歌描述了「更豐富的音訊」以及角色說話時唇形同步的改進。

高級場景和鏡頭控制

Veo 3.1 強調製作風格的控制(參考影像、場景擴展、首尾插值、插入/刪除),以便更好地適應電影製作人的工作流程。這在創意流程和企業自動化方面有著明顯的優勢。

創作者可以提供第一張和最後一張圖像或「素材」(一組圖像),Veo 3.1 將產生連貫的過渡和中間動作,以保留角色外觀和場景佈局,從而提高敘事或品牌內容的連續性。

多提示/多鏡頭排序和角色一致性: 新的工作流程功能可在鏡頭和多個提示中保持角色身份和視覺連續性,因此單一角色或道具可以在整個序列中正確保留。

電影預設與燈光控制: 內建燈光和攝影機預設(移動推拉、推拉、變焦、景深、電影 LUT)可加快製作速度並減少對高級提示工程的需求。

質量+長度改進

Veo 3.1 支援更長的片段(報告顯示,Flow 的場景擴展功能最長可達 60 秒),而 Veo 3 主要專注於短片段(8 秒)的高保真片段。更長時長的可用性可能受介面(Flow)或 API 參數的限制。

更好的影像→視訊保真度 — 當為模型提供參考影像(第一幀/最後一幀、多個參考)時,渲染的改進會產生更一致的角色身份和場景連貫性。

輸出包括水平(16:9)和垂直(9:16)選項,可直接滿足社交和廣播用例。

安全、出處和浮水印

谷歌一直強調其生成模型的安全性和來源特性;Veo 3.1 也遵循了這一趨勢。谷歌在早期報導中指出:

  • SynthID 和出處方法 (在支援的情況下)幫助將 AI 生成的媒體追溯到模型/來源並防止濫用。
  • 內容政策護欄 在 Flow 編輯器和 API(取決於區域/計劃)中,以及審核工具中,以減少有害或敏感內容的產生。

創作者仍應遵循最佳實踐:在需要的地方清楚地標記人工智慧內容,審查輸出中是否存在幻覺或敏感元素,並在廣泛發佈時應用傳統的審查工作流程。

Veo 3.1 還有哪些限制和風險?

Veo 3.1 是一項有意義的進步,但並非萬靈丹。主要限制和風險:

  • 故障模式仍然存在 ——在複雜場景或需要極高保真度的情況下,仍會出現光照偽影、細微的幾何故障以及偶爾出現的錯位(手、手指、精細文字)。記者和早期測試人員將這些稱為持續存在的極端情況。
  • 錯誤訊息和濫用問題 更高的真實感和音訊合成技術顯然引發了人們對深度偽造和濫用的擔憂。谷歌持續強調安全措施(內容政策執行、來源標記),並曾推出 SynthID 水印技術來幫助追蹤合成媒體,但這些系統並非萬無一失地取代治理和人工審核。
  • 法律和智慧財產權問題 — 使用參考圖像、人物肖像或受版權保護的資料進行產生將引發標準的法律考慮;企業應諮詢律師並尊重使用政策護欄。

快速入門-範例工作流程(Gemini 應用程式 + API)

在 Gemini 應用程式/Flow 中(無程式碼):

開啟 Gemini 應用程式(或 Flow 編輯器)並登入。尋找影片或建立 → 影片選項。
Skywork

在型號下拉式選單中選擇 Veo 3.1(如有多個型號)。選擇寬高比和目標時長。也可選擇電影或燈光預設。
TECHRADAR

提供文字提示,可選擇上傳 1-3 張參考影像(用於「成分→影片」或「首幀/末幀」流程),並選擇是否產生音訊。提交並等待生成完成。使用 Flow 的編輯工具根據需要擴展場景、插入物件或刪除元素。
一觸即發

如何呼叫 Veo 3.1(以程式設計方式)

CometAPI 的模型清單和 AI 文件包括模型名稱(例如,veo-3.1 和 veo-3.1-pro)以及用於控制解析度、長度、縱橫比和參考的參數。

步驟:

  • 登錄到 彗星API 並向您保證 取得 CometAPI 的金鑰.
  • 使用 JSON 負載呼叫 Veo 3.1 模型端點,該負載包含您的提示符號、引用(base64 或 GCS 引用)、目標解析度/長度以及音訊或場景擴充標誌。使用 Veo 3.1 Fast 端點進行迭代運行。
  • 處理輸出(視訊檔案、可選的獨立音軌)並管理管線中的後製(調色、交付編碼)。監控成本和配額;長片段或高解析度片段將佔用更多運算資源。

CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 維奧 3.1 透過 CometAPI, 彗星API 提供遠低於官方價格的價格,幫助您整合。

結論

Veo 3.1 是一款務實且功能完善的升級版本:它的直接價值在於透過添加音訊作為原生輸出、擴展場景和參考控制以及支援更長的鍊式輸出,減少了創意與最終場景之間的摩擦。對於希望在生成循環中進行生產級編輯的創作者,以及尋求程序化內容自動化的企業來說,Veo 3.1 是一款值得評估的極具吸引力的工具。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣