谷歌公開介紹了 維奧 3.1 (和 Veo 3.1 Fast 該變體)將於 2025 年 10 月中旬推出,作為改進的文本轉視頻模型,可產生更高保真度的短視頻片段。 原生音訊更好的及時回應,以及新的編輯功能,例如: 場景/剪輯擴展, 幀間插值和 影像引導 生成(最多使用三張參考影像)。 Veo 3.1 可透過以下方式取得: API出現在 雙子座 應用程式和 流 這是一個創意工具,並透過以下方式向企業開發人員開放: 頂點人工智能 以及 Google AI Studio(可用性因平台和套餐而異)。 Flow 的整合帶來了更多 UI 編輯控制項(光照/陰影、物件插入/移除功能即將推出),同時 API 為開發者提供了程式化產生和擴充功能。
我將提供一份關於如何透過 Veo 3.1(Flow、CometAPI/Gemini API — 逐步解說)編輯影片的指南。
Veo 3.1 的功能是什麼?它來自哪裡?
Veo 3.1 是Google生成式視訊模型 (Veo) 系列的最新版本,旨在將文字提示(以及可選的圖像或現有視訊幀)轉換為簡短、連貫、逼真或風格化的視訊片段,並配以合成音訊(對話、環境音效、音效)。 3.1 版本更新重點在於: 更逼真, 更豐富的原生音訊和 用於連續性的工具 (場景擴展和幀插值),將 Veo 定位為以影片為中心的,與 Google 的文字和圖像模型相對應。
3.1 版本的主要升級包括:
- 將產生的片段進行原生音訊和對話合成(無需單獨的語音管道)。
- 逐幀插值(第一幀和最後一幀驅動產生的片段)。
- 影像引導產生(使用最多三個參考影像以保持角色/風格的一致性)。
- 場景擴展(透過產生連接片段來保持連續性,這些連接片段以先前片段的最後一秒為種子)。
- 更好的及時響應和改進的電影控制。
Veo 3.1 在哪裡運行?
Veo 3.1 已在 Google 上提供。 API (付費預覽) Vertex AI / 模型花園, Gemini 行動/網頁應用並已整合到 Flow 和 Veo Studio 演示中。 彗星API 也已開始整合 Veo。
如何使用 Flow 中的 Veo 3.1 編輯影片? (逐步指南)
以下我將介紹最常見的程式化和使用者介面工作流程:在 Flow 中編輯(創建者使用者介面)、使用 Gemini 應用程式(快速產生)以及以程式設計方式使用 Gemini API / Vertex AI(用於生產和自動化)。
如何使用 Flow(創作者使用者介面)編輯影片?
流 這是谷歌面向電影製作人/創作者的創意用戶介面,它集成了 Veo 模型以進行生成。 一套編輯控制功能(光線、陰影、場景構圖、物件插入/移除工具)。在 Flow 中使用 Veo 3.1,您可以:
- 產生或重新產生具有更豐富音訊的鏡頭。
- 使用“視訊素材”(上傳參考圖片以保持一致的角色/風格)。
- 使用場景擴展功能延長場景或將多個鏡頭串聯起來(將新片段連接到先前片段的結尾)。
- 在使用者介面中實現基本物件插入和(即將)刪除功能。
如何在 Flow 中執行基本編輯(具體步驟)?
- 建立/產生您的種子片段(文字提示或圖像提示)。
- 使用時間軸選擇片段的結尾,然後選擇 延長 (場景擴展)會顯示新的提示,詢問是否繼續執行動作或新增動作。每次擴展都會增加一個小的跳躍動作,系統會將這些跳躍動作融合起來以保持動作的連貫性。
- 對於物件更改,請使用「插入」工具(描述要新增的項目及其位置)。對於刪除,請使用 Flow 的「刪除」工具(如有),並驗證合成工件。
- 匯出後,如果需要,可以在傳統的非線性編輯軟體(Premiere、DaVinci Resolve)中進行潤飾、添加字幕或精確剪輯。
Flow 的設計旨在快速進行迭代式創意編輯;可以將其視為時間軸編輯和生成式替換的混合體。
如何透過 Veo 3.1 API 以程式設計方式編輯或產生視頻
程序化購買主要有兩種途徑:
- Gemini API(生成式語言/Gemini SDK) — 用於直接呼叫 Veo 模型進行產生和擴充(範例在 Google 的 Gemini API 文件中提供)。
- CometAPI(OpenAI格式/聊天)— CometAPI提供對以下方面的訪問 Gemini 3 Pro 影像(Nano Banana Pro),雙子座3專業版 此外,您還可以存取超過 100 個用於聊天、圖像、音樂和視訊生成的 AI 模型。 維奧 3.1 透過 OpenAI 風格的聊天視窗。
使用 Veo 3.1 進行編輯可以看作是幾個不同的流程。每個流程都將模型輸入(文字/圖像/視訊)與後製步驟結合,以獲得可用於生產的結果。
Veo 3.1 透過 API 公開。典型的模式是長時間運作的 generateVideos 操作-發布作業,輪詢操作,完成後下載輸出檔。
以下是簡化的可運行範例—請根據您的 API 金鑰和環境進行調整;請參閱您環境的 SDK 和驗證指南。
JavaScript (Node) 範例 — 產生與輪詢
此範例基於 Gemini API 的使用方式。
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
這種模式(提交→投票→下載)是 Gemini 文件中的規範方法。
我可以用 curl/REST 來代替 Python SDK 嗎?
是的-官方網站上顯示的是 SDK,但底層的 veo 3.1 可以透過 REST 使用。不同環境下的實作方式有所不同(例如 Gemini API 與 CometAPI REST)。如果您選擇使用 curl,請確保遵循正確的身份驗證流程(使用 Google Cloud 的 Bearer 令牌或 CometAPI 金鑰),並使用與您的產品相關的影片產生端點。以下是 CometAPI 的偽 curl 範例(請根據您的身份驗證和端點進行調整):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
重要確切的 REST URL 和有效負載結構取決於您是否使用 雙子座API or 彗星API 端點-發送請求前請查閱產品文件。 SDK 會為您處理許多身份驗證和輪詢細節。
如何使用 Veo 3.1 — 支援哪些工作流程?
以下我將逐步介紹使用 Veo 3.1 編輯時會用到的實用流程:使用者體驗流程(Flow/Gemini Studio)和程式化流程(Gemini API/Vertex API)。對於每個流程,我都會提供範例、注意事項以及可供複製的小段程式碼。
使用 Veo 3.1 進行編輯可以看作是幾個不同的流程。每個流程都將模型輸入(文字/圖像/視訊)與後製步驟結合,以獲得可用於生產的結果。
主要編輯工作流程
你會常用到以下三種實用編輯流程:
- 文字驅動的編輯和重新生成 — 透過重寫提示或對相同場景套用新指令來改變鏡頭。
- 參考影像引導編輯 (「影片素材」)— 您可以提供最多 3 張圖片,以在產生的影格中保留角色或物件。
- 幀插值(首幀和末幀) — 提供開始影像和結束影像,Veo 會產生它們之間的過渡序列(如果需要,也可以添加音訊)。
- 場景擴充 — 透過產生一個連接片段來擴展現有的 Veo 產生的(或其他)片段,該連接片段從前一個片段的最後一秒繼續。
- 物件插入/刪除和其他流程編輯工具 — 一些 Flow UI 功能(物件插入/刪除、塗鴉提示、相機角度重拍)是在 Veo 功能的基礎上添加的,可以幫助在 GUI 中進行幀級修飾。
注意事項與提示:請使用適當的驗證方式(Gemini API 金鑰/CometAPI API 金鑰)。範例使用的是 veo-3.1-generate-preview 模型-不同 SDK 版本和地區的模型 ID 和參數名稱可能略有不同;CometAPI 的 veo 3.1 模型 ID 為 veo3.1-pro 和 veo3.1。
1)文字→影片(新一代)
用例: 根據劇本或創意提示,創作一個全新的短片。
流:
- 準備一份清晰的文字提示,包括場景描述、鏡頭方向和音訊提示(對話或音效)。
- 給雙子座打電話 產生影片 使用 Veo 3.1 模型的端點。
- 輪詢長時間運行的操作,直到生成完成,下載生成的 MP4 文件,然後進行審查和迭代。
簡單的Python範例(文字→影片):
使用官方的谷歌 格奈 這是一個 Python 客戶端。以下程式碼片段示範如何使用 Veo 3.1 根據提示產生短影片。
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) 圖片 → 影片(將來源影像製作成動畫)
用例: 將產品照片、人物肖像或單張照片製作成短片。
流:
- 產生或選擇初始影像(可由 Nano Banana 等影像模型產生)。
- 上傳圖片為
image參數和調用generate_videos(可選)referenceImages或lastFrame用於插值。 - 檢索和審查;迭代提示或圖像資源。
Python圖片→影片片段(圖像單獨產生):
Veo 3.1 最實用的功能之一是 參考影像:提供最多 3 張圖片(人物、產品、物體),以便產生的影片在影格之間保持該外觀。
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
實用技巧:
- 最好選擇清晰、光線充足且能從有效角度拍攝主體的參考圖片。
- 在多鏡頭序列中,使用參考資料來保持產品標誌、服裝或角色臉部的一致性。
- 避免使用未經許可的受版權保護的圖片或私人照片。
3) 影片對影片/擴充(繼續或重拍)
用例: 延長已產生的片段或繼續執行超出其結尾的動作,或使用先前產生的影片作為重新編輯的基礎。
流:
- 提供產生的影片。
video輸入並編寫一個提示,描述影片應該如何繼續(例如,「繼續:主角打開門,走進光亮中」)。 - 使用擴充模式-Veo 3.1 會完成最後一秒的錄音並繼續播放。注意:如果最後一秒沒有音頻,語音擴展的可靠性會降低。
Python範例(擴展現有影片):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
工作流程說明反覆延長片段(將每個新產生的片段與前一個片段的末端拼接起來)以建立更長的序列。注意避免偽影累積-定期重新錨定到高品質參考影格或重新產生部分片段以保持保真度。
4)逐幀編輯(首幀和末幀、參考圖像)
您可以製作一個從起始幀過渡到結束幀的影片。首先產生圖像(例如,使用 Gemini 圖像模型),然後將該圖像作為 image 傳遞,並在配置中設定 last_frame 以驅動插值。
用例: 你想要緊密的視覺連續性,或是想要在兩個指定的畫面之間進行動畫。
流:
- 產生或上傳第一幀和最後一幀。
- 致電 Veo 3.1
image=first_frameconfig.last_frame=last_frame. - 模型透過對這些幀進行插值,產生符合您提示的逼真動作和音訊。
為什麼這很重要: 為了實現創作控制,首幀/末幀功能可以讓你精確定義開始/結束的攝影機取景和構圖,這對於視覺特效、連續性或敘事節奏至關重要。
Python(圖片→影片)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
這樣就可以在兩個已定義的視覺錨點之間實現平滑插值。
Veo 3.1 最適用的提示和輸入策略是什麼?
Veo 3.1 對結構化的提示反應最佳,這些提示應清晰地描述視覺構成、動態效果、聲音和情緒基調。谷歌針對 Veo 3.1 的「提示指南」推薦了一些具體要素;以下是一個簡要清單:
簡要解剖學知識(建議)
- 主要場景 — 簡潔的句子:誰/什麼,主要動作。
- 相機描述 — 特寫/廣角/推拉/穩定/手持,攝影機運動和構圖。
- 時機和節奏 — 如果需要精確控制,可以使用「緩慢」、「電影般的 24fps 感覺」或幀數等簡短提示。
- 音訊提示 — 指定背景環境音、特定音效或對話(以引號括起來)。 Veo 3.1 可以合成原生音訊。
- 風格與參考 - 包括
referenceImages或提及攝影/電影風格:「黑色電影、高對比、柯達 500 的感覺」。 - 負面提示 — 具體說明你 別 想要(例如,「不要標誌,不要文字,不要卡通風格」)以減少不必要的後果。
使用參考影像
影像引導和首/末幀插值是 Veo 3.1 的功能。一個常用的高品質處理流程如下:
- 使用影像模型(Nano Banana 或 Gemini 影像模型)產生或最佳化靜態素材,參考 1-3 張影像定義持久主體(人物、產品)的外觀/風格。 Veo 在參考素材的指導下,能夠很好地保留主體外觀。
- 將這些素材組合成參考影像(或第一幀/最後一幀)。
- 呼叫 Veo 3.1 進行視訊產生/插值/擴充。
- (可選)後處理 使用標準視訊工具(Premiere、DaVinci Resolve)進行(調色、壓縮、手動編輯)。
標記、長度和解析度的考慮
- Veo 3.1 的文字輸入有字數限制(例如,某些預覽版本限制為約 1,024 個字),輸出通常是一個短視頻(示例通常為 8 秒);請盡量簡潔並迭代編寫。如有需要,可將多個產生的影片片段拼接起來以製作更長的內容。
結論—Veo 3.1 為創作者和編輯者帶來了哪些變化
Veo 3.1 代表短視訊、原生音訊 AI 視訊生成領域的實質飛躍。它不僅僅是一個生成器:它正在成為… 編輯助理 在 Flow 和 Gemini Studio 等工具中,創作者可以進行精細的編輯(例如插入/移除物體、重拍鏡頭),同時也能重複使用相同的生成式基元。對於開發人員和後製團隊而言,建議的方法是迭代式的:使用 API 產生和擴展短鏡頭,使用參考影格來確保鏡頭的連續性,最後使用傳統工具進行合成和音訊混音。
開發人員可以訪問 Veo 3.1 API Gemini 3 Pro 影像(Nano Banana Pro) 透過 CometAPI。首先,探討 CometAPI 的建模功能。 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 COMetAPI 提供遠低於官方價格的價格,幫助您整合。
準備出發了嗎? → 立即註冊 CometAPI !
