如何使用 Veo 3.1 編輯視頻

CometAPI
AnnaNov 30, 2025
如何使用 Veo 3.1 編輯視頻

谷歌公開介紹了 維奧 3.1 (和 Veo 3.1 Fast 該變體)將於 2025 年 10 月中旬推出,作為改進的文本轉視頻模型,可產生更高保真度的短視頻片段。 原生音訊更好的及時回應,以及新的編輯功能,例如: 場景/剪輯擴展, 幀間插值影像引導 生成(最多使用三張參考影像)。 Veo 3.1 可透過以下方式取得: API出現在 雙子座 應用程式和 這是一個創意工具,並透過以下方式向企業開發人員開放: 頂點人工智能 以及 Google AI Studio(可用性因平台和套餐而異)。 Flow 的整合帶來了更多 UI 編輯控制項(光照/陰影、物件插入/移除功能即將推出),同時 API 為開發者提供了程式化產生和擴充功能。

我將提供一份關於如何透過 Veo 3.1(Flow、CometAPI/Gemini API — 逐步解說)編輯影片的指南。

Veo 3.1 的功能是什麼?它來自哪裡?

Veo 3.1 是Google生成式視訊模型 (Veo) 系列的最新版本,旨在將文字提示(以及可選的圖像或現有視訊幀)轉換為簡短、連貫、逼真或風格化的視訊片段,並配以合成音訊(對話、環境音效、音效)。 3.1 版本更新重點在於: 更逼真, 更豐富的原生音訊用於連續性的工具 (場景擴展和幀插值),將 Veo 定位為以影片為中心的,與 Google 的文字和圖像模型相對應。

3.1 版本的主要升級包括:

  • 將產生的片段進行原生音訊和對話合成(無需單獨的語音管道)。
  • 逐幀插值(第一幀和最後一幀驅動產生的片段)。
  • 影像引導產生(使用最多三個參考影像以保持角色/風格的一致性)。
  • 場景擴展(透過產生連接片段來保持連續性,這些連接片段以先前片段的最後一秒為種子)。
  • 更好的及時響應和改進的電影控制。

Veo 3.1 在哪裡運行?

Veo 3.1 已在 Google 上提供。 API (付費預覽) Vertex AI / 模型花園, Gemini 行動/網頁應用並已整合到 Flow 和 Veo Studio 演示中。 彗星API 也已開始整合 Veo。

如何使用 Flow 中的 Veo 3.1 編輯影片? (逐步指南)

以下我將介紹最常見的程式化和使用者介面工作流程:在 Flow 中編輯(創建者使用者介面)、使用 Gemini 應用程式(快速產生)以及以程式設計方式使用 Gemini API / Vertex AI(用於生產和自動化)。

如何使用 Flow(創作者使用者介面)編輯影片?

這是谷歌面向電影製作人/創作者的創意用戶介面,它集成了 Veo 模型以進行生成。 一套編輯控制功能(光線、陰影、場景構圖、物件插入/移除工具)。在 Flow 中使用 Veo 3.1,您可以:

  • 產生或重新產生具有更豐富音訊的鏡頭。
  • 使用“視訊素材”(上傳參考圖片以保持一致的角色/風格)。
  • 使用場景擴展功能延長場景或將多個鏡頭串聯起來(將新片段連接到先前片段的結尾)。
  • 在使用者介面中實現基本物件插入和(即將)刪除功能。

如何在 Flow 中執行基本編輯(具體步驟)?

  1. 建立/產生您的種子片段(文字提示或圖像提示)。
  2. 使用時間軸選擇片段的結尾,然後選擇 延長 (場景擴展)會顯示新的提示,詢問是否繼續執行動作或新增動作。每次擴展都會增加一個小的跳躍動作,系統會將這些跳躍動作融合起來以保持動作的連貫性。
  3. 對於物件更改,請使用「插入」工具(描述要新增的項目及其位置)。對於刪除,請使用 Flow 的「刪除」工具(如有),並驗證合成工件。
  4. 匯出後,如果需要,可以在傳統的非線性編輯軟體(Premiere、DaVinci Resolve)中進行潤飾、添加字幕或精確剪輯。
    Flow 的設計旨在快速進行迭代式創意編輯;可以將其視為時間軸編輯和生成式替換的混合體。

如何透過 Veo 3.1 API 以程式設計方式編輯或產生視頻

程序化購買主要有兩種途徑:

  • Gemini API(生成式語言/Gemini SDK) — 用於直接呼叫 Veo 模型進行產生和擴充(範例在 Google 的 Gemini API 文件中提供)。
  • CometAPI(OpenAI格式/聊天)— CometAPI提供對以下方面的訪問 Gemini 3 Pro 影像(Nano Banana Pro),雙子座3專業版 此外,您還可以存取超過 100 個用於聊天、圖像、音樂和視訊生成的 AI 模型。 維奧 3.1 透過 OpenAI 風格的聊天視窗。

使用 Veo 3.1 進行編輯可以看作是幾個不同的流程。每個流程都將模型輸入(文字/圖像/視訊)與後製步驟結合,以獲得可用於生產的結果。

Veo 3.1 透過 API 公開。典型的模式是長時間運作的 generateVideos 操作-發布作業,輪詢操作,完成後下載輸出檔。

以下是簡化的可運行範例—請根據您的 API 金鑰和環境進行調整;請參閱您環境的 SDK 和驗證指南。

JavaScript (Node) 範例 — 產生與輪詢

此範例基於 Gemini API 的使用方式。

import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});

const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
  model: "veo-3.1-generate-preview",
  prompt,
});

// Poll
while (!operation.done) {
  console.log("Waiting...");
  await new Promise(r => setTimeout(r, 10000));
  operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos

這種模式(提交→投票→下載)是 Gemini 文件中的規範方法。

我可以用 curl/REST 來代替 Python SDK 嗎?

是的-官方網站上顯示的是 SDK,但底層的 veo 3.1 可以透過 REST 使用。不同環境下的實作方式有所不同(例如 Gemini API 與 CometAPI REST)。如果您選擇使用 curl,請確保遵循正確的身份驗證流程(使用 Google Cloud 的 Bearer 令牌或 CometAPI 金鑰),並使用與您的產品相關的影片產生端點。以下是 CometAPI 的偽 curl 範例(請根據您的身份驗證和端點進行調整):

curl "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "veo-3.1",
    "prompt": "A simple prompt describing the action",
    "config": {"aspect_ratio":"16:9","length_seconds":8}
  }' --output generated_response.json

重要確切的 REST URL 和有效負載結構取決於您是否使用 雙子座API or 彗星API 端點-發送請求前請查閱產品文件。 SDK 會為您處理許多身份驗證和輪詢細節。

如何使用 Veo 3.1 — 支援哪些工作流程?

以下我將逐步介紹使用 Veo 3.1 編輯時會用到的實用流程:使用者體驗流程(Flow/Gemini Studio)和程式化流程(Gemini API/Vertex API)。對於每個流程,我都會提供範例、注意事項以及可供複製的小段程式碼。

使用 Veo 3.1 進行編輯可以看作是幾個不同的流程。每個流程都將模型輸入(文字/圖像/視訊)與後製步驟結合,以獲得可用於生產的結果。

主要編輯工作流程

你會常用到以下三種實用編輯流程:

  1. 文字驅動的編輯和重新生成 — 透過重寫提示或對相同場景套用新指令來改變鏡頭。
  2. 參考影像引導編輯 (「影片素材」)— 您可以提供最多 3 張圖片,以在產生的影格中保留角色或物件。
  3. 幀插值(首幀和末幀) — 提供開始影像和結束影像,Veo 會產生它們之間的過渡序列(如果需要,也可以添加音訊)。
  4. 場景擴充 — 透過產生一個連接片段來擴展現有的 Veo 產生的(或其他)片段,該連接片段從前一個片段的最後一秒繼續。
  5. 物件插入/刪除和其他流程編輯工具 — 一些 Flow UI 功能(物件插入/刪除、塗鴉提示、相機角度重拍)是在 Veo 功能的基礎上添加的,可以幫助在 GUI 中進行幀級修飾。

注意事項與提示:請使用適當的驗證方式(Gemini API 金鑰/CometAPI API 金鑰)。範例使用的是 veo-3.1-generate-preview 模型-不同 SDK 版本和地區的模型 ID 和參數名稱可能略有不同;CometAPI 的 veo 3.1 模型 ID 為 veo3.1-pro 和 veo3.1。

1)文字→影片(新一代)

用例: 根據劇本或創意提示,創作一個全新的短片。

流:

  1. 準備一份清晰的文字提示,包括場景描述、鏡頭方向和音訊提示(對話或音效)。
  2. 給雙子座打電話 產生影片 使用 Veo 3.1 模型的端點。
  3. 輪詢長時間運行的操作,直到生成完成,下載生成的 MP4 文件,然後進行審查和迭代。

簡單的Python範例(文字→影片):

使用官方的谷歌 格奈 這是一個 Python 客戶端。以下程式碼片段示範如何使用 Veo 3.1 根據提示產生短影片。

# Requires google-genai Python client configured with credentials

import time
from google import genai

client = genai.Client()

prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
)

# Poll until done

while not operation.done:
    print("Waiting for generation...")
    time.sleep(8)
    operation = client.operations.get(operation)

# Save video

generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")

2) 圖片 → 影片(將來源影像製作成動畫)

用例: 將產品照片、人物肖像或單張照片製作成短片。

流:

  1. 產生或選擇初始影像(可由 Nano Banana 等影像模型產生)。
  2. 上傳圖片為 image 參數和調用 generate_videos(可選) referenceImageslastFrame 用於插值。
  3. 檢索和審查;迭代提示或圖像資源。

Python圖片→影片片段(圖像單獨產生):

Veo 3.1 最實用的功能之一是 參考影像:提供最多 3 張圖片(人物、產品、物體),以便產生的影片在影格之間保持該外觀。

# Python: use reference images with Veo 3.1

from google import genai
from google.genai import types
client = genai.Client()

prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."

# reference_image_* can be binary content or file references depending on the SDK

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=,  # up to 3

        aspect_ratio="16:9",
        length_seconds=8
    ),
)

# handle operation result and download as earlier example

實用技巧:

  • 最好選擇清晰、光線充足且能從有效角度拍攝主體的參考圖片。
  • 在多鏡頭序列中,使用參考資料來保持產品標誌、服裝或角色臉部的一致性。
  • 避免使用未經許可的受版權保護的圖片或私人照片。

3) 影片對影片/擴充(繼續或重拍)

用例: 延長已產生的片段或繼續執行超出其結尾的動作,或使用先前產生的影片作為重新編輯的基礎。

流:

  1. 提供產生的影片。 video 輸入並編寫一個提示,描述影片應該如何繼續(例如,「繼續:主角打開門,走進光亮中」)。
  2. 使用擴充模式-Veo 3.1 會完成最後一秒的錄音並繼續播放。注意:如果最後一秒沒有音頻,語音擴展的可靠性會降低。

Python範例(擴展現有影片):

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    video=previous_generated_video,  # a Video object from previous generation

    prompt="Extend: The paraglider slowly descends and lands by a meadow.",
    config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...

工作流程說明反覆延長片段(將每個新產生的片段與前一個片段的末端拼接起來)以建立更長的序列。注意避免偽影累積-定期重新錨定到高品質參考影格或重新產生部分片段以保持保真度。


4)逐幀編輯(首幀和末幀、參考圖像)

您可以製作一個從起始幀過渡到結束幀的影片。首先產生圖像(例如,使用 Gemini 圖像模型),然後將該圖像作為 image 傳遞,並在配置中設定 last_frame 以驅動插值。

用例: 你想要緊密的視覺連續性,或是想要在兩個指定的畫面之間進行動畫。

流:

  1. 產生或上傳第一幀和最後一幀。
  2. 致電 Veo 3.1 image=first_frame config.last_frame=last_frame.
  3. 模型透過對這些幀進行插值,產生符合您提示的逼真動作和音訊。

為什麼這很重要: 為了實現創作控制,首幀/末幀功能可以讓你精確定義開始/結束的攝影機取景和構圖,這對於視覺特效、連續性或敘事節奏至關重要。

Python(圖片→影片)

# Step 1: make an image (using a Gemini image model)

image_resp = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents="A stylized watercolor painting of a fox in a moonlit forest",
    config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Transition to a fox bounding across snow toward the camera.",
    image=first_image,
    config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...

這樣就可以在兩個已定義的視覺錨點之間實現平滑插值。

Veo 3.1 最適用的提示和輸入策略是什麼?

Veo 3.1 對結構化的提示反應最佳,這些提示應清晰地描述視覺構成、動態效果、聲音和情緒基調。谷歌針對 Veo 3.1 的「提示指南」推薦了一些具體要素;以下是一個簡要清單:

簡要解剖學知識(建議)

  • 主要場景 — 簡潔的句子:誰/什麼,主要動作。
  • 相機描述 — 特寫/廣角/推拉/穩定/手持,攝影機運動和構圖。
  • 時機和節奏 — 如果需要精確控制,可以使用「緩慢」、「電影般的 24fps 感覺」或幀數等簡短提示。
  • 音訊提示 — 指定背景環境音、特定音效或對話(以引號括起來)。 Veo 3.1 可以合成原生音訊。
  • 風格與參考 - 包括 referenceImages 或提及攝影/電影風格:「黑色電影、高對比、柯達 500 的感覺」。
  • 負面提示 — 具體說明你 想要(例如,「不要標誌,不要文字,不要卡通風格」)以減少不必要的後果。

使用參考影像

影像引導和首/末幀插值是 Veo 3.1 的功能。一個常用的高品質處理流程如下:

  • 使用影像模型(Nano Banana 或 Gemini 影像模型)產生或最佳化靜態素材,參考 1-3 張影像定義持久主體(人物、產品)的外觀/風格。 Veo 在參考素材的指導下,能夠很好地保留主體外觀。
  • 將這些素材組合成參考影像(或第一幀/最後一幀)。
  • 呼叫 Veo 3.1 進行視訊產生/插值/擴充。
  • (可選)後處理 使用標準視訊工具(Premiere、DaVinci Resolve)進行(調色、壓縮、手動編輯)。

標記、長度和解析度的考慮

  • Veo 3.1 的文字輸入有字數限制(例如,某些預覽版本限制為約 1,024 個字),輸出通常是一個短視頻(示例通常為 8 秒);請盡量簡潔並迭代編寫。如有需要,可將多個產生的影片片段拼接起來以製作更長的內容。

結論—Veo 3.1 為創作者和編輯者帶來了哪些變化

Veo 3.1 代表短視訊、原生音訊 AI 視訊生成領域的實質飛躍。它不僅僅是一個生成器:它正在成為… 編輯助理 在 Flow 和 Gemini Studio 等工具中,創作者可以進行精細的編輯(例如插入/移除物體、重拍鏡頭),同時也能重複使用相同的生成式基元。對於開發人員和後製團隊而言,建議的方法是迭代式的:使用 API 產生和擴展短鏡頭,使用參考影格來確保鏡頭的連續性,最後使用傳統工具進行合成和音訊混音。

開發人員可以訪問 Veo 3.1 API Gemini 3 Pro 影像(Nano Banana Pro) 透過 CometAPI。首先,探討 CometAPI 的建模功能。 游乐场 並諮詢  API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 COMetAPI 提供遠低於官方價格的價格,幫助您整合。

準備出發了嗎? → 立即註冊 CometAPI !

如果您想了解更多有關 AI 的提示、指南和新聞,請關注我們 VKX   不和!

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣