如何使用 Veo 3.1 編輯視頻

谷歌公開介紹了 維奧 3.1 （和 Veo 3.1 Fast 該變體）將於 2025 年 10 月中旬推出，作為改進的文本轉視頻模型，可產生更高保真度的短視頻片段。 原生音訊更好的及時回應，以及新的編輯功能，例如： 場景/剪輯擴展, 幀間插值和 影像引導 生成（最多使用三張參考影像）。 Veo 3.1 可透過以下方式取得： API出現在 雙子座 應用程式和流這是一個創意工具，並透過以下方式向企業開發人員開放： 頂點人工智能 以及 Google AI Studio（可用性因平台和套餐而異）。 Flow 的整合帶來了更多 UI 編輯控制項（光照/陰影、物件插入/移除功能即將推出），同時 API 為開發者提供了程式化產生和擴充功能。

我將提供一份關於如何透過 Veo 3.1（Flow、CometAPI/Gemini API — 逐步解說）編輯影片的指南。

Veo 3.1 的功能是什麼？它來自哪裡？

Veo 3.1 是Google生成式視訊模型 (Veo) 系列的最新版本，旨在將文字提示（以及可選的圖像或現有視訊幀）轉換為簡短、連貫、逼真或風格化的視訊片段，並配以合成音訊（對話、環境音效、音效）。 3.1 版本更新重點在於： 更逼真, 更豐富的原生音訊和 用於連續性的工具 （場景擴展和幀插值），將 Veo 定位為以影片為中心的，與 Google 的文字和圖像模型相對應。

3.1 版本的主要升級包括：

將產生的片段進行原生音訊和對話合成（無需單獨的語音管道）。
逐幀插值（第一幀和最後一幀驅動產生的片段）。
影像引導產生（使用最多三個參考影像以保持角色/風格的一致性）。
場景擴展（透過產生連接片段來保持連續性，這些連接片段以先前片段的最後一秒為種子）。
更好的及時響應和改進的電影控制。

Veo 3.1 在哪裡運行？

Veo 3.1 已在 Google 上提供。 API （付費預覽） Vertex AI / 模型花園, Gemini 行動/網頁應用並已整合到 Flow 和 Veo Studio 演示中。彗星API 也已開始整合 Veo。

如何使用 Flow 中的 Veo 3.1 編輯影片？（逐步指南）

以下我將介紹最常見的程式化和使用者介面工作流程：在 Flow 中編輯（創建者使用者介面）、使用 Gemini 應用程式（快速產生）以及以程式設計方式使用 Gemini API / Vertex AI（用於生產和自動化）。

如何使用 Flow（創作者使用者介面）編輯影片？

流這是谷歌面向電影製作人/創作者的創意用戶介面，它集成了 Veo 模型以進行生成。一套編輯控制功能（光線、陰影、場景構圖、物件插入/移除工具）。在 Flow 中使用 Veo 3.1，您可以：

產生或重新產生具有更豐富音訊的鏡頭。
使用“視訊素材”（上傳參考圖片以保持一致的角色/風格）。
使用場景擴展功能延長場景或將多個鏡頭串聯起來（將新片段連接到先前片段的結尾）。
在使用者介面中實現基本物件插入和（即將）刪除功能。

如何在 Flow 中執行基本編輯（具體步驟）？

建立/產生您的種子片段（文字提示或圖像提示）。
使用時間軸選擇片段的結尾，然後選擇延長（場景擴展）會顯示新的提示，詢問是否繼續執行動作或新增動作。每次擴展都會增加一個小的跳躍動作，系統會將這些跳躍動作融合起來以保持動作的連貫性。
對於物件更改，請使用「插入」工具（描述要新增的項目及其位置）。對於刪除，請使用 Flow 的「刪除」工具（如有），並驗證合成工件。
匯出後，如果需要，可以在傳統的非線性編輯軟體（Premiere、DaVinci Resolve）中進行潤飾、添加字幕或精確剪輯。
Flow 的設計旨在快速進行迭代式創意編輯；可以將其視為時間軸編輯和生成式替換的混合體。

如何透過 Veo 3.1 API 以程式設計方式編輯或產生視頻

程序化購買主要有兩種途徑：

Gemini API（生成式語言/Gemini SDK） — 用於直接呼叫 Veo 模型進行產生和擴充（範例在 Google 的 Gemini API 文件中提供）。
CometAPI（OpenAI格式/聊天）— CometAPI提供對以下方面的訪問 Gemini 3 Pro 影像（Nano Banana Pro）,雙子座3專業版此外，您還可以存取超過 100 個用於聊天、圖像、音樂和視訊生成的 AI 模型。維奧 3.1 透過 OpenAI 風格的聊天視窗。

使用 Veo 3.1 進行編輯可以看作是幾個不同的流程。每個流程都將模型輸入（文字/圖像/視訊）與後製步驟結合，以獲得可用於生產的結果。

Veo 3.1 透過 API 公開。典型的模式是長時間運作的 generateVideos 操作－發布作業，輪詢操作，完成後下載輸出檔。

以下是簡化的可運行範例—請根據您的 API 金鑰和環境進行調整；請參閱您環境的 SDK 和驗證指南。

JavaScript (Node) 範例 — 產生與輪詢

此範例基於 Gemini API 的使用方式。

import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});

const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
  model: "veo-3.1-generate-preview",
  prompt,
});

// Poll
while (!operation.done) {
  console.log("Waiting...");
  await new Promise(r => setTimeout(r, 10000));
  operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos

這種模式（提交→投票→下載）是 Gemini 文件中的規範方法。

我可以用 curl/REST 來代替 Python SDK 嗎？

是的－官方網站上顯示的是 SDK，但底層的 veo 3.1 可以透過 REST 使用。不同環境下的實作方式有所不同（例如 Gemini API 與 CometAPI REST）。如果您選擇使用 curl，請確保遵循正確的身份驗證流程（使用 Google Cloud 的 Bearer 令牌或 CometAPI 金鑰），並使用與您的產品相關的影片產生端點。以下是 CometAPI 的偽 curl 範例（請根據您的身份驗證和端點進行調整）：

curl "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "veo-3.1",
    "prompt": "A simple prompt describing the action",
    "config": {"aspect_ratio":"16:9","length_seconds":8}
  }' --output generated_response.json

重要確切的 REST URL 和有效負載結構取決於您是否使用 雙子座API or 彗星API 端點－發送請求前請查閱產品文件。 SDK 會為您處理許多身份驗證和輪詢細節。

如何使用 Veo 3.1 — 支援哪些工作流程？

以下我將逐步介紹使用 Veo 3.1 編輯時會用到的實用流程：使用者體驗流程（Flow/Gemini Studio）和程式化流程（Gemini API/Vertex API）。對於每個流程，我都會提供範例、注意事項以及可供複製的小段程式碼。

使用 Veo 3.1 進行編輯可以看作是幾個不同的流程。每個流程都將模型輸入（文字/圖像/視訊）與後製步驟結合，以獲得可用於生產的結果。

主要編輯工作流程

你會常用到以下三種實用編輯流程：

文字驅動的編輯和重新生成 — 透過重寫提示或對相同場景套用新指令來改變鏡頭。
參考影像引導編輯 （「影片素材」）— 您可以提供最多 3 張圖片，以在產生的影格中保留角色或物件。
幀插值（首幀和末幀） — 提供開始影像和結束影像，Veo 會產生它們之間的過渡序列（如果需要，也可以添加音訊）。
場景擴充 — 透過產生一個連接片段來擴展現有的 Veo 產生的（或其他）片段，該連接片段從前一個片段的最後一秒繼續。
物件插入/刪除和其他流程編輯工具 — 一些 Flow UI 功能（物件插入/刪除、塗鴉提示、相機角度重拍）是在 Veo 功能的基礎上添加的，可以幫助在 GUI 中進行幀級修飾。

注意事項與提示：請使用適當的驗證方式（Gemini API 金鑰/CometAPI API 金鑰）。範例使用的是 veo-3.1-generate-preview 模型－不同 SDK 版本和地區的模型 ID 和參數名稱可能略有不同；CometAPI 的 veo 3.1 模型 ID 為 veo3.1-pro 和 veo3.1。

1）文字→影片（新一代）

用例： 根據劇本或創意提示，創作一個全新的短片。

流：

準備一份清晰的文字提示，包括場景描述、鏡頭方向和音訊提示（對話或音效）。
給雙子座打電話 產生影片 使用 Veo 3.1 模型的端點。
輪詢長時間運行的操作，直到生成完成，下載生成的 MP4 文件，然後進行審查和迭代。

簡單的Python範例（文字→影片）：

使用官方的谷歌格奈這是一個 Python 客戶端。以下程式碼片段示範如何使用 Veo 3.1 根據提示產生短影片。

# Requires google-genai Python client configured with credentials

import time
from google import genai

client = genai.Client()

prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
)

# Poll until done

while not operation.done:
    print("Waiting for generation...")
    time.sleep(8)
    operation = client.operations.get(operation)

# Save video

generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")

2) 圖片 → 影片（將來源影像製作成動畫）

用例： 將產品照片、人物肖像或單張照片製作成短片。

流：

產生或選擇初始影像（可由 Nano Banana 等影像模型產生）。
上傳圖片為 image 參數和調用 generate_videos（可選） referenceImages 或 lastFrame 用於插值。
檢索和審查；迭代提示或圖像資源。

Python圖片→影片片段（圖像單獨產生）：

Veo 3.1 最實用的功能之一是 參考影像：提供最多 3 張圖片（人物、產品、物體），以便產生的影片在影格之間保持該外觀。

# Python: use reference images with Veo 3.1

from google import genai
from google.genai import types
client = genai.Client()

prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."

# reference_image_* can be binary content or file references depending on the SDK

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=,  # up to 3

        aspect_ratio="16:9",
        length_seconds=8
    ),
)

# handle operation result and download as earlier example

實用技巧:

最好選擇清晰、光線充足且能從有效角度拍攝主體的參考圖片。
在多鏡頭序列中，使用參考資料來保持產品標誌、服裝或角色臉部的一致性。
避免使用未經許可的受版權保護的圖片或私人照片。

3) 影片對影片/擴充（繼續或重拍）

用例： 延長已產生的片段或繼續執行超出其結尾的動作，或使用先前產生的影片作為重新編輯的基礎。

流：

提供產生的影片。 video 輸入並編寫一個提示，描述影片應該如何繼續（例如，「繼續：主角打開門，走進光亮中」）。
使用擴充模式－Veo 3.1 會完成最後一秒的錄音並繼續播放。注意：如果最後一秒沒有音頻，語音擴展的可靠性會降低。

Python範例（擴展現有影片）：

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    video=previous_generated_video,  # a Video object from previous generation

    prompt="Extend: The paraglider slowly descends and lands by a meadow.",
    config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...

工作流程說明反覆延長片段（將每個新產生的片段與前一個片段的末端拼接起來）以建立更長的序列。注意避免偽影累積－定期重新錨定到高品質參考影格或重新產生部分片段以保持保真度。

4）逐幀編輯（首幀和末幀、參考圖像）

您可以製作一個從起始幀過渡到結束幀的影片。首先產生圖像（例如，使用 Gemini 圖像模型），然後將該圖像作為 image 傳遞，並在配置中設定 last_frame 以驅動插值。

用例： 你想要緊密的視覺連續性，或是想要在兩個指定的畫面之間進行動畫。

流：

產生或上傳第一幀和最後一幀。
致電 Veo 3.1 image=first_frame config.last_frame=last_frame.
模型透過對這些幀進行插值，產生符合您提示的逼真動作和音訊。

為什麼這很重要： 為了實現創作控制，首幀/末幀功能可以讓你精確定義開始/結束的攝影機取景和構圖，這對於視覺特效、連續性或敘事節奏至關重要。

Python（圖片→影片）

# Step 1: make an image (using a Gemini image model)

image_resp = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents="A stylized watercolor painting of a fox in a moonlit forest",
    config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Transition to a fox bounding across snow toward the camera.",
    image=first_image,
    config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...

這樣就可以在兩個已定義的視覺錨點之間實現平滑插值。

Veo 3.1 最適用的提示和輸入策略是什麼？

Veo 3.1 對結構化的提示反應最佳，這些提示應清晰地描述視覺構成、動態效果、聲音和情緒基調。谷歌針對 Veo 3.1 的「提示指南」推薦了一些具體要素；以下是一個簡要清單：

簡要解剖學知識（建議）

主要場景 — 簡潔的句子：誰/什麼，主要動作。
相機描述 — 特寫/廣角/推拉/穩定/手持，攝影機運動和構圖。
時機和節奏 — 如果需要精確控制，可以使用「緩慢」、「電影般的 24fps 感覺」或幀數等簡短提示。
音訊提示 — 指定背景環境音、特定音效或對話（以引號括起來）。 Veo 3.1 可以合成原生音訊。
風格與參考 - 包括 referenceImages 或提及攝影/電影風格：「黑色電影、高對比、柯達 500 的感覺」。
負面提示 — 具體說明你別想要（例如，「不要標誌，不要文字，不要卡通風格」）以減少不必要的後果。

使用參考影像

影像引導和首/末幀插值是 Veo 3.1 的功能。一個常用的高品質處理流程如下：

使用影像模型（Nano Banana 或 Gemini 影像模型）產生或最佳化靜態素材，參考 1-3 張影像定義持久主體（人物、產品）的外觀/風格。 Veo 在參考素材的指導下，能夠很好地保留主體外觀。
將這些素材組合成參考影像（或第一幀/最後一幀）。
呼叫 Veo 3.1 進行視訊產生/插值/擴充。
（可選）後處理 使用標準視訊工具（Premiere、DaVinci Resolve）進行（調色、壓縮、手動編輯）。

標記、長度和解析度的考慮

Veo 3.1 的文字輸入有字數限制（例如，某些預覽版本限制為約 1,024 個字），輸出通常是一個短視頻（示例通常為 8 秒）；請盡量簡潔並迭代編寫。如有需要，可將多個產生的影片片段拼接起來以製作更長的內容。

結論—Veo 3.1 為創作者和編輯者帶來了哪些變化

Veo 3.1 代表短視訊、原生音訊 AI 視訊生成領域的實質飛躍。它不僅僅是一個生成器：它正在成為… 編輯助理 在 Flow 和 Gemini Studio 等工具中，創作者可以進行精細的編輯（例如插入/移除物體、重拍鏡頭），同時也能重複使用相同的生成式基元。對於開發人員和後製團隊而言，建議的方法是迭代式的：使用 API 產生和擴展短鏡頭，使用參考影格來確保鏡頭的連續性，最後使用傳統工具進行合成和音訊混音。

開發人員可以訪問 Veo 3.1 API Gemini 3 Pro 影像（Nano Banana Pro）透過 CometAPI。首先，探討 CometAPI 的建模功能。游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 COM e tAPI 提供遠低於官方價格的價格，幫助您整合。

準備出發了嗎？ → 立即註冊 CometAPI !

如果您想了解更多有關 AI 的提示、指南和新聞，請關注我們 VK, X 不和!

Veo 3.1 的功能是什麼？它來自哪裡？

Veo 3.1 在哪裡運行？

如何使用 Flow 中的 Veo 3.1 編輯影片？（逐步指南）

如何使用 Flow（創作者使用者介面）編輯影片？

如何在 Flow 中執行基本編輯（具體步驟）？

如何透過 Veo 3.1 API 以程式設計方式編輯或產生視頻

JavaScript (Node) 範例 — 產生與輪詢

我可以用 curl/REST 來代替 Python SDK 嗎？

如何使用 Veo 3.1 — 支援哪些工作流程？

主要編輯工作流程

1）文字→影片（新一代）

2) 圖片 → 影片（將來源影像製作成動畫）

3) 影片對影片/擴充（繼續或重拍）

4）逐幀編輯（首幀和末幀、參考圖像）

Python（圖片→影片）

Veo 3.1 最適用的提示和輸入策略是什麼？

簡要解剖學知識（建議）

使用參考影像

標記、長度和解析度的考慮

結論—Veo 3.1 為創作者和編輯者帶來了哪些變化

閱讀更多

一個 API 中超過 500 個模型

如何使用 Veo 3.1 編輯視頻

Veo 3.1 的功能是什麼？它來自哪裡？

Veo 3.1 在哪裡運行？

如何使用 Flow 中的 Veo 3.1 編輯影片？ （逐步指南）

如何使用 Flow（創作者使用者介面）編輯影片？

如何在 Flow 中執行基本編輯（具體步驟）？

如何透過 Veo 3.1 API 以程式設計方式編輯或產生視頻

JavaScript (Node) 範例 — 產生與輪詢

我可以用 curl/REST 來代替 Python SDK 嗎？

如何使用 Veo 3.1 — 支援哪些工作流程？

主要編輯工作流程

1）文字→影片（新一代）

2) 圖片 → 影片（將來源影像製作成動畫）

3) 影片對影片/擴充（繼續或重拍）

4）逐幀編輯（首幀和末幀、參考圖像）

Python（圖片→影片）

Veo 3.1 最適用的提示和輸入策略是什麼？

簡要解剖學知識（建議）

使用參考影像

標記、長度和解析度的考慮

結論—Veo 3.1 為創作者和編輯者帶來了哪些變化

閱讀更多

一個 API 中超過 500 個模型

如何使用 Flow 中的 Veo 3.1 編輯影片？（逐步指南）