如何使用 Veo 3.1 API

Veo 3.1 是 Google Veo 系列影片產生模型的最新版本。它帶來了更豐富的原生音訊、更出色的敘事和電影控制、多影像引導以及全新的編輯原語（首幀/末幀過渡、「素材」/參考影像以及場景擴展工作流程）。對於開發者而言，存取 Veo 3.1 的最快方式是 API（用於面向消費者的整合）和 Vertex AI（用於企業和雲端工作負載）。

Veo 3.1 API 是什麼？它的主要功能是什麼？

Veo 3.1 是 Google 推出的文字和影像→影片產生模型，旨在製作具有原生音訊（對話、環境提示和音效）的短小、高品質、具有電影質感的短片。此版本重點改進了提示的一致性、角色的一致性、音訊生成以及更精細的編輯控制（例如：首幀→末幀的過渡以及透過最多三個參考影像進行引導）。

主要功能（一覽）

文字→視頻：直接根據敘述提示（包括對話和音訊）產生影片。
圖片 → 影片：將圖像轉換為簡短的動畫場景。（）
參考影像（“視訊素材”）: 供應量高達 3 圖像（字元、物件、樣式）以保持輸出的視覺一致性。
首幀和末幀生成：創建連接兩個圖像的過渡（模型生成在它們之間平滑變形的幀，並帶有匹配的音頻）。
場景擴展工作流程：透過產生與先前視訊尾部相關的新剪輯來擴展現有剪輯的工具（注意：Gemini API 和 Vertex 預覽版之間的功能和支援有所不同 - 請參閱「條件」部分）。
原生音訊和音效：此模型可以合成與產生的視覺效果相符的語音、環境聲音和同步效果。

如何使用 Veo 3.1 API－有哪些先決條件和條件？

在呼叫 API 之前您需要什麼？

訪問和計費：Veo 3.1 目前處於付費預覽階段—請確保您擁有 API 金鑰或已啟用 Vertex AI 並設定結算功能的 Google Cloud 專案。預覽版中的部分功能和型號版本受地區限制。
配額和預覽限制：預覽模型通常對每個項目的請求速率有限制（例如：預覽版本每分鐘 10 個請求），每個請求的影片數量也有限制。請查看 Vertex AI / Gemini 文件中的模型頁面，以了解您帳戶的具體數量。
輸入資產和格式：您可以透過文字提示、單張或多張圖片生成，也可以透過引用 URI 來擴展現有的 Veo 生成的影片。對於影像轉影片的工作流程，請提供支援格式（URL 或字節，視端點而定）的圖片。
安全性和來源：產生的內容必須符合 Google 的內容政策。預覽版中可能會出現浮水印或使用標記；請做好在應用程式中處理來源和內容審核步驟的準備。

支援哪些身份驗證方法？

API密鑰：適用於 Gemini 託管的端點或第三方 API 平台的金鑰。我推薦 CometAPI，彗星API 提供遠低於官方價格的價格幫助您整合Veo 3.1 API(veo3.1-pro;veo3.1)
Google Cloud 憑證/ADC：對於 Vertex AI，請使用應用程式預設憑證（服務帳戶/gcloud auth）或附加到您的 Google Cloud 專案的 API 金鑰。

Veo 3.1 API 端點是什麼？哪些參數最重要？

簡短回答：您可以致電 CometAPI API 視訊產生端點（用於 CometAPI 託管的訪問， v1/chat/completions)。兩者都使用 JSON 請求主體來描述模型、提示符號和 video/output 配置；較大的視訊作業將作為長時間運行的操作返回。

常見端點（範例）：

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

典型請求參數（邏輯分解）

模型 — 目標型號識別碼（veo3.1-pro；veo3.1 名稱列於模型參考).
提示/輸入 — 人工文字描述場景；根據模型功能，可包含多個提示或多鏡頭指令。使用結構化提示來控制攝影機移動、時間、氛圍和音訊提示。
圖片參考 — 1-3 個圖像 URI 或 base64 圖像來指導物件/字元/樣式（Veo 3.1 支援多個圖像引用）。
視頻 — 用於擴展先前的 Veo 輸出（傳遞初始視訊 URI）。某些功能僅適用於 Veo 產生的影片。
持續時間/fps/解析度/寬高比 — 從支援的長度和格式中進行選擇（預覽模型列出了支援的持續時間和幀速率 - 例如，某些預覽文件中的 4、6、8 秒；擴展可能允許 Flow/Studio 中的更長輸出）。

什麼是高階使用模式和技術？

1）保持角色與參考影像的一致性

提供最多三張參考影像（臉部/姿勢/服裝），以便在多個生成的鏡頭中保持角色的外觀。典型流程：

上傳或內嵌編碼您的參考圖像。
把它們傳進去 config.reference_images 在生成每個鏡頭時。
使用相同的影像進行後續生成呼叫（或與種子值結合）以最大限度地提高視覺一致性。

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2）首幀和末幀的轉換（鏡頭合成）

使用 image （第一幀）+ config.last_frame 指示 Veo 合成中間運動。這對於電影轉場來說非常理想——它能產生自然的視覺插值和同步的音訊。

提供一個 第一幀 (image）和a 最後一幀 (lastFrame) 和 Veo 3.1 將在它們之間插入運動以產生平滑的過渡（帶有可選音頻）。 cURL（REST）範例 - 第一張 + 最後一張圖像：

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3）場景擴展（鍊式多代）

有兩種模式：

API/Flow 方法（預覽功能）：您將現有影片（傳回的影片物件或 URI）作為 video=video_to_extend 建立與前一個場景一致的後續剪輯。使用操作響應來捕捉 video.uri 並將其輸入到下一通電話中，以擴展敘述。注意：可用性和行為可能因平台而異，因此請在您選擇的平台上進行驗證。
頂點雲圖案：Vertex 的預覽模型具有更嚴格的文件限制（例如，當前預覽僅返回 4/6/8 秒的片段），因此要產生長達一分鐘的輸出，您必須連結多個請求並在應用程式中將它們拼接起來，或者使用引擎官方提供的場景擴展工具（如果可用）。請查看 Vertex 的「Veo 3.1 預覽」頁面，以了解目前支援清單。

取 之前由 Veo 生成的 影片並將其向前延伸（增加秒數），同時保持風格和連續性。此 API 要求輸入為 Veo 產生的影片（可能不支援任意 MP4 擴充）。您可以將影片的跳數延長 7 秒，直到達到記錄的限制（Veo 預覽限制適用）：

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4）音訊和對話控制

Veo 3.1 可根據提示產生原生音訊（包括語音和效果）。技巧：

將任何台詞放在提示中（將對話括在引號中）以鼓勵逼真的唇形同步。
加入音訊描述符（「從左到右的輕柔腳步聲」、「低沉的雷聲漸強」）來塑造音效和氛圍。
使用種子值在測試運行中重現相同的音訊/視訊結果。

5）測試的確定性輸出（種子）

如果您需要可重複的 CI 或 A/B 測試輸出，請提供 seed 參數（uint32）。更改提示或參考影像仍會改變結果；種子保證可重複性僅由當其他一切都相同時。

6）成本和效能優化

批量處理更少、更大的作業：在允許的情況下，設置 sampleCount 在一次請求中產生多個候選影片（1-4），以減少設定開銷。（）
快取參考圖像並重複使用種子 為了可重複性，這樣您就避免重新上傳大型二進位。
使用 Cloud Storage 輸出 （Vertex）用於較大的輸出尺寸，以避免在請求正文中傳回原始位元組。

7）與其他 Gemini 模型的多步驟管線

一個有用的流程：使用靜態影像產生器（例如，Gemini 影像模型）來建立資產→將最佳影像作為 image + referenceImages 升級到 Veo 3.1 → 使用文字模型迭代音訊/對話提示，產生旁白。 Gemini 文件明確展示了連結圖像生成和 Veo 呼叫的範例。

實用技巧、陷阱和最佳實踐

使用種子 當您希望在運行之間獲得確定性、可重複的輸出時（相同的提示+相同的引用+相同的種子→相同的生成）。
保持參考影像一致：相同的裁剪、相同的臉部角度、一致的服裝/背景有助於模特兒保持身份和風格。在不同的鏡頭中重複使用相同的三張圖片，以保持連續性。
優先使用 GCS URI 進行生產：將影像和輸出儲存在雲端儲存中可避免 base64 傳輸大小限制並簡化連結/擴展。
明確描述過渡和音頻：對於第一個/最後一個過渡，在提示中添加攝影機移動、節奏和 SFX/語音提示，以獲得更好的同步音訊。
首先測試短循環：在調整提示、種子和參考影像時，以短持續時間（4-8 秒）進行迭代，然後連結擴展以獲得更長的場景。
確認準確的欄位名稱：SDK 可以使用 reference_images （蛇形拼寫法）， referenceImages （駝峰式命名），或嵌套 image 具有 content / gcsUri。請檢查 SDK 文件或 Vertex 模型模式，以了解您使用的版本中的確切屬性名稱。

Veo 3.1 的價格是多少？如何計費？

Veo 3.1 已收費 每秒生成的視頻，谷歌還公開了多種變體（例如 標準版 快) 具有不同的每秒費率。已發布的開發者定價顯示了以下付費套餐費率範例： Veo 3.1 標準版每秒 0.40 美元 Veo 3.1 Fast 版每秒 0.15 美元。 Gemini 定價頁面也指出，只有成功產生影片時才會向您收費（失敗的嘗試可能不會收費）。

Veo 3.1 API CometAPI 定價


維奧3.1	0.4000
veo3.1-pro	2.0000

結論 — 為什麼 Veo 3.1 對開發者如此重要

Veo 3.1 是 AI 視訊生成領域的顯著飛躍：更豐富的原生音訊、參考影像引導以及全新的編輯原語，使其成為敘事、預視覺化和創意應用的更強大選擇。模型的特定功能在不同終端和預覽版本之間略有不同（例如，CometAPI 和 Gemini 之間的版本差異），因此請測試並驗證您打算使用的模型版本。本指南中的範例為原型設計和生產提供了實用的起點。

如何進入 Veo 3.1 API API

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 Veo 3.1 API 透過 CometAPI，最新型號版本始終與官方網站同步更新。首先，探索該模型的功能游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

準備出發了嗎？ → 立即註冊 CometAPI !

如果您想了解更多有關 AI 的提示、指南和新聞，請關注我們 VK, X 不和!