Veo 3.1 是 Google Veo 系列影片產生模型的最新版本。它帶來了更豐富的原生音訊、更出色的敘事和電影控制、多影像引導以及全新的編輯原語(首幀/末幀過渡、「素材」/參考影像以及場景擴展工作流程)。對於開發者而言,存取 Veo 3.1 的最快方式是 API(用於面向消費者的整合)和 Vertex AI(用於企業和雲端工作負載)。
Veo 3.1 API 是什麼?它的主要功能是什麼?
Veo 3.1 是 Google 推出的文字和影像→影片產生模型,旨在製作具有原生音訊(對話、環境提示和音效)的短小、高品質、具有電影質感的短片。此版本重點改進了提示的一致性、角色的一致性、音訊生成以及更精細的編輯控制(例如:首幀→末幀的過渡以及透過最多三個參考影像進行引導)。
主要功能(一覽)
- 文字→視頻:直接根據敘述提示(包括對話和音訊)產生影片。
- 圖片 → 影片:將圖像轉換為簡短的動畫場景。 ()
- 參考影像(“視訊素材”): 供應量高達 3 圖像(字元、物件、樣式)以保持輸出的視覺一致性。
- 首幀和末幀生成:創建連接兩個圖像的過渡(模型生成在它們之間平滑變形的幀,並帶有匹配的音頻)。
- 場景擴展工作流程:透過產生與先前視訊尾部相關的新剪輯來擴展現有剪輯的工具(注意:Gemini API 和 Vertex 預覽版之間的功能和支援有所不同 - 請參閱「條件」部分)。
- 原生音訊和音效:此模型可以合成與產生的視覺效果相符的語音、環境聲音和同步效果。
如何使用 Veo 3.1 API-有哪些先決條件和條件?
在呼叫 API 之前您需要什麼?
- 訪問和計費:Veo 3.1 目前處於付費預覽階段—請確保您擁有 API 金鑰或已啟用 Vertex AI 並設定結算功能的 Google Cloud 專案。預覽版中的部分功能和型號版本受地區限制。
- 配額和預覽限制:預覽模型通常對每個項目的請求速率有限制(例如:預覽版本每分鐘 10 個請求),每個請求的影片數量也有限制。請查看 Vertex AI / Gemini 文件中的模型頁面,以了解您帳戶的具體數量。
- 輸入資產和格式:您可以透過文字提示、單張或多張圖片生成,也可以透過引用 URI 來擴展現有的 Veo 生成的影片。對於影像轉影片的工作流程,請提供支援格式(URL 或字節,視端點而定)的圖片。
- 安全性和來源:產生的內容必須符合 Google 的內容政策。預覽版中可能會出現浮水印或使用標記;請做好在應用程式中處理來源和內容審核步驟的準備。
支援哪些身份驗證方法?
- API密鑰:適用於 Gemini 託管的端點或第三方 API 平台的金鑰。我推薦 CometAPI, 彗星API 提供遠低於官方價格的價格幫助您整合Veo 3.1 API(veo3.1-pro;veo3.1)
- Google Cloud 憑證/ADC:對於 Vertex AI,請使用應用程式預設憑證(服務帳戶/gcloud auth)或附加到您的 Google Cloud 專案的 API 金鑰。
Veo 3.1 API 端點是什麼?哪些參數最重要?
簡短回答:您可以致電 CometAPI API 視訊產生端點(用於 CometAPI 託管的訪問,
v1/chat/completions)。兩者都使用 JSON 請求主體來描述模型、提示符號和video/output配置;較大的視訊作業將作為長時間運行的操作返回。
常見端點(範例):
curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "veo3.1-pro",
"stream": true,
"messages":
}'
典型請求參數(邏輯分解)
- 模型 — 目標型號識別碼(veo3.1-pro;veo3.1 名稱列於 模型參考).
- 提示/輸入 — 人工文字描述場景;根據模型功能,可包含多個提示或多鏡頭指令。使用結構化提示來控制攝影機移動、時間、氛圍和音訊提示。
- 圖片參考 — 1-3 個圖像 URI 或 base64 圖像來指導物件/字元/樣式(Veo 3.1 支援多個圖像引用)。
- 視頻 — 用於 擴展 先前的 Veo 輸出(傳遞初始視訊 URI)。某些功能僅適用於 Veo 產生的影片。
- 持續時間/fps/解析度/寬高比 — 從支援的長度和格式中進行選擇(預覽模型列出了支援的持續時間和幀速率 - 例如,某些預覽文件中的 4、6、8 秒;擴展可能允許 Flow/Studio 中的更長輸出)。
什麼是高階使用模式和技術?
1)保持角色與參考影像的一致性
提供最多三張參考影像(臉部/姿勢/服裝),以便在多個生成的鏡頭中保持角色的外觀。典型流程:
- 上傳或內嵌編碼您的參考圖像。
- 把它們傳進去
config.reference_images在生成每個鏡頭時。 - 使用相同的影像進行後續生成呼叫(或與種子值結合)以最大限度地提高視覺一致性。
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'
2)首幀和末幀的轉換(鏡頭合成)
使用 image (第一幀)+ config.last_frame 指示 Veo 合成中間運動。這對於電影轉場來說非常理想——它能產生自然的視覺插值和同步的音訊。
提供一個 第一幀 (image)和a 最後一幀 (lastFrame) 和 Veo 3.1 將在它們之間插入運動以產生平滑的過渡(帶有可選音頻)。 cURL(REST)範例 - 第一張 + 最後一張圖像:
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'
3)場景擴展(鍊式多代)
有兩種模式:
- API/Flow 方法(預覽功能):您將現有影片(傳回的影片物件或 URI)作為
video=video_to_extend建立與前一個場景一致的後續剪輯。使用操作響應來捕捉video.uri並將其輸入到下一通電話中,以擴展敘述。注意:可用性和行為可能因平台而異,因此請在您選擇的平台上進行驗證。 - 頂點雲圖案:Vertex 的預覽模型具有更嚴格的文件限制(例如,當前預覽僅返回 4/6/8 秒的片段),因此要產生長達一分鐘的輸出,您必須連結多個請求並在應用程式中將它們拼接起來,或者使用引擎官方提供的場景擴展工具(如果可用)。請查看 Vertex 的「Veo 3.1 預覽」頁面,以了解目前支援清單。
取 之前由 Veo 生成的 影片並將其向前延伸(增加秒數),同時保持風格和連續性。此 API 要求輸入為 Veo 產生的影片(可能不支援任意 MP4 擴充)。您可以將影片的跳數延長 7 秒,直到達到記錄的限制(Veo 預覽限制適用):
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'
4)音訊和對話控制
Veo 3.1 可根據提示產生原生音訊(包括語音和效果)。技巧:
- 將任何台詞放在提示中(將對話括在引號中)以鼓勵逼真的唇形同步。
- 加入音訊描述符(「從左到右的輕柔腳步聲」、「低沉的雷聲漸強」)來塑造音效和氛圍。
- 使用種子值在測試運行中重現相同的音訊/視訊結果。
5)測試的確定性輸出(種子)
如果您需要可重複的 CI 或 A/B 測試輸出,請提供 seed 參數(uint32)。更改提示或參考影像仍會改變結果;種子保證可重複性 僅由 當其他一切都相同時。
6)成本和效能優化
- 批量處理更少、更大的作業:在允許的情況下,設置
sampleCount在一次請求中產生多個候選影片(1-4),以減少設定開銷。 () - 快取參考圖像並重複使用種子 為了可重複性,這樣您就避免重新上傳大型二進位。
- 使用 Cloud Storage 輸出 (Vertex)用於較大的輸出尺寸,以避免在請求正文中傳回原始位元組。
7)與其他 Gemini 模型的多步驟管線
一個有用的流程:使用靜態影像產生器(例如,Gemini 影像模型)來建立資產→將最佳影像作為 image + referenceImages 升級到 Veo 3.1 → 使用文字模型迭代音訊/對話提示,產生旁白。 Gemini 文件明確展示了連結圖像生成和 Veo 呼叫的範例。
實用技巧、陷阱和最佳實踐
- 使用種子 當您希望在運行之間獲得確定性、可重複的輸出時(相同的提示+相同的引用+相同的種子→相同的生成)。
- 保持參考影像一致:相同的裁剪、相同的臉部角度、一致的服裝/背景有助於模特兒保持身份和風格。在不同的鏡頭中重複使用相同的三張圖片,以保持連續性。
- 優先使用 GCS URI 進行生產:將影像和輸出儲存在雲端儲存中可避免 base64 傳輸大小限制並簡化連結/擴展。
- 明確描述過渡和音頻:對於第一個/最後一個過渡,在提示中添加攝影機移動、節奏和 SFX/語音提示,以獲得更好的同步音訊。
- 首先測試短循環:在調整提示、種子和參考影像時,以短持續時間(4-8 秒)進行迭代,然後連結擴展以獲得更長的場景。
- 確認準確的欄位名稱:SDK 可以使用
reference_images(蛇形拼寫法),referenceImages(駝峰式命名),或嵌套image具有content/gcsUri。請檢查 SDK 文件或 Vertex 模型模式,以了解您使用的版本中的確切屬性名稱。
Veo 3.1 的價格是多少?如何計費?
Veo 3.1 已收費 每秒生成的視頻,谷歌還公開了多種變體(例如 標準版 快) 具有不同的每秒費率。已發布的開發者定價顯示了以下付費套餐費率範例: Veo 3.1 標準版每秒 0.40 美元 Veo 3.1 Fast 版每秒 0.15 美元。 Gemini 定價頁面也指出,只有成功產生影片時才會向您收費(失敗的嘗試可能不會收費)。
Veo 3.1 API CometAPI 定價
| 維奧3.1 | 0.4000 |
| veo3.1-pro | 2.0000 |
結論 — 為什麼 Veo 3.1 對開發者如此重要
Veo 3.1 是 AI 視訊生成領域的顯著飛躍:更豐富的原生音訊、參考影像引導以及全新的編輯原語,使其成為敘事、預視覺化和創意應用的更強大選擇。模型的特定功能在不同終端和預覽版本之間略有不同(例如,CometAPI 和 Gemini 之間的版本差異),因此請測試並驗證您打算使用的模型版本。本指南中的範例為原型設計和生產提供了實用的起點。
如何進入 Veo 3.1 API API
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
開發人員可以訪問 Veo 3.1 API 透過 CometAPI, 最新型號版本 始終與官方網站同步更新。首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
準備出發了嗎? → 立即註冊 CometAPI !


