Veo 3.1 的技術規格
| 項目 | Veo 3.1(公開規格) |
|---|---|
| 官方模型 ID | veo-3.1-generate-001 |
| 提供者 | Google DeepMind / Google Cloud |
| 模型類型 | 文字轉影片與影像轉影片生成 |
| 輸入類型 | 文字提示、影像輸入、首影格+末影格引導 |
| 輸出類型 | AI 生成影片 |
| 支援的解析度 | 720p 與 1080p,4K |
| 支援的長寬比 | 16:9 與 9:16 |
| 支援的影格率 | 24 FPS |
| 影片時長 | 4s、6s 或 8s 片段(取決於模式) |
| 提示語言 | 英文 |
| 每次請求的影片數量 | 最多 4 個 |
| API 速率限制 | 每專案每分鐘最多 50 次請求 |
| 支援的部署 | Vertex AI、Gemini 生態系整合、Flow |
| 不支援的功能(官方文件) | 動態共享額度、部分參考影像工作流程、標準 API 流程中的原生影片延伸 |
什麼是 Veo 3.1?
Veo 3.1 是 Google 的旗艦級生成式影片模型系列,專注於電影級畫質的影片合成、更強的提示遵循、更好的場景一致性,以及多模態的影片創作工作流程。它超越了傳統的文字轉影片,支援影像引導的生成與由影格控制的敘事工作流程。官方支援包含文字轉影片、影像轉影片、提示重寫,以及首/末影格生成等工作流程。
核心功能
Veo 3.1 著重於實用的內容創作功能:
- 原生音訊產生(對白、環境音、音效)整合於輸出中。Veo 3.1 會產生與視覺時間線對齊的原生音訊(對白+環境+音效);模型旨在對對白與場景提示維持口型同步與音畫對齊。
- 更長的輸出(相較於 Veo 3 的超短片段 8s,支援最長約 60 秒/1080p),以及多提示多鏡頭序列以維持敘事連貫性。
- 場景延伸與首/末影格模式,可在關鍵影格之間延展或插值畫面。
- 在 Flow 中提供物件插入及(即將推出的)物件移除與基本編輯功能。
以上各點旨在減少手動 VFX 工作:音訊與場景連貫性如今是主要輸出,而非事後補充。
技術細節(模型行為與輸入)
模型家族與變體:Veo 隸屬於 Google 的 Veo-3 系列;預覽模型 ID 通常為 veo3.1-pro;veo3.1(CometAPI 文件)。它可接收文字提示、影像參考(單一影格或序列),以及用於多鏡頭生成的結構化多提示版面配置。
解析度與時長:預覽文件描述輸出為720p/1080p,提供更長時長選項(在某些預覽設定中可達約 60 秒),且相較早期 Veo 版本具有更高保真度。
長寬比:16:9(支援)與9:16(除部分參考影像流程外支援)。
**提示語言:**英文(預覽)。
API 限制:典型預覽限制包含每專案每分鐘最多 10 次 API 請求、每次請求最多 4 部影片,以及影片長度可於4、6、或 8 秒中選擇(參考影像流程支援 8s)。
基準表現
Google 的內部與對外彙整評估顯示,在文字對齊、視覺品質與音畫一致性(文字→影片與影像→影片任務)等指標的人類評測比較中,對 Veo 3.1 的偏好度顯著更高。
Veo 3.1 在多個客觀面向的人類評測比較中達到最先進表現——整體偏好、提示對齊(文字→影片與影像→影片)、視覺品質、音畫對齊,以及在 MovieGenBench 與 VBench 等基準上的「視覺寫實物理」。
限制與安全考量
限制:
- **偽影與不一致:**儘管已改進,特定光照、細緻的物理效果與複雜遮擋仍可能產生偽影;影像→影片的一致性(尤其長時長)有所提升但仍不完美。
- **錯誤資訊/深偽風險:**更豐富的音訊+物件插入/移除提升了被濫用的風險(更擬真的假音訊與延長片段)。Google 提到緩解措施(政策、保護機制),且早期 Veo 發布曾引用水印/SynthID 以協助來源追溯;然而技術防護無法完全消除濫用風險。
- **成本與吞吐限制:**高解析度、長影片的計算成本高,目前在付費預覽中受到門檻限制——相較影像模型,預期更高的延遲與成本。社群貼文與 Google 論壇討論可用時段與回退策略。
**安全控制:**Veo3.1 整合內容政策,早期 Veo 版本具備 watermarking/synthID 標示,以及預覽存取控管;建議用戶遵循平台政策,對高風險輸出實施人工審查。
實際使用情境
- 創作者的快速原型製作:分鏡→多鏡頭片段與動態分鏡(animatics),並帶原生對白以供早期創意審看。
- **行銷與短內容:**15–60 秒的產品廣告、社群短片與概念預告,適用於速度比完美寫實更重要的場景。
- 影像→影片改編:透過首/末影格與場景延伸,將插畫、角色或兩個影格轉換成平順轉場或動畫場景。
- **工具增強:**整合至 Flow 以進行迭代式編輯(物件插入/移除、光照預設),降低手動 VFX 工序。
與其他領先模型的比較
Veo 3.1 vs Veo 3(前代):Veo 3.1 聚焦於更好的提示遵循、音訊品質與多鏡頭一致性——屬於漸進但有影響力的更新,旨在減少偽影並提升可編輯性。
Veo 3.1 vs OpenAI Sora 2:媒體報導的權衡點:Veo 3.1 強調更長篇的敘事控制、整合音訊、以及 Flow 編輯整合;Sora 2(媒體比較中)著重於不同優勢(速度、不同編輯流程)。TechRadar 等媒體將 Veo 3.1 定位為 Google 針對 Sora 2 的敘事與長影片支援競品。目前獨立的並排測試仍有限。
| 能力 | Veo 3.1 | Sora 2 | Runway Gen-4 / Gen-4.5 |
|---|---|---|---|
| 原生直向輸出 | 是 | 有限的工作流程支援 | 是 |
| 影像轉影片 | 是 | 是 | 是 |
| 音訊整合重點 | 強 | 中等 | 中等 |
| 影格條件化 | 是 | 是 | 部分 |
| 社群影片最佳化 | 強 | 中等 | 強 |
| API 生態系整合 | Google 生態系 | OpenAI 生態系 | 創作者工具生態系 |
如何透過 CometAPI 使用 Veo 3.1 API?
- 建立 CometAPI API 金鑰
- 選擇
veo-3.1-generate-001作為模型端點 - 透過影片生成 API 傳送提示或影像輸入
- 輪詢結果並擷取生成的影片
- 迭代調整提示以改進鏡頭運動、場景連貫性與一致性