Google 的 Veo 3.1 於 1 月更新,帶來聚焦的改進,讓圖像轉影片工作流程更接近製作等級。3.1 版本圍繞四項實用升級,讓圖像→影片流程對創作者與開發者大幅更易用:強化的 “Ingredients to Video” 流水線,能從參考圖生成具動態的片段;更強的角色與場景一致性;原生直式(9:16)輸出以服務行動優先平台;以及新的高保真輸出選項,包括更佳的 1080p 與 4K 超解析度升級。對於一直以「先裁切再編輯」來適配社群直式格式的創作者與開發者,Veo 3.1 的原生 9:16 輸出與升級品質的提升,有望降低摩擦並產出更精緻、可即刻上平台的片段。
對開發者與媒體專業人士而言,Veo 3.1 不僅僅是更高的像素;它關乎一致性。此更新直接針對長期困擾 AI 影片的「閃爍」與身份丟失問題,提供一套能在多鏡頭間維持角色與風格保真度的工具,實質上向高階生成式媒體市場的霸主 OpenAI 的 Sora 2.0 發起挑戰。
Veo 3.1 的架構有何特徵?
Veo 3.1 建構於強化的 Transformer 式擴散架構之上,並針對多模態理解進行微調。與先前主要將文字映射到影片不同,Veo 3.1 將視覺輸入(圖像)與文字提示並列為一等公民。
這一架構轉變讓模型能「看見」使用者提供的資產——例如產品照、角色參考或特定背景——並以對 3D 幾何與光照的深刻理解來加以動畫化。結果是,一個更像數位算圖引擎、而非「拉霸機」的系統。
3.1 與先前版本相比有哪些變化?
- 更豐富的參考綜合: 模型能更好地擷取特徵(臉部、服裝、表面材質、背景元素),並在多個影格中可靠重用,讓角色在整段影片中看起來是同一個。
- 更聰明的構圖: 不再將橫式畫面裁成直式(或反之),Veo 3.1 原生生成直式構圖(9:16),因此主體位置、景深線索與動作更符合該格式的創作需求(對 TikTok/Shorts/Reels 的創意尤為關鍵)。
- 短內容更快迭代: 在多個產品情境(Gemini app、Flow)中,UX 與模型皆針對 8 秒「社群優先」輸出進行調校,讓創作者可以快速試驗。
“Ingredients to Video” 如何運作?3.1 有哪些新變化?
本次版本的亮點是徹底重製的 “Ingredients to Video” 功能。此功能允許使用者提供多個明確的視覺「食材」,模型必須在最終輸出中加以運用,實質上打通了資產管理與影片生成之間的鴻溝。
“Ingredients to Video” 概念是什麼?
在先前版本中,「Image-to-Video」多為單張圖片動畫化的任務。Veo 3.1 擴展為允許上傳多張參考圖(最多三張)來定義場景。這些資產可作為主體(人物、物件、材質或背景),模型據此編排運動、鏡頭取景與轉場,生成一段保留所提供視覺識別的短片。這與純文字轉影片不同,因為它從一開始就對外觀與視覺連續性施加更強約束。
- 情境式混合: 你可以上傳一張人物圖(Character A)、一張場景位置圖(Background B),以及一張風格參考(Style C)。Veo 3.1 會將這些獨立元素綜合成一支連貫的影片,讓 Character A 在 Environment B 中表演,並以 Style C 呈現。
- 多模態提示: 這些視覺輸入會與文字協同作用。你可以提供一張產品圖片,再在文字提示中寫「explode into particles」,模型會在執行該物理效果的同時,嚴格遵守產品的視覺細節。
Veo 3.1 的 Ingredients 模式有哪些新變化?
- 短提示也更具表現力: 當與 ingredient 圖片搭配時,即使簡短的文字提示也能產生更豐富的敘事與情感動作,讓你以更少迭代得到可用成果。
- 更強的主體身份保留: 模型能在多鏡頭與場景切換中,更好地保留主體的視覺身份(臉部、服裝、產品標識),減少為維持連貫性而反覆提供資產的需求。
- 物件與背景一致性: 物件與場景元素可跨剪接持續存在,提升敘事連貫,並能重複使用道具或材質。
- 自動為場景加入動態動作與敘事節奏;
- 輸出影片在「敘事性」與「臉部細節」上更為豐富,提升人眼觀感的自然度。
這些改進旨在減少圖像轉影片生成中最常見的痛點:主體漂移、背景不一致,以及在跨影格時風格化效果的流失。
Ingredients to Video 的實用場景
- 由設計資產為品牌吉祥物製作動畫。
- 將演員的人像照片轉成社群廣告的動態片段。
- 在完整製作前,快速打樣視覺處理(光線、材質)。
Veo 3.1 帶來了哪些一致性升級?
在任何多鏡頭或多場景的生成序列中,維持主體身份(臉部、服裝、產品標籤)、物件位置與背景連續性,對敘事可信度至關重要。若出現細微的臉部結構、物件形狀或材質變化,便會破壞觀眾的沉浸感,並需要人工修正或重新生成。先前的影片模型往往在靈活性與一致性之間取捨;Veo 3.1 旨在縮小這種權衡。
Veo 3.1 使構建讀起來連續的短序列與故事節拍變得可行,而不再像是一連串彼此獨立的片段。此改進是 3.1 體驗的核心:
- 時間穩定性: 模型顯著減少臉部或物件隨時間細微變形的「變形」效應。
- 鏡頭間一致性: 透過在不同提示中使用相同的「ingredient」圖片,創作者能在不同情境下生成同一角色的多段片段,而不會看起來像不同的人。這對品牌規範與系列內容製作是巨大的進步。
- 紋理混合:讓角色、物件與風格化背景自然融合,生成具有統一風格的高品質影片。
實際影響
對剪輯師與社群創作者而言,這意味著更少的修正與逐格描繪;對開發者與工作室來說,在自動化多鏡頭序列時的摩擦更低,且為維持資產間視覺連續性所需的人工篩選也更少。

Veo 3.1 輸出升級:直式與高保真輸出
原生直式輸出
隨著 TikTok、YouTube Shorts 與 Instagram Reels 的崛起,高品質直式影片的需求愈發強烈。Veo 3.1 終於以應有的嚴肅度對待這一格式。
Veo 3.1 引入原生 9:16 長寬比生成。
- 無需裁切: 不同於先生成方形或橫式再裁切(導致解析度與構圖損失),Veo 3.1 從一開始就以直式構圖。
- 構圖智慧: 模型理解直式構圖規則,確保主體置中,並有效利用垂直延展的結構,而非生成寬闊地平線再勉強擠進手機畫面。
原生直式生成如何改變流程
- 更快發佈: 無需後製裁切與重構圖。
- 更佳構圖: 模型以直式構圖思維安排場景(頭頂空間、動作路徑)。
- 平台就緒: 輸出可直接用於 TikTok 與 Shorts,僅需最少編輯。
高保真輸出
解析度長久以來是 AI 影片的瓶頸。Veo 3.1 以原生 4K 支援突破 720p/1080p 天花板。
- 整合超解析度升級: 流水線包含全新的超解析度模組,可將生成內容升級至 4K (3840x2160) 或 1080p,並維持高位元率的保真度。
- 偽影抑制: 升級器專為生成式偽影而訓練,能在銳化邊緣的同時,平滑 AI 紋理常見的「閃動」現象,使輸出可直接納入專業剪輯時間線。
Veo 3.1 與 Sora 2.0 的比較
Google 的 Veo 3.1 與 OpenAI 的 Sora 2.0 的比較,勾勒出當前 AI 影片版圖。兩者皆強大,但服務重心不同。
| 功能 | Google Veo 3.1 | OpenAI Sora 2.0 |
|---|---|---|
| 核心理念 | 控制與一致性。為需嚴格遵循特定資產(產品、角色)的製作工作流程而設計。 | 模擬與物理。旨在以高擬真度模擬真實世界,聚焦「one-shot」生成魔力。支援文字轉影片與圖像轉影片,強調擬真度、物理準確性與聲音同步。 |
| 輸入彈性 | 高。「Ingredients to Video」允許多圖注入,以精準控制資產。 | 中。擅長文字轉影片與單張圖像起始畫面,但對特定元素的細粒度控制較少。 |
| 直式影片 | 原生 9:16。針對行動格式最佳化構圖。 | 支援,但訓練數據常偏向 16:9 寬螢幕電影感視覺。 |
| 解析度 | 4K(透過升級)。銳利、可播出等級輸出。 | 1080p 原生。品質高,但在 4K 工作流程需外部升級。 |
| 品牌安全 | 高。強力防護欄與資產保真度,商業用更安全。 | 不一。可能為了「創意」而產生誇張物理或脫離提示的細節。 |
| 身份/一致性 | 以參考圖為錨點,改進主體與物件一致性(Ingredients)。 | Sora 2 亦強調多鏡頭一致性與可控性。 |
實務差異
- 行動與直式流程: Veo 3.1 明確鎖定行動創作者,提供原生直式渲染與直接整合 YouTube Shorts,對短影音管線效率更有利。
- 音訊與聲音同步: Sora 2 將對白與音效同步作為核心能力,對需要運動與音訊一體生成的創作者更具決定性。
總之:Veo 3.1 在行動格式與製作級升級方面縮小了關鍵實用差距,而 Sora 2 仍在整合音訊與某些寫實指標上領先。選擇取決於你的流程優先級:以行動優先、由圖像錨定的敘事(Veo),或追求具音訊的電影級寫實感(Sora 2)。
為何重要: 若你是社群創作者,想要一段長毛猛獁象走在紐約市的爆紅超擬真片段,Sora 2.0 往往能帶來更高的「每秒驚豔度」。然而,若你是廣告代理商,需要在特定海灘(Ingredient B)上為特定汽水罐(Ingredient A)製作直式 Instagram 廣告動畫,Veo 3.1 才是更佳工具。
開發者與創作者如何立即開始使用 Veo 3.1?
Veo 3.1 在哪裡可用?
Veo 3.1 可透過 Gemini API 並由 CometAPI 提供使用。Why I recommend CometAPI for you? Beacause it is cheapest and Easy to use, and you can also find sora 2 API etc in it.
使用範式與程式碼範例
import osimport timeimport requests# 從 https://api.cometapi.com/console/token 取得你的 CometAPI 金鑰,並貼在此處COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# 建立影片生成任務create_response = requests.post( f"{BASE_URL}/create", headers={ "Authorization": COMETAPI_KEY, "Content-Type": "application/json", }, json={ "prompt": "一隻橘色的貓在藍天白雲中飛翔,陽光灑在牠的毛上,營造出美麗而夢幻的景象", "model": "veo3.1", "enhance_prompt": True, },)task = create_response.json()task_id = task["id"]print(f"已建立任務:{task_id}")print(f"狀態:{task['status']}")# 輪詢直到影片就緒while True: query_response = requests.get( f"{BASE_URL}/query/{task_id}", headers={ "Authorization": f"Bearer {COMETAPI_KEY}", }, ) result = query_response.json() status = result["data"]["status"] progress = result["data"].get("progress", "") print(f"檢查狀態中... {status} {progress}") if status == "SUCCESS" or result["data"]["data"]["status"] == "completed": video_url = result["data"]["data"]["video_url"] print(f"影片 URL:{video_url}") break elif status == "FAILED": print(f"失敗:{result['data'].get('fail_reason', '未知錯誤')}") break time.sleep(10)
結語
Veo 3.1 標誌著生成式影片的成熟。透過走出單純「文字到像素」的幻化,並提供強大的資產控制("Ingredients")、格式最佳化(原生直式)與交付品質(4K),Google 帶來了首個真正「工作室級」的生成式影片 API。對希望在大規模自動化內容生產的企業而言,可控且高保真的影片模型終於到來。
開發者可透過 CometAPI 存取 Veo 3.1 API。若要開始,請先在 Playground 探索 CometAPI 的模型能力,並參考 API guide 取得詳細指引。存取前,請確保已登入 CometAPI 並取得 API 金鑰。CometAPI 以遠低於官方的價格,協助你完成整合。
Ready to Go?→ Sign up for CometAPI today !
If you want to know more tips, guides and news on AI follow us on VK, X and Discord!
