Google 的 Veo 3.1 於 1 月更新,帶來一系列重點改進,讓 image-to-video 工作流程更接近可投入製作的品質。3.1 更新聚焦於四項實用升級,使 image→video 工作流程對創作者與開發者而言大幅更易用:強化版的「Ingredients to Video」流程,可從參考圖片生成更具動態感的片段;更強的人物與場景一致性;面向行動優先平台的原生直式(9:16)輸出;以及包含改良版 1080p 與 4K 升尺度在內的全新高保真輸出選項。對於一直以來都得透過「先裁切再編輯」工作流程處理社群直式格式的創作者與開發者來說,Veo 3.1 的原生 9:16 輸出與改良升尺度,有望降低摩擦並交付更精緻、可直接上平台的片段。
對開發者與媒體專業人士來說,Veo 3.1 不只是像素更高;它更關乎一致性。此次更新直接解決了長期困擾 AI 影片的「閃爍」與角色辨識流失問題,提供一套能在多個鏡頭間維持角色與風格保真度的工具組,實質上向 OpenAI 的 Sora 2.0 在高階生成式媒體市場的主導地位發起挑戰。
什麼定義了 Veo 3.1 的架構?
Veo 3.1 建立於強化版、以 transformer 為基礎的 diffusion 架構之上,並針對多模態理解進行了微調。不同於其前代主要將文字映射為影片,Veo 3.1 將視覺輸入(圖片)與文字提示同等視為核心輸入。
這項架構轉變讓模型能夠「看見」使用者提供的素材——例如產品圖、角色參考圖或特定背景——並憑藉對 3D 幾何與光照的深度理解,將它們動畫化。其結果是一套更不像抽獎機、而更像數位渲染引擎的系統。
3.1 相較先前版本有什麼新變化?
- 更豐富的參考合成: 模型能更好地提取特徵(臉部、服裝、表面紋理、背景元素),並在多個影格間可靠地重用它們,因此角色在整段片段中看起來會是同一個角色。
- 更智慧的構圖: Veo 3.1 不再是將橫向畫面裁切以適應直式畫布(或反之),而是原生生成直式構圖(9:16),因此主體位置、景深線索與動作都會更符合該格式(這對 TikTok/Shorts/Reels 的創意內容至關重要)。
- 更快迭代短影音內容: UX 與模型在許多產品情境中(Gemini app、Flow)都針對 8 秒的「社群優先」輸出進行了調校,讓創作者能更快速地進行實驗。
「Ingredients to Video」如何運作?3.1 有哪些新功能?
此次發布最突出的功能,是全面翻新的 "Ingredients to Video" 能力。此功能允許使用者提供明確的視覺「素材成分」,而模型必須在最終輸出中加以利用,實際上縮短了素材管理與影片生成之間的距離。
什麼是「Ingredients to Video」概念?
在先前版本中,「Image-to-Video」大多只是單張圖片動畫化任務。Veo 3.1 則進一步擴展,允許使用者上傳多張參考圖片(最多三張)來定義場景。這些素材可作為主體(人物、物件、紋理或背景),模型再圍繞它們編排動作、鏡頭構圖與轉場,生成一段能維持所提供視覺識別的短影片。這與純 text-to-video 不同,因為它從一開始就對外觀與視覺連續性施加了更強的約束。
- 情境式融合: 你可以上傳一張人物圖片(角色 A)、一張地點圖片(背景 B)以及一張風格參考圖(風格 C)。Veo 3.1 會將這些不同元素合成為一支連貫的影片,讓角色 A 在環境 B 中活動,並以風格 C 呈現。
- 多模態提示: 這種視覺輸入會與文字協同運作。你可以提供一張產品圖片,再加上一句文字提示如「explode into particles」,模型便會嚴格遵循產品的視覺細節,同時執行文字提示中的物理效果。
Veo 3.1 的 Ingredients 模式有哪些新內容?
Veo 3.1 為 Ingredients 流程帶來數項具體改進:
- 以極簡提示呈現更強表現力: 即使是簡短的文字提示,只要搭配 ingredient 圖片,也能產生更豐富的敘事性與情感動作,讓使用者以更少次迭代就得到可用結果。
- 更強的主體身份保留: 模型能更好地在多個鏡頭與場景切換之間保留主體的視覺身份(臉部、服裝、產品標記),降低為了連續性而反覆重新提供素材的需求。
- 物件與背景一致性: 物件與場景元素可以跨剪接保留下來,提升敘事連貫性,也能重複利用道具或紋理。
- 自動為場景加入動態動作與敘事節奏;
- 輸出影片在「故事性」與「臉部細節」上更豐富,提升人類視覺感知中的自然度。
這些改進旨在降低 image-to-video 生成中最常見的痛點:主體漂移、背景不一致,以及在影格轉換之間失去風格化表現。
Ingredients to Video 的實際使用案例
- 根據設計素材將品牌吉祥物動畫化。
- 將演員的人像照片轉化為社群廣告用的動態片段。
- 在完整製作流程前,快速製作視覺處理方式(光照、紋理)的原型。
Veo 3.1 引入了哪些一致性升級?
在任何多鏡頭或多場景的生成序列中,維持主體身份(臉部、服裝、產品標籤)、物件位置與背景連續性,對於敘事可信度都至關重要。不一致——例如臉部結構、物件形狀或紋理的細微變化——會打破觀眾的懸置懷疑,並需要手動修正或重新生成。早期的影片模型往往以靈活性換取連貫性;Veo 3.1 則試圖縮小這種取捨。
Veo 3.1 讓建立可被讀作連續敘事、而非一系列獨立小品的短序列與情節節拍成為可能。這項改進是 3.1 體驗的核心:
- 時間穩定性: 模型大幅降低了臉部或物件隨時間微妙變形的「morphing」效果。
- 鏡頭間連貫性: 透過在不同提示中使用相同的「ingredient」圖片,創作者可以生成同一角色在不同情境下的多段片段,而不會看起來像不同的人。這對品牌規範與連載內容創作而言是巨大的躍進。
- 紋理融合:讓角色、物件與風格化背景自然融合,生成具有統一風格的高品質影片。
實際影響
對剪輯師與社群創作者來說,這代表更少的修正與更少的 rotoscoping;對開發者與工作室而言,則能在自動化多鏡頭序列時降低摩擦,並減少為維持素材間視覺連續性所需的人工作品篩選。

Veo 3.1 輸出升級:直式與高保真輸出
原生直式輸出
隨著 TikTok、YouTube Shorts 與 Instagram Reels 的主導地位確立,市場對高品質直式影片的需求幾乎無止境。Veo 3.1 終於以應有的重視程度對待這種格式。
Veo 3.1 引入了原生 9:16 長寬比生成。
- 無需裁切: 不同於以往先生成方形或橫向影片再進行裁切(導致解析度與構圖損失)的工作流程,Veo 3.1 從一開始就以直式方式構圖。
- 構圖智慧: 模型理解直式構圖規則,能確保主體置中,並有效利用高挑結構,而不是生成在手機螢幕上被擠壓後顯得尷尬的寬廣地平線。
原生直式生成如何改變工作流程
- 更快發布: 無需在生成後再進行裁切與重新構圖。
- 更佳構圖: 模型以直式框架為前提來構成場景(頭部留白、動作路徑)。
- 可直接上平台: 匯出結果幾乎不需編輯即可適用於 TikTok 與 Shorts。
高保真輸出
解析度一直是 AI 影片的主要瓶頸。Veo 3.1 以原生 4K 支援打破了 720p/1080p 的上限。
- 整合式升尺度: 此流程包含新的超解析模組,可將生成內容以高位元率保真方式升尺度至 4K (3840x2160) 或 1080p。
- 偽影降低: 升尺度器專門針對生成式偽影進行訓練,能平滑 AI 紋理中常見的「shimmer」現象,同時銳化邊緣,使輸出更適合專業剪輯時間線。
Veo 3.1 與 Sora 2.0 相比表現如何?
Google 的 Veo 3.1 與 OpenAI 的 Sora 2.0 之間的比較,定義了當前 AI 影片領域的格局。兩者雖然都很強大,但服務的重點不同。
| Feature | Google Veo 3.1 | OpenAI Sora 2.0 |
|---|---|---|
| Primary Philosophy | 控制與一致性。為必須尊重特定素材(產品、角色)的製作流程而設計。 | 模擬與物理。旨在以高保真模擬真實世界,聚焦於「一鏡生成」的魔法感。text-to-video 與 image-to-video 皆強調寫實性、物理準確度與同步音訊。 |
| Input Flexibility | 高。「Ingredients to Video」允許注入多張圖片,以精確控制素材。 | 中。text-to-video 與單張圖片起始影格很強,但對特定元素的細粒度控制較少。 |
| Vertical Video | 原生 9:16。針對行動格式最佳化構圖。 | 支援,但訓練資料往往更偏向電影感的 16:9 寬螢幕視覺。 |
| Resolution | 4K(透過升尺度)。輸出銳利,可達廣播級。 | 原生 1080p。品質高,但 4K 工作流程需依賴外部升尺度。 |
| Brand Safety | 高。強力護欄與素材保真度使其更適合商業使用。 | 可變。可能為了「創意」而產生偏離提示的誇張物理或細節幻覺。 |
| Identity/consistency | 透過參考圖片(Ingredients)錨定,改進主體與物件一致性 | Sora 2 也強調多鏡頭一致性與可控性 |
實際差異化
- 行動與直式工作流程: Veo 3.1 明確鎖定行動創作者,提供原生直式渲染與直接整合 YouTube Shorts——這對短影音製作流程效率是一項優勢。
- 音訊與同步聲音: Sora 2 將同步對話與音效作為核心能力之一,對於需要將音訊生成與動作整合的創作者而言,這可能是決定性因素。
簡而言之:Veo 3.1 在行動格式與製作級升尺度方面縮小了關鍵的實務差距,而 Sora 2 則持續在整合音訊與某些寫實性指標上領先。選擇取決於工作流程優先順序:行動優先、以圖片錨定的敘事(Veo) vs. 具音訊的電影級寫實感(Sora 2)。
Why it matters: 如果你是想製作一支爆紅、極度寫實的片段——例如一頭長毛猛獁象走在紐約市街頭——的社群媒體創作者,Sora 2.0 往往每秒都能帶來更多「驚豔感」。但如果你是一家廣告代理商,需要在某個特定海灘(Ingredient B)上,為某個特定汽水罐(Ingredient A)製作一支直式 Instagram 廣告動畫,Veo 3.1 才是更優秀的工具。
開發者與創作者今天如何開始使用 Veo 3.1?
哪裡可以使用 Veo 3.1?
Veo 3.1 可透過 CometAPI 在 Gemini API 中取得。為什麼我向你推薦 CometAPI?因為它最便宜且容易使用,你也可以在其中找到 sora 2 API 等。
範例使用模式與程式碼範例
import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post( f"{BASE_URL}/create", headers={ "Authorization": COMETAPI_KEY, "Content-Type": "application/json", }, json={ "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene", "model": "veo3.1", "enhance_prompt": True, },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True: query_response = requests.get( f"{BASE_URL}/query/{task_id}", headers={ "Authorization": f"Bearer {COMETAPI_KEY}", }, ) result = query_response.json() status = result["data"]["status"] progress = result["data"].get("progress", "") print(f"Checking status... {status} {progress}") if status == "SUCCESS" or result["data"]["data"]["status"] == "completed": video_url = result["data"]["data"]["video_url"] print(f"Video URL: {video_url}") break elif status == "FAILED": print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}") break time.sleep(10)
結論
Veo 3.1 代表生成式影片技術的成熟。Google 不再只是停留在單純從文字到像素的幻覺式生成,而是提供了強大的素材控制工具(「Ingredients」)、格式最佳化(原生直式)與交付品質(4K),推出了第一個真正達到「工作室等級」的生成式影片 API。對於希望大規模自動化內容製作的企業而言,一款可控、高保真的影片模型終於不再只是期待。
開發者可透過 CometAPI 存取 Veo 3.1 API。開始之前,可先在 Playground 探索 CometAPI 的模型能力,並查閱 API guide 取得詳細說明。在存取前,請先確認你已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方價格的費率,以協助你完成整合。
準備好了嗎?→ 立即註冊 CometAPI!
