全新 Veo3.1：一致性更高、輸出更多樣、更加豐富

Google 的 Veo 3.1 於 1 月更新，帶來一系列重點改進，讓 image-to-video 工作流程更接近可投入製作的品質。3.1 更新聚焦於四項實用升級，使 image→video 工作流程對創作者與開發者而言大幅更易用：強化版的「Ingredients to Video」流程，可從參考圖片生成更具動態感的片段；更強的人物與場景一致性；面向行動優先平台的原生直式（9:16）輸出；以及包含改良版 1080p 與 4K 升尺度在內的全新高保真輸出選項。對於一直以來都得透過「先裁切再編輯」工作流程處理社群直式格式的創作者與開發者來說，Veo 3.1 的原生 9:16 輸出與改良升尺度，有望降低摩擦並交付更精緻、可直接上平台的片段。

對開發者與媒體專業人士來說，Veo 3.1 不只是像素更高；它更關乎一致性。此次更新直接解決了長期困擾 AI 影片的「閃爍」與角色辨識流失問題，提供一套能在多個鏡頭間維持角色與風格保真度的工具組，實質上向 OpenAI 的 Sora 2.0 在高階生成式媒體市場的主導地位發起挑戰。

什麼定義了 Veo 3.1 的架構？

Veo 3.1 建立於強化版、以 transformer 為基礎的 diffusion 架構之上，並針對多模態理解進行了微調。不同於其前代主要將文字映射為影片，Veo 3.1 將視覺輸入（圖片）與文字提示同等視為核心輸入。

這項架構轉變讓模型能夠「看見」使用者提供的素材——例如產品圖、角色參考圖或特定背景——並憑藉對 3D 幾何與光照的深度理解，將它們動畫化。其結果是一套更不像抽獎機、而更像數位渲染引擎的系統。

3.1 相較先前版本有什麼新變化？

更豐富的參考合成： 模型能更好地提取特徵（臉部、服裝、表面紋理、背景元素），並在多個影格間可靠地重用它們，因此角色在整段片段中看起來會是同一個角色。
更智慧的構圖： Veo 3.1 不再是將橫向畫面裁切以適應直式畫布（或反之），而是原生生成直式構圖（9:16），因此主體位置、景深線索與動作都會更符合該格式（這對 TikTok/Shorts/Reels 的創意內容至關重要）。
更快迭代短影音內容： UX 與模型在許多產品情境中（Gemini app、Flow）都針對 8 秒的「社群優先」輸出進行了調校，讓創作者能更快速地進行實驗。

「Ingredients to Video」如何運作？3.1 有哪些新功能？

此次發布最突出的功能，是全面翻新的 "Ingredients to Video" 能力。此功能允許使用者提供明確的視覺「素材成分」，而模型必須在最終輸出中加以利用，實際上縮短了素材管理與影片生成之間的距離。

什麼是「Ingredients to Video」概念？

在先前版本中，「Image-to-Video」大多只是單張圖片動畫化任務。Veo 3.1 則進一步擴展，允許使用者上傳多張參考圖片（最多三張）來定義場景。這些素材可作為主體（人物、物件、紋理或背景），模型再圍繞它們編排動作、鏡頭構圖與轉場，生成一段能維持所提供視覺識別的短影片。這與純 text-to-video 不同，因為它從一開始就對外觀與視覺連續性施加了更強的約束。

情境式融合： 你可以上傳一張人物圖片（角色 A）、一張地點圖片（背景 B）以及一張風格參考圖（風格 C）。Veo 3.1 會將這些不同元素合成為一支連貫的影片，讓角色 A 在環境 B 中活動，並以風格 C 呈現。
多模態提示： 這種視覺輸入會與文字協同運作。你可以提供一張產品圖片，再加上一句文字提示如「explode into particles」，模型便會嚴格遵循產品的視覺細節，同時執行文字提示中的物理效果。

Veo 3.1 的 Ingredients 模式有哪些新內容？

Veo 3.1 為 Ingredients 流程帶來數項具體改進：

以極簡提示呈現更強表現力： 即使是簡短的文字提示，只要搭配 ingredient 圖片，也能產生更豐富的敘事性與情感動作，讓使用者以更少次迭代就得到可用結果。
更強的主體身份保留： 模型能更好地在多個鏡頭與場景切換之間保留主體的視覺身份（臉部、服裝、產品標記），降低為了連續性而反覆重新提供素材的需求。
物件與背景一致性： 物件與場景元素可以跨剪接保留下來，提升敘事連貫性，也能重複利用道具或紋理。
自動為場景加入動態動作與敘事節奏；
輸出影片在「故事性」與「臉部細節」上更豐富，提升人類視覺感知中的自然度。

這些改進旨在降低 image-to-video 生成中最常見的痛點：主體漂移、背景不一致，以及在影格轉換之間失去風格化表現。

Ingredients to Video 的實際使用案例

根據設計素材將品牌吉祥物動畫化。
將演員的人像照片轉化為社群廣告用的動態片段。
在完整製作流程前，快速製作視覺處理方式（光照、紋理）的原型。

Veo 3.1 引入了哪些一致性升級？

在任何多鏡頭或多場景的生成序列中，維持主體身份（臉部、服裝、產品標籤）、物件位置與背景連續性，對於敘事可信度都至關重要。不一致——例如臉部結構、物件形狀或紋理的細微變化——會打破觀眾的懸置懷疑，並需要手動修正或重新生成。早期的影片模型往往以靈活性換取連貫性；Veo 3.1 則試圖縮小這種取捨。

Veo 3.1 讓建立可被讀作連續敘事、而非一系列獨立小品的短序列與情節節拍成為可能。這項改進是 3.1 體驗的核心：

時間穩定性： 模型大幅降低了臉部或物件隨時間微妙變形的「morphing」效果。
鏡頭間連貫性： 透過在不同提示中使用相同的「ingredient」圖片，創作者可以生成同一角色在不同情境下的多段片段，而不會看起來像不同的人。這對品牌規範與連載內容創作而言是巨大的躍進。
紋理融合：讓角色、物件與風格化背景自然融合，生成具有統一風格的高品質影片。

實際影響

對剪輯師與社群創作者來說，這代表更少的修正與更少的 rotoscoping；對開發者與工作室而言，則能在自動化多鏡頭序列時降低摩擦，並減少為維持素材間視覺連續性所需的人工作品篩選。

Veo-3.1

Veo 3.1 輸出升級：直式與高保真輸出

原生直式輸出

隨著 TikTok、YouTube Shorts 與 Instagram Reels 的主導地位確立，市場對高品質直式影片的需求幾乎無止境。Veo 3.1 終於以應有的重視程度對待這種格式。

Veo 3.1 引入了原生 9:16 長寬比生成。

無需裁切： 不同於以往先生成方形或橫向影片再進行裁切（導致解析度與構圖損失）的工作流程，Veo 3.1 從一開始就以直式方式構圖。
構圖智慧： 模型理解直式構圖規則，能確保主體置中，並有效利用高挑結構，而不是生成在手機螢幕上被擠壓後顯得尷尬的寬廣地平線。

原生直式生成如何改變工作流程

更快發布： 無需在生成後再進行裁切與重新構圖。
更佳構圖： 模型以直式框架為前提來構成場景（頭部留白、動作路徑）。
可直接上平台： 匯出結果幾乎不需編輯即可適用於 TikTok 與 Shorts。

高保真輸出

解析度一直是 AI 影片的主要瓶頸。Veo 3.1 以原生 4K 支援打破了 720p/1080p 的上限。

整合式升尺度： 此流程包含新的超解析模組，可將生成內容以高位元率保真方式升尺度至 4K (3840x2160) 或 1080p。
偽影降低： 升尺度器專門針對生成式偽影進行訓練，能平滑 AI 紋理中常見的「shimmer」現象，同時銳化邊緣，使輸出更適合專業剪輯時間線。

Veo 3.1 與 Sora 2.0 相比表現如何？

Google 的 Veo 3.1 與 OpenAI 的 Sora 2.0 之間的比較，定義了當前 AI 影片領域的格局。兩者雖然都很強大，但服務的重點不同。

Feature	Google Veo 3.1	OpenAI Sora 2.0
Primary Philosophy	控制與一致性。為必須尊重特定素材（產品、角色）的製作流程而設計。	模擬與物理。旨在以高保真模擬真實世界，聚焦於「一鏡生成」的魔法感。text-to-video 與 image-to-video 皆強調寫實性、物理準確度與同步音訊。
Input Flexibility	高。「Ingredients to Video」允許注入多張圖片，以精確控制素材。	中。text-to-video 與單張圖片起始影格很強，但對特定元素的細粒度控制較少。
Vertical Video	原生 9:16。針對行動格式最佳化構圖。	支援，但訓練資料往往更偏向電影感的 16:9 寬螢幕視覺。
Resolution	4K（透過升尺度）。輸出銳利，可達廣播級。	原生 1080p。品質高，但 4K 工作流程需依賴外部升尺度。
Brand Safety	高。強力護欄與素材保真度使其更適合商業使用。	可變。可能為了「創意」而產生偏離提示的誇張物理或細節幻覺。
Identity/consistency	透過參考圖片（Ingredients）錨定，改進主體與物件一致性	Sora 2 也強調多鏡頭一致性與可控性

實際差異化

行動與直式工作流程： Veo 3.1 明確鎖定行動創作者，提供原生直式渲染與直接整合 YouTube Shorts——這對短影音製作流程效率是一項優勢。
音訊與同步聲音： Sora 2 將同步對話與音效作為核心能力之一，對於需要將音訊生成與動作整合的創作者而言，這可能是決定性因素。

簡而言之：Veo 3.1 在行動格式與製作級升尺度方面縮小了關鍵的實務差距，而 Sora 2 則持續在整合音訊與某些寫實性指標上領先。選擇取決於工作流程優先順序：行動優先、以圖片錨定的敘事（Veo） vs. 具音訊的電影級寫實感（Sora 2）。

Why it matters: 如果你是想製作一支爆紅、極度寫實的片段——例如一頭長毛猛獁象走在紐約市街頭——的社群媒體創作者，Sora 2.0 往往每秒都能帶來更多「驚豔感」。但如果你是一家廣告代理商，需要在某個特定海灘（Ingredient B）上，為某個特定汽水罐（Ingredient A）製作一支直式 Instagram 廣告動畫，Veo 3.1 才是更優秀的工具。

開發者與創作者今天如何開始使用 Veo 3.1？

哪裡可以使用 Veo 3.1？

Veo 3.1 可透過 CometAPI 在 Gemini API 中取得。為什麼我向你推薦 CometAPI？因為它最便宜且容易使用，你也可以在其中找到 sora 2 API 等。

範例使用模式與程式碼範例

import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")    print(f"Checking status... {status} {progress}")    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break    time.sleep(10)

結論

Veo 3.1 代表生成式影片技術的成熟。Google 不再只是停留在單純從文字到像素的幻覺式生成，而是提供了強大的素材控制工具（「Ingredients」）、格式最佳化（原生直式）與交付品質（4K），推出了第一個真正達到「工作室等級」的生成式影片 API。對於希望大規模自動化內容製作的企業而言，一款可控、高保真的影片模型終於不再只是期待。

開發者可透過 CometAPI 存取 Veo 3.1 API。開始之前，可先在 Playground 探索 CometAPI 的模型能力，並查閱 API guide 取得詳細說明。在存取前，請先確認你已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方價格的費率，以協助你完成整合。

準備好了嗎？→ 立即註冊 CometAPI！

如果你想了解更多 AI 技巧、指南與新聞，歡迎在 VK、X 和 Discord 上關注我們！