全新 Veo3.1:一致性更高、輸出更多樣、更加豐富

CometAPI
AnnaJan 14, 2026
全新 Veo3.1:一致性更高、輸出更多樣、更加豐富

Google 的 Veo 3.1 於 1 月更新,帶來一系列重點改進,讓 image-to-video 工作流程更接近可投入製作的品質。3.1 更新聚焦於四項實用升級,使 image→video 工作流程對創作者與開發者而言大幅更易用:強化版的「Ingredients to Video」流程,可從參考圖片生成更具動態感的片段;更強的人物與場景一致性;面向行動優先平台的原生直式(9:16)輸出;以及包含改良版 1080p 與 4K 升尺度在內的全新高保真輸出選項。對於一直以來都得透過「先裁切再編輯」工作流程處理社群直式格式的創作者與開發者來說,Veo 3.1 的原生 9:16 輸出與改良升尺度,有望降低摩擦並交付更精緻、可直接上平台的片段。

對開發者與媒體專業人士來說,Veo 3.1 不只是像素更高;它更關乎一致性。此次更新直接解決了長期困擾 AI 影片的「閃爍」與角色辨識流失問題,提供一套能在多個鏡頭間維持角色與風格保真度的工具組,實質上向 OpenAI 的 Sora 2.0 在高階生成式媒體市場的主導地位發起挑戰。

什麼定義了 Veo 3.1 的架構?

Veo 3.1 建立於強化版、以 transformer 為基礎的 diffusion 架構之上,並針對多模態理解進行了微調。不同於其前代主要將文字映射為影片,Veo 3.1 將視覺輸入(圖片)與文字提示同等視為核心輸入。

這項架構轉變讓模型能夠「看見」使用者提供的素材——例如產品圖、角色參考圖或特定背景——並憑藉對 3D 幾何與光照的深度理解,將它們動畫化。其結果是一套更不像抽獎機、而更像數位渲染引擎的系統。

3.1 相較先前版本有什麼新變化?

  • 更豐富的參考合成: 模型能更好地提取特徵(臉部、服裝、表面紋理、背景元素),並在多個影格間可靠地重用它們,因此角色在整段片段中看起來會是同一個角色。
  • 更智慧的構圖: Veo 3.1 不再是將橫向畫面裁切以適應直式畫布(或反之),而是原生生成直式構圖(9:16),因此主體位置、景深線索與動作都會更符合該格式(這對 TikTok/Shorts/Reels 的創意內容至關重要)。
  • 更快迭代短影音內容: UX 與模型在許多產品情境中(Gemini app、Flow)都針對 8 秒的「社群優先」輸出進行了調校,讓創作者能更快速地進行實驗。

「Ingredients to Video」如何運作?3.1 有哪些新功能?

此次發布最突出的功能,是全面翻新的 "Ingredients to Video" 能力。此功能允許使用者提供明確的視覺「素材成分」,而模型必須在最終輸出中加以利用,實際上縮短了素材管理與影片生成之間的距離。

什麼是「Ingredients to Video」概念?

在先前版本中,「Image-to-Video」大多只是單張圖片動畫化任務。Veo 3.1 則進一步擴展,允許使用者上傳多張參考圖片(最多三張)來定義場景。這些素材可作為主體(人物、物件、紋理或背景),模型再圍繞它們編排動作、鏡頭構圖與轉場,生成一段能維持所提供視覺識別的短影片。這與純 text-to-video 不同,因為它從一開始就對外觀與視覺連續性施加了更強的約束。

  • 情境式融合: 你可以上傳一張人物圖片(角色 A)、一張地點圖片(背景 B)以及一張風格參考圖(風格 C)。Veo 3.1 會將這些不同元素合成為一支連貫的影片,讓角色 A 在環境 B 中活動,並以風格 C 呈現。
  • 多模態提示: 這種視覺輸入會與文字協同運作。你可以提供一張產品圖片,再加上一句文字提示如「explode into particles」,模型便會嚴格遵循產品的視覺細節,同時執行文字提示中的物理效果。

Veo 3.1 的 Ingredients 模式有哪些新內容?

Veo 3.1 為 Ingredients 流程帶來數項具體改進:

  • 以極簡提示呈現更強表現力: 即使是簡短的文字提示,只要搭配 ingredient 圖片,也能產生更豐富的敘事性與情感動作,讓使用者以更少次迭代就得到可用結果。
  • 更強的主體身份保留: 模型能更好地在多個鏡頭與場景切換之間保留主體的視覺身份(臉部、服裝、產品標記),降低為了連續性而反覆重新提供素材的需求。
  • 物件與背景一致性: 物件與場景元素可以跨剪接保留下來,提升敘事連貫性,也能重複利用道具或紋理。
  • 自動為場景加入動態動作與敘事節奏;
  • 輸出影片在「故事性」與「臉部細節」上更豐富,提升人類視覺感知中的自然度。

這些改進旨在降低 image-to-video 生成中最常見的痛點:主體漂移、背景不一致,以及在影格轉換之間失去風格化表現。

Ingredients to Video 的實際使用案例

  • 根據設計素材將品牌吉祥物動畫化。
  • 將演員的人像照片轉化為社群廣告用的動態片段。
  • 在完整製作流程前,快速製作視覺處理方式(光照、紋理)的原型。

Veo 3.1 引入了哪些一致性升級?

在任何多鏡頭或多場景的生成序列中,維持主體身份(臉部、服裝、產品標籤)、物件位置與背景連續性,對於敘事可信度都至關重要。不一致——例如臉部結構、物件形狀或紋理的細微變化——會打破觀眾的懸置懷疑,並需要手動修正或重新生成。早期的影片模型往往以靈活性換取連貫性;Veo 3.1 則試圖縮小這種取捨。

Veo 3.1 讓建立可被讀作連續敘事、而非一系列獨立小品的短序列與情節節拍成為可能。這項改進是 3.1 體驗的核心:

  • 時間穩定性: 模型大幅降低了臉部或物件隨時間微妙變形的「morphing」效果。
  • 鏡頭間連貫性: 透過在不同提示中使用相同的「ingredient」圖片,創作者可以生成同一角色在不同情境下的多段片段,而不會看起來像不同的人。這對品牌規範與連載內容創作而言是巨大的躍進。
  • 紋理融合:讓角色、物件與風格化背景自然融合,生成具有統一風格的高品質影片。

實際影響

對剪輯師與社群創作者來說,這代表更少的修正與更少的 rotoscoping;對開發者與工作室而言,則能在自動化多鏡頭序列時降低摩擦,並減少為維持素材間視覺連續性所需的人工作品篩選。

Veo-3.1

Veo 3.1 輸出升級:直式與高保真輸出

原生直式輸出

隨著 TikTok、YouTube Shorts 與 Instagram Reels 的主導地位確立,市場對高品質直式影片的需求幾乎無止境。Veo 3.1 終於以應有的重視程度對待這種格式。

Veo 3.1 引入了原生 9:16 長寬比生成

  • 無需裁切: 不同於以往先生成方形或橫向影片再進行裁切(導致解析度與構圖損失)的工作流程,Veo 3.1 從一開始就以直式方式構圖。
  • 構圖智慧: 模型理解直式構圖規則,能確保主體置中,並有效利用高挑結構,而不是生成在手機螢幕上被擠壓後顯得尷尬的寬廣地平線。

原生直式生成如何改變工作流程

  • 更快發布: 無需在生成後再進行裁切與重新構圖。
  • 更佳構圖: 模型以直式框架為前提來構成場景(頭部留白、動作路徑)。
  • 可直接上平台: 匯出結果幾乎不需編輯即可適用於 TikTok 與 Shorts。

高保真輸出

解析度一直是 AI 影片的主要瓶頸。Veo 3.1 以原生 4K 支援打破了 720p/1080p 的上限。

  • 整合式升尺度: 此流程包含新的超解析模組,可將生成內容以高位元率保真方式升尺度至 4K (3840x2160)1080p
  • 偽影降低: 升尺度器專門針對生成式偽影進行訓練,能平滑 AI 紋理中常見的「shimmer」現象,同時銳化邊緣,使輸出更適合專業剪輯時間線。

Veo 3.1 與 Sora 2.0 相比表現如何?

Google 的 Veo 3.1 與 OpenAI 的 Sora 2.0 之間的比較,定義了當前 AI 影片領域的格局。兩者雖然都很強大,但服務的重點不同。

FeatureGoogle Veo 3.1OpenAI Sora 2.0
Primary Philosophy控制與一致性。為必須尊重特定素材(產品、角色)的製作流程而設計。模擬與物理。旨在以高保真模擬真實世界,聚焦於「一鏡生成」的魔法感。text-to-video 與 image-to-video 皆強調寫實性、物理準確度與同步音訊。
Input Flexibility高。「Ingredients to Video」允許注入多張圖片,以精確控制素材。中。text-to-video 與單張圖片起始影格很強,但對特定元素的細粒度控制較少。
Vertical Video原生 9:16。針對行動格式最佳化構圖。支援,但訓練資料往往更偏向電影感的 16:9 寬螢幕視覺。
Resolution4K(透過升尺度)。輸出銳利,可達廣播級。原生 1080p。品質高,但 4K 工作流程需依賴外部升尺度。
Brand Safety高。強力護欄與素材保真度使其更適合商業使用。可變。可能為了「創意」而產生偏離提示的誇張物理或細節幻覺。
Identity/consistency透過參考圖片(Ingredients)錨定,改進主體與物件一致性Sora 2 也強調多鏡頭一致性與可控性

實際差異化

  • 行動與直式工作流程: Veo 3.1 明確鎖定行動創作者,提供原生直式渲染與直接整合 YouTube Shorts——這對短影音製作流程效率是一項優勢。
  • 音訊與同步聲音: Sora 2 將同步對話與音效作為核心能力之一,對於需要將音訊生成與動作整合的創作者而言,這可能是決定性因素。

簡而言之:Veo 3.1 在行動格式與製作級升尺度方面縮小了關鍵的實務差距,而 Sora 2 則持續在整合音訊與某些寫實性指標上領先。選擇取決於工作流程優先順序:行動優先、以圖片錨定的敘事(Veo) vs. 具音訊的電影級寫實感(Sora 2)。

Why it matters: 如果你是想製作一支爆紅、極度寫實的片段——例如一頭長毛猛獁象走在紐約市街頭——的社群媒體創作者,Sora 2.0 往往每秒都能帶來更多「驚豔感」。但如果你是一家廣告代理商,需要在某個特定海灘(Ingredient B)上,為某個特定汽水罐(Ingredient A)製作一支直式 Instagram 廣告動畫,Veo 3.1 才是更優秀的工具。

開發者與創作者今天如何開始使用 Veo 3.1?

哪裡可以使用 Veo 3.1?

Veo 3.1 可透過 CometAPI 在 Gemini API 中取得。為什麼我向你推薦 CometAPI?因為它最便宜且容易使用,你也可以在其中找到 sora 2 API 等。

範例使用模式與程式碼範例

import osimport timeimport requests​# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"​# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)​task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")​# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )​    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")​    print(f"Checking status... {status} {progress}")​    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break​    time.sleep(10)

結論

Veo 3.1 代表生成式影片技術的成熟。Google 不再只是停留在單純從文字到像素的幻覺式生成,而是提供了強大的素材控制工具(「Ingredients」)、格式最佳化(原生直式)與交付品質(4K),推出了第一個真正達到「工作室等級」的生成式影片 API。對於希望大規模自動化內容製作的企業而言,一款可控、高保真的影片模型終於不再只是期待。

開發者可透過 CometAPI 存取 Veo 3.1 API。開始之前,可先在 Playground 探索 CometAPI 的模型能力,並查閱 API guide 取得詳細說明。在存取前,請先確認你已登入 CometAPI 並取得 API key。CometAPI 提供遠低於官方價格的費率,以協助你完成整合。

準備好了嗎?→ 立即註冊 CometAPI

如果你想了解更多 AI 技巧、指南與新聞,歡迎在 VKXDiscord 上關注我們!

準備好將 AI 開發成本降低 20% 了嗎?

幾分鐘內免費開始。包含免費試用點數。無需信用卡。

閱讀更多