全新 Veo3.1:更高的一致性、多樣化輸出,以及更豐富

CometAPI
AnnaJan 14, 2026
全新 Veo3.1:更高的一致性、多樣化輸出,以及更豐富

Google 的 Veo 3.1 於 1 月更新,帶來聚焦的改進,讓圖像轉影片工作流程更接近製作等級。3.1 版本圍繞四項實用升級,讓圖像→影片流程對創作者與開發者大幅更易用:強化的 “Ingredients to Video” 流水線,能從參考圖生成具動態的片段;更強的角色與場景一致性;原生直式(9:16)輸出以服務行動優先平台;以及新的高保真輸出選項,包括更佳的 1080p 與 4K 超解析度升級。對於一直以「先裁切再編輯」來適配社群直式格式的創作者與開發者,Veo 3.1 的原生 9:16 輸出與升級品質的提升,有望降低摩擦並產出更精緻、可即刻上平台的片段。

對開發者與媒體專業人士而言,Veo 3.1 不僅僅是更高的像素;它關乎一致性。此更新直接針對長期困擾 AI 影片的「閃爍」與身份丟失問題,提供一套能在多鏡頭間維持角色與風格保真度的工具,實質上向高階生成式媒體市場的霸主 OpenAI 的 Sora 2.0 發起挑戰。

Veo 3.1 的架構有何特徵?

Veo 3.1 建構於強化的 Transformer 式擴散架構之上,並針對多模態理解進行微調。與先前主要將文字映射到影片不同,Veo 3.1 將視覺輸入(圖像)與文字提示並列為一等公民。

這一架構轉變讓模型能「看見」使用者提供的資產——例如產品照、角色參考或特定背景——並以對 3D 幾何與光照的深刻理解來加以動畫化。結果是,一個更像數位算圖引擎、而非「拉霸機」的系統。

3.1 與先前版本相比有哪些變化?

  • 更豐富的參考綜合: 模型能更好地擷取特徵(臉部、服裝、表面材質、背景元素),並在多個影格中可靠重用,讓角色在整段影片中看起來是同一個。
  • 更聰明的構圖: 不再將橫式畫面裁成直式(或反之),Veo 3.1 原生生成直式構圖(9:16),因此主體位置、景深線索與動作更符合該格式的創作需求(對 TikTok/Shorts/Reels 的創意尤為關鍵)。
  • 短內容更快迭代: 在多個產品情境(Gemini app、Flow)中,UX 與模型皆針對 8 秒「社群優先」輸出進行調校,讓創作者可以快速試驗。

“Ingredients to Video” 如何運作?3.1 有哪些新變化?

本次版本的亮點是徹底重製的 “Ingredients to Video” 功能。此功能允許使用者提供多個明確的視覺「食材」,模型必須在最終輸出中加以運用,實質上打通了資產管理與影片生成之間的鴻溝。

“Ingredients to Video” 概念是什麼?

在先前版本中,「Image-to-Video」多為單張圖片動畫化的任務。Veo 3.1 擴展為允許上傳多張參考圖(最多三張)來定義場景。這些資產可作為主體(人物、物件、材質或背景),模型據此編排運動、鏡頭取景與轉場,生成一段保留所提供視覺識別的短片。這與純文字轉影片不同,因為它從一開始就對外觀與視覺連續性施加更強約束。

  • 情境式混合: 你可以上傳一張人物圖(Character A)、一張場景位置圖(Background B),以及一張風格參考(Style C)。Veo 3.1 會將這些獨立元素綜合成一支連貫的影片,讓 Character A 在 Environment B 中表演,並以 Style C 呈現。
  • 多模態提示: 這些視覺輸入會與文字協同作用。你可以提供一張產品圖片,再在文字提示中寫「explode into particles」,模型會在執行該物理效果的同時,嚴格遵守產品的視覺細節。

Veo 3.1 的 Ingredients 模式有哪些新變化?

  • 短提示也更具表現力: 當與 ingredient 圖片搭配時,即使簡短的文字提示也能產生更豐富的敘事與情感動作,讓你以更少迭代得到可用成果。
  • 更強的主體身份保留: 模型能在多鏡頭與場景切換中,更好地保留主體的視覺身份(臉部、服裝、產品標識),減少為維持連貫性而反覆提供資產的需求。
  • 物件與背景一致性: 物件與場景元素可跨剪接持續存在,提升敘事連貫,並能重複使用道具或材質。
  • 自動為場景加入動態動作與敘事節奏;
  • 輸出影片在「敘事性」與「臉部細節」上更為豐富,提升人眼觀感的自然度。

這些改進旨在減少圖像轉影片生成中最常見的痛點:主體漂移、背景不一致,以及在跨影格時風格化效果的流失。

Ingredients to Video 的實用場景

  • 由設計資產為品牌吉祥物製作動畫。
  • 將演員的人像照片轉成社群廣告的動態片段。
  • 在完整製作前,快速打樣視覺處理(光線、材質)。

Veo 3.1 帶來了哪些一致性升級?

在任何多鏡頭或多場景的生成序列中,維持主體身份(臉部、服裝、產品標籤)、物件位置與背景連續性,對敘事可信度至關重要。若出現細微的臉部結構、物件形狀或材質變化,便會破壞觀眾的沉浸感,並需要人工修正或重新生成。先前的影片模型往往在靈活性與一致性之間取捨;Veo 3.1 旨在縮小這種權衡。

Veo 3.1 使構建讀起來連續的短序列與故事節拍變得可行,而不再像是一連串彼此獨立的片段。此改進是 3.1 體驗的核心:

  • 時間穩定性: 模型顯著減少臉部或物件隨時間細微變形的「變形」效應。
  • 鏡頭間一致性: 透過在不同提示中使用相同的「ingredient」圖片,創作者能在不同情境下生成同一角色的多段片段,而不會看起來像不同的人。這對品牌規範與系列內容製作是巨大的進步。
  • 紋理混合:讓角色、物件與風格化背景自然融合,生成具有統一風格的高品質影片。

實際影響

對剪輯師與社群創作者而言,這意味著更少的修正與逐格描繪;對開發者與工作室來說,在自動化多鏡頭序列時的摩擦更低,且為維持資產間視覺連續性所需的人工篩選也更少。

Veo-3.1

Veo 3.1 輸出升級:直式與高保真輸出

原生直式輸出

隨著 TikTok、YouTube Shorts 與 Instagram Reels 的崛起,高品質直式影片的需求愈發強烈。Veo 3.1 終於以應有的嚴肅度對待這一格式。

Veo 3.1 引入原生 9:16 長寬比生成

  • 無需裁切: 不同於先生成方形或橫式再裁切(導致解析度與構圖損失),Veo 3.1 從一開始就以直式構圖。
  • 構圖智慧: 模型理解直式構圖規則,確保主體置中,並有效利用垂直延展的結構,而非生成寬闊地平線再勉強擠進手機畫面。

原生直式生成如何改變流程

  • 更快發佈: 無需後製裁切與重構圖。
  • 更佳構圖: 模型以直式構圖思維安排場景(頭頂空間、動作路徑)。
  • 平台就緒: 輸出可直接用於 TikTok 與 Shorts,僅需最少編輯。

高保真輸出

解析度長久以來是 AI 影片的瓶頸。Veo 3.1 以原生 4K 支援突破 720p/1080p 天花板。

  • 整合超解析度升級: 流水線包含全新的超解析度模組,可將生成內容升級至 4K (3840x2160)1080p,並維持高位元率的保真度。
  • 偽影抑制: 升級器專為生成式偽影而訓練,能在銳化邊緣的同時,平滑 AI 紋理常見的「閃動」現象,使輸出可直接納入專業剪輯時間線。

Veo 3.1 與 Sora 2.0 的比較

Google 的 Veo 3.1 與 OpenAI 的 Sora 2.0 的比較,勾勒出當前 AI 影片版圖。兩者皆強大,但服務重心不同。

功能Google Veo 3.1OpenAI Sora 2.0
核心理念控制與一致性。為需嚴格遵循特定資產(產品、角色)的製作工作流程而設計。模擬與物理。旨在以高擬真度模擬真實世界,聚焦「one-shot」生成魔力。支援文字轉影片與圖像轉影片,強調擬真度、物理準確性與聲音同步。
輸入彈性高。「Ingredients to Video」允許多圖注入,以精準控制資產。中。擅長文字轉影片與單張圖像起始畫面,但對特定元素的細粒度控制較少。
直式影片原生 9:16。針對行動格式最佳化構圖。支援,但訓練數據常偏向 16:9 寬螢幕電影感視覺。
解析度4K(透過升級)。銳利、可播出等級輸出。1080p 原生。品質高,但在 4K 工作流程需外部升級。
品牌安全高。強力防護欄與資產保真度,商業用更安全。不一。可能為了「創意」而產生誇張物理或脫離提示的細節。
身份/一致性以參考圖為錨點,改進主體與物件一致性(Ingredients)。Sora 2 亦強調多鏡頭一致性與可控性。

實務差異

  • 行動與直式流程: Veo 3.1 明確鎖定行動創作者,提供原生直式渲染與直接整合 YouTube Shorts,對短影音管線效率更有利。
  • 音訊與聲音同步: Sora 2 將對白與音效同步作為核心能力,對需要運動與音訊一體生成的創作者更具決定性。

總之:Veo 3.1 在行動格式與製作級升級方面縮小了關鍵實用差距,而 Sora 2 仍在整合音訊與某些寫實指標上領先。選擇取決於你的流程優先級:以行動優先、由圖像錨定的敘事(Veo),或追求具音訊的電影級寫實感(Sora 2)。

為何重要: 若你是社群創作者,想要一段長毛猛獁象走在紐約市的爆紅超擬真片段,Sora 2.0 往往能帶來更高的「每秒驚豔度」。然而,若你是廣告代理商,需要在特定海灘(Ingredient B)上為特定汽水罐(Ingredient A)製作直式 Instagram 廣告動畫,Veo 3.1 才是更佳工具。

開發者與創作者如何立即開始使用 Veo 3.1?

Veo 3.1 在哪裡可用?

Veo 3.1 可透過 Gemini API 並由 CometAPI 提供使用。Why I recommend CometAPI for you? Beacause it is cheapest and Easy to use, and you can also find sora 2 API etc in it.

使用範式與程式碼範例

import osimport timeimport requests​# 從 https://api.cometapi.com/console/token 取得你的 CometAPI 金鑰,並貼在此處COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"​# 建立影片生成任務create_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "一隻橘色的貓在藍天白雲中飛翔,陽光灑在牠的毛上,營造出美麗而夢幻的景象",        "model": "veo3.1",        "enhance_prompt": True,    },)​task = create_response.json()task_id = task["id"]print(f"已建立任務:{task_id}")print(f"狀態:{task['status']}")​# 輪詢直到影片就緒while True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )​    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")​    print(f"檢查狀態中... {status} {progress}")​    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"影片 URL:{video_url}")        break    elif status == "FAILED":        print(f"失敗:{result['data'].get('fail_reason', '未知錯誤')}")        break​    time.sleep(10)

結語

Veo 3.1 標誌著生成式影片的成熟。透過走出單純「文字到像素」的幻化,並提供強大的資產控制("Ingredients")、格式最佳化(原生直式)與交付品質(4K),Google 帶來了首個真正「工作室級」的生成式影片 API。對希望在大規模自動化內容生產的企業而言,可控且高保真的影片模型終於到來。

開發者可透過 CometAPI 存取 Veo 3.1 API。若要開始,請先在 Playground 探索 CometAPI 的模型能力,並參考 API guide 取得詳細指引。存取前,請確保已登入 CometAPI 並取得 API 金鑰。CometAPI 以遠低於官方的價格,協助你完成整合。

Ready to Go?→ Sign up for CometAPI today !

If you want to know more tips, guides and news on AI follow us on VK, X and Discord!

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣