全新 Veo3.1:更高的一致性、更多样的输出与更丰富

CometAPI
AnnaJan 14, 2026
全新 Veo3.1:更高的一致性、更多样的输出与更丰富

Google 的 Veo 3.1 于 1 月完成更新,带来了多项针对性的改进,使图像转视频工作流更接近可用于生产的质量。3.1 更新主要集中在四项实用升级上,让 image→video 工作流对创作者和开发者而言变得更加好用:增强版的“Ingredients to Video”流程,可根据参考图像生成动态片段;更强的人物与场景一致性;面向移动优先平台的原生竖屏(9:16)输出;以及新的高保真输出选项,包括改进后的 1080p 和 4K 超分辨率。对于一直在为社交媒体竖屏格式使用“先裁剪再编辑”工作流的创作者和开发者来说,Veo 3.1 的原生 9:16 输出和改进后的超分辨率有望减少摩擦,并交付更加精致、可直接用于平台发布的视频片段。

对于开发者和媒体专业人士而言,Veo 3.1 不只是像素更高;它关乎一致性。这次更新直接解决了长期困扰 AI 视频的“闪烁”和身份丢失问题,提供了一套能够在多个镜头之间保持角色与风格保真的工具,从而有效挑战 OpenAI 的 Sora 2.0 在高端生成式媒体市场中的主导地位。

Veo 3.1 架构的定义是什么?

Veo 3.1 基于增强版的 transformer 扩散架构构建,并针对多模态理解进行了微调。与其主要将文本映射为视频的前代模型不同,Veo 3.1 将视觉输入(图像)与文本提示一并视为一等公民。

这种架构转变使模型能够“看见”用户提供的素材——例如产品图、角色参考图或特定背景——并凭借对 3D 几何和光照的深度理解将其动画化。其结果是,这个系统给人的感觉不再像一台老虎机,而更像一台数字渲染引擎。

3.1 相比之前版本有哪些变化?

  • 更丰富的参考合成: 模型能够更好地提取特征(面部、服装、表面纹理、背景元素),并在多个帧中可靠地复用这些特征,因此角色在整个片段中看起来始终是同一个角色。
  • 更智能的构图: Veo 3.1 不再是将横屏画面裁剪以适配竖屏画布(反之亦然),而是原生生成竖屏构图(9:16),因此主体位置、景深线索和运动都更符合该格式的构图需求(这对 TikTok/Shorts/Reels 创意至关重要)。
  • 更快的短内容迭代: 在许多产品场景中(Gemini app、Flow),其 UX 和模型都针对 8 秒“社交优先”输出进行了优化,让创作者能够快速试验。

“Ingredients to Video” 如何工作,3.1 有哪些新变化?

本次发布中最突出的功能是彻底升级的 “Ingredients to Video” 能力。该功能允许用户提供不同的视觉“原料”,模型必须在最终输出中使用这些内容,从而有效弥合素材管理与视频生成之间的鸿沟。

“Ingredients to Video” 的概念是什么?

在之前的版本中,“Image-to-Video” 基本上是一个单图动画任务。Veo 3.1 则将其扩展为允许用户上传多张参考图像(最多三张)来定义场景。这些素材可作为主体(人物、物体、纹理或背景),模型围绕它们来构建运动、镜头构图和转场,从而生成一段在保留所提供视觉身份的同时具备连贯性的短视频。这与纯 text-to-video 不同,因为它从一开始就对外观和视觉连续性施加了更强约束。

  • 上下文融合: 你可以上传一张人物图(角色 A)、一张地点图(背景 B)以及一张风格参考图(风格 C)。Veo 3.1 会将这些不同元素合成为一个连贯的视频,让角色 A 在环境 B 中活动,并以风格 C 呈现。
  • 多模态提示: 这种视觉输入可与文本协同工作。你可以提供一张产品图片,并给出“explode into particles”这样的文本提示,模型会在严格遵守产品视觉细节的同时,执行文本提示中的物理效果。

Veo 3.1 的 Ingredients 模式有哪些新内容?

Veo 3.1 为 Ingredients 流程带来了几项具体改进:

  • 最少提示也能获得更强表现力: 即使是简短的文本提示,在与 ingredient 图像配合使用时,也能产生更丰富的叙事和情绪化动作,使用户能以更少的迭代获得可用结果。
  • 更强的主体身份保留: 模型在多个镜头和场景变化中,能更好地保留主体的视觉身份(面部、服装、产品标识)。这减少了为保证连续性而重复提供素材的需要。
  • 物体与背景一致性: 物体和场景元素可以跨剪辑持续存在,从而提升叙事连贯性,并支持道具或纹理的重复利用。
  • 自动为场景添加动态动作和叙事节奏;
  • 输出视频在“故事性”和“面部细节”方面更加丰富,增强了人类视觉感知中的自然度。

这些改进旨在减少图像转视频生成中最常见的痛点:主体漂移、背景不一致,以及在帧间切换时风格化效果丢失。

Ingredients to Video 的实际应用场景

  • 将品牌吉祥物设计素材动画化。
  • 将演员肖像照片转化为社交广告中的动态片段。
  • 在完整制作流程前,快速原型化视觉处理方案(光照、纹理)。

Veo 3.1 引入了哪些一致性升级?

在任何多镜头或多场景生成序列中,保持主体身份(面部、服装、产品标签)、物体位置以及背景连续性,对于叙事可信度都至关重要。不一致——例如面部结构、物体形状或纹理的细微变化——会打破观众的沉浸感,并需要人工干预或重新生成。前几代视频模型往往以灵活性换取连贯性;Veo 3.1 试图缩小这种权衡。

Veo 3.1 使构建短序列和故事节点成为可能,这些内容读起来更像连续叙事,而不是一组彼此独立的小片段。这项改进是 3.1 体验的核心:

  • 时间稳定性: 模型显著减少了面部或物体随时间轻微变形的“morphing”效应。
  • 镜头间连贯性: 通过在不同提示中使用相同的“ingredient”图像,创作者可以生成同一角色在不同场景中的多个片段,而不会让他们看起来像不同的人。这对于品牌规范和系列化内容创作而言是一次巨大的飞跃。
  • 纹理融合:允许角色、物体和风格化背景自然融合,生成风格统一的高质量视频。

实际影响

对剪辑师和社交内容创作者来说,这意味着更少的修正和更少的转描;对开发者和工作室来说,这降低了自动化多镜头序列时的摩擦,并减少了为保持素材间视觉连续性所需的人工筛选。

Veo-3.1

Veo 3.1 输出升级:竖屏与高保真输出

原生竖屏输出

随着 TikTok、YouTube Shorts 和 Instagram Reels 的主导地位确立,市场对高质量竖屏视频的需求已近乎无止境。Veo 3.1 终于以应有的重视程度对待这一格式。

Veo 3.1 引入了原生 9:16 宽高比生成

  • 无需裁剪: 不同于早期工作流先生成方形或横屏视频再进行裁剪(这会损失分辨率和构图),Veo 3.1 从一开始就按竖屏方式进行构图。
  • 构图智能: 模型理解竖屏构图规则,确保主体居中,并能有效利用高耸结构,而不是生成在手机屏幕中被压缩后显得别扭的宽阔地平线。

原生竖屏生成如何改变工作流

  • 发布更快: 无需在生成后再进行裁剪和重新构图。
  • 更好的构图: 模型在构建场景时就考虑了竖屏取景(头部留白、动作路径)。
  • 平台就绪: 导出内容适合 TikTok 和 Shorts,仅需极少编辑。

高保真输出

分辨率一直是 AI 视频的主要瓶颈。Veo 3.1 以原生 4K 支持打破了 720p/1080p 的上限。

  • 集成超分辨率: 该流程包含一个新的超分辨率模块,可将生成内容以高比特率保真度放大到 4K (3840x2160)1080p
  • 伪影减少: 该超分模型专门针对生成式伪影进行训练,能够平滑 AI 纹理中常见的“闪烁”现象,同时锐化边缘,使输出适合进入专业剪辑时间线。

Veo 3.1 与 Sora 2.0 相比表现如何?

Google 的 Veo 3.1 与 OpenAI 的 Sora 2.0 之间的比较定义了当前 AI 视频领域的格局。虽然两者都很强大,但它们服务的核心需求不同。

FeatureGoogle Veo 3.1OpenAI Sora 2.0
Primary Philosophy控制与一致性。为需要尊重特定素材(产品、角色)的生产工作流而设计。模拟与物理。旨在以高保真模拟真实世界,专注于“一镜生成”的魔力。支持 text-to-video 和 image-to-video,并强调照片级真实感、物理准确性和同步音频。
Input Flexibility高。“Ingredients to Video” 允许注入多张图像,以实现精确的素材控制。中等。text-to-video 和单图起始帧能力强,但对特定元素的细粒度控制较少。
Vertical Video原生 9:16。针对移动格式优化构图。支持,但训练数据通常更偏向电影感的 16:9 宽屏视觉。
Resolution4K(通过 Upscaling)。清晰、可用于广播级输出。原生 1080p。质量很高,但 4K 工作流需要外部超分辨率。
Brand Safety高。强护栏和素材保真度使其更适合商业使用。可变。可能为了“创造力”而产生偏离提示的夸张物理效果或细节幻觉。
Identity/consistency借助参考图像(Ingredients)提升主体和物体一致性Sora 2 也强调多镜头一致性和可控性

实际差异化

  • 移动端与竖屏工作流: Veo 3.1 明确面向移动端创作者,支持原生竖屏渲染和直接集成 YouTube Shorts——这对于短内容流程效率是一项优势。
  • 音频与同步声音: Sora 2 将同步对白和音效作为核心能力,这对于需要将音频生成与运动统一整合的创作者而言可能是决定性因素。

简而言之:Veo 3.1 缩小了在移动格式化和生产级超分方面的重要实用差距,而 Sora 2 仍在集成音频和某些真实感指标上领先。选择取决于工作流优先级:移动优先、图像锚定叙事(Veo) vs. 带音频的电影级真实感(Sora 2)。

为什么这很重要: 如果你是一名社交媒体创作者,希望获得一段“猛犸象走过纽约街头”那种具有爆款潜力、极具真实感的片段,Sora 2.0 往往每秒都能带来更多“惊艳感”。但如果你是一家广告代理公司,需要为竖版 Instagram 广告让一罐特定的汽水(Ingredient A)出现在特定海滩(Ingredient B)上并动起来,那么 Veo 3.1 才是更优工具。

开发者和创作者今天如何开始使用 Veo 3.1?

Veo 3.1 在哪里可用?

Veo 3.1 已通过 CometAPI 在 Gemini API 中提供。Why I recommend CometAPI for you? Beacause it is cheapest and Easy to use, and you can also find sora 2 API etc in it.

示例用法模式与代码示例

import osimport timeimport requests​# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"​# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)​task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")​# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )​    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")​    print(f"Checking status... {status} {progress}")​    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break​    time.sleep(10)

结论

Veo 3.1 标志着生成式视频正在走向成熟。Google 不再停留于简单的 text-to-pixel 幻觉生成,而是通过提供强大的素材控制工具(“Ingredients”)、格式优化(原生竖屏)和交付质量(4K),首次带来了真正“工作室级”的生成式视频 API。对于希望大规模自动化内容生产的企业来说,一个可控、高保真的视频模型终于到来了。

开发者可通过 CometAPI 访问 Veo 3.1 API。要开始使用,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API guide 获取详细说明。访问前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的定价,帮助你完成集成。

准备开始了吗?→ 立即注册 CometAPI

如果你想了解更多 AI 技巧、指南和新闻,请在 VKXDiscord 上关注我们!

准备好将AI开发成本降低20%了吗?

几分钟内免费开始。包含免费试用额度。无需信用卡。

阅读更多