Google 的 Veo 3.1 于 1 月更新,带来了有针对性的改进,使图像转视频工作流更接近生产级质量。3.1 更新主要聚焦于四项实用升级,显著提升了 image→video 工作流对创作者和开发者的可用性:更强大的“Ingredients to Video”流程,可基于参考图像生成动态片段;更强的人物与场景一致性;面向移动优先平台的原生竖屏(9:16)输出;以及包括改进的 1080p 和 4K 超分辨率在内的全新高保真输出选项。对于一直通过“先裁剪再编辑”工作流来适配社交媒体竖屏格式的创作者和开发者而言,Veo 3.1 的原生 9:16 输出和改进后的超分辨率有望减少摩擦,并交付更加精致、可直接用于平台发布的视频片段。
对于开发者和媒体专业人士而言,Veo 3.1 不仅仅意味着更高的像素;它更关乎一致性。此次更新直接解决了长期困扰 AI 视频的“闪烁”和身份丢失问题,提供了一套能够在多个镜头之间维持角色与风格保真度的工具集,从而在高端生成式媒体市场中,切实向 OpenAI 的 Sora 2.0 发起主导地位挑战。
Veo 3.1 架构的定义是什么?
Veo 3.1 基于增强型 transformer 扩散架构构建,并针对多模态理解进行了微调。与其前代主要执行文本到视频映射不同,Veo 3.1 将视觉输入(图像)与文本提示一同视为一等输入。
这种架构转变使模型能够“看见”用户提供的素材——例如产品图、角色参考图或特定背景——并凭借对 3D 几何和光照的深度理解对其进行动画化。其结果是,这套系统不像老虎机,更像数字渲染引擎。
3.1 相较于之前版本有哪些变化?
- 更丰富的参考合成能力: 模型能更好地提取特征(面部、服装、表面纹理、背景元素),并在多个帧中可靠复用,因此角色在整段视频中看起来始终是同一个角色。
- 更智能的构图: Veo 3.1 不再通过裁剪横屏画面来适配竖屏画布(反之亦然),而是原生生成竖屏构图(9:16),从而使主体位置、景深线索和运动方式更符合该格式(这对 TikTok/Shorts/Reels 创意内容至关重要)。
- 更快的短内容迭代: 在许多产品场景(Gemini app、Flow)中,其 UX 和模型都针对 8 秒“社交优先”输出进行了优化,使创作者能够快速试验。
“Ingredients to Video” 如何工作,3.1 又有哪些新变化?
此次发布最突出的功能,是经过全面升级的 “Ingredients to Video” 能力。该功能允许用户提供不同的视觉“素材”,而模型必须在最终输出中使用这些素材,从而有效弥合素材管理与视频生成之间的鸿沟。
“Ingredients to Video” 的概念是什么?
在之前的版本中,“Image-to-Video”基本上还是单张图片动画化任务。Veo 3.1 则进一步扩展,允许用户上传多张参考图像(最多三张)来定义场景。这些素材可作为主体(人物、物体、纹理或背景),模型围绕它们进行运动、镜头构图和转场编排,以生成一段短视频,并保持所提供视觉身份的完整性。这一点不同于纯文本生成视频,因为它从一开始就对外观和视觉连续性施加了更强约束。
- 上下文融合: 你可以上传一张人物图片(Character A)、一张地点图片(Background B)和一张风格参考图(Style C)。Veo 3.1 会将这些不同元素合成为一个连贯视频,使 Character A 在 Environment B 中活动,并以 Style C 呈现。
- 多模态提示: 这种视觉输入可与文本协同工作。你可以提供一张产品图片,并配上一条文本提示“explode into particles”,模型会在严格遵循产品视觉细节的同时,执行文本提示中的物理效果。
Veo 3.1 的 Ingredients 模式有哪些新内容?
Veo 3.1 为 Ingredients 流程带来了若干具体改进:
- 从最少提示中获得更强表现力: 即使是简短的文本提示,在与 ingredient 图像配合时,也能产生更丰富的叙事性和情绪化动作,从而以更少迭代得到可用结果。
- 更强的主体身份保持: 模型在多个镜头和场景变化中,能更好地保留主体的视觉身份(面部、服装、产品标记),减少为保持连续性而反复重新提供素材的需要。
- 物体与背景一致性: 物体和场景元素可跨剪辑持续存在,从而提升叙事连贯性,并支持道具或纹理复用。
- 自动为场景添加动态动作与叙事节奏;
- 输出视频在“叙事性”和“面部细节”上更加丰富,增强了人类视觉感知中的自然度。
这些改进旨在减少图像转视频生成中最常见的痛点:主体漂移、背景不一致,以及帧间切换时风格化效果的丢失。
Ingredients to Video 的实际用例
- 基于设计素材为品牌吉祥物制作动画。
- 将演员的人像照片转化为社交广告中的动态片段。
- 在进入完整制作流程之前,快速原型化视觉处理方案(光照、纹理)。
Veo 3.1 引入了哪些一致性升级?
在任何多镜头或多场景生成序列中,维持主体身份(面部、服装、产品标签)、物体位置和背景连续性,对叙事可信度都至关重要。不一致——例如面部结构、物体形状或纹理的细微变化——会打破观众的沉浸感,并需要人工干预或重新生成。此前几代视频模型往往在灵活性与连贯性之间做权衡;Veo 3.1 试图缩小这种取舍。
Veo 3.1 使构建短序列和剧情节拍成为可能,让其读起来更像连续叙事,而不是一组彼此独立的小片段。这一改进是 3.1 体验的核心:
- 时间稳定性: 模型显著减少了面部或物体随时间轻微变形的“morphing”效应。
- 镜头间连贯性: 通过在不同提示中使用相同的“ingredient”图像,创作者可以生成同一角色在不同场景中的多个片段,而不会看起来像不同的人。这对于品牌规范和连续剧式内容创作而言是巨大飞跃。
- 纹理融合:允许角色、物体和风格化背景自然融合,生成具有统一风格的高质量视频。
实际影响
对于剪辑师和社交媒体创作者来说,这意味着更少的修正和更少的 rotoscoping;对于开发者和工作室来说,这降低了自动化多镜头序列时的摩擦,并减少了为维持素材间视觉连续性所需的人工筛选工作。

Veo 3.1 输出升级:竖屏与高保真输出
原生竖屏输出
随着 TikTok、YouTube Shorts 和 Instagram Reels 的主导地位确立,对高质量竖屏视频的需求已近乎无止境。Veo 3.1 终于以应有的重视程度对待这一格式。
Veo 3.1 引入了原生 9:16 宽高比生成。
- 无需裁剪: 不同于早期工作流先生成方形或横屏视频再裁切(损失分辨率和构图),Veo 3.1 从一开始就按竖屏方式进行镜头构图。
- 构图智能: 模型理解竖屏构图规则,确保主体居中、纵向结构得到有效利用,而不是生成被压进手机屏幕后显得别扭的宽阔地平线。
原生竖屏生成如何改变工作流
- 更快发布: 无需在生成后再做裁剪和重新取景。
- 更好的构图: 模型在构图场景时就考虑竖屏取景(头顶留白、动作路径)。
- 可直接用于平台: 导出内容适用于 TikTok 和 Shorts,仅需极少编辑。
高保真输出
分辨率一直是 AI 视频的主要瓶颈。Veo 3.1 以原生支持 4K打破了 720p/1080p 的上限。
- 集成超分辨率: 该流程包含新的超分辨率模块,可将生成内容以高码率保真度放大到 4K (3840x2160) 或 1080p。
- 伪影抑制: 该超分模型专门针对生成式伪影进行训练,能够平滑 AI 纹理中常见的“shimmer”现象,同时增强边缘清晰度,使输出更适合专业剪辑时间线。
Veo 3.1 与 Sora 2.0 相比如何?
Google 的 Veo 3.1 与 OpenAI 的 Sora 2.0 之间的比较,定义了当前 AI 视频领域的格局。两者都很强大,但服务的核心目标不同。
| Feature | Google Veo 3.1 | OpenAI Sora 2.0 |
|---|---|---|
| Primary Philosophy | 控制与一致性。为必须尊重特定素材(产品、角色)的生产工作流而设计。 | 模拟与物理。旨在高保真地模拟现实世界,侧重“一镜生成”的魔力。支持 text-to-video 和 image-to-video,强调照片级真实感、物理准确性以及同步音频。 |
| Input Flexibility | 高。“Ingredients to Video” 允许注入多张图像,以精确控制素材。 | 中。text-to-video 和单图起始帧能力较强,但对特定元素的精细控制较少。 |
| Vertical Video | 原生 9:16。针对移动端格式优化构图。 | 支持,但训练数据往往更偏向电影感 16:9 宽屏视觉。 |
| Resolution | 4K(通过 Upscaling)。清晰、可用于广播级输出。 | 原生 1080p。质量很高,但在 4K 工作流中需要外部超分辨率。 |
| Brand Safety | 高。强护栏和素材保真度使其更适合商业使用。 | 可变。可能为了“创造力”而幻觉出夸张物理效果或偏离提示的细节。 |
| Identity/consistency | 改进了基于参考图像(Ingredients)锚定的主体与物体一致性 | Sora 2 同样强调多镜头一致性和可控性 |
实际差异化
- 移动端与竖屏工作流: Veo 3.1 明确面向移动创作者,提供原生竖屏渲染和直接 YouTube Shorts 集成——这对于短内容流程效率而言是一项优势。
- 音频与同步声音: Sora 2 将同步对白和音效作为核心能力之一,这对需要将音频生成功能与画面运动集成的创作者来说可能是决定性因素。
简而言之:Veo 3.1 在移动格式适配和生产级超分辨率方面缩小了关键的实用差距,而 Sora 2 在集成音频和某些真实感指标上仍然领先。选择取决于工作流优先级:移动优先、图像锚定叙事(Veo)vs. 具备音频的电影级真实感(Sora 2)。
为什么这很重要: 如果你是一名社交媒体创作者,想要制作一段猛犸象穿行纽约的病毒式超真实短片,Sora 2.0 往往每秒都能带来更强的“惊艳感”。但如果你是一家广告公司,需要让某一特定汽水罐(Ingredient A)在某一特定海滩(Ingredient B)上出现在一则竖屏 Instagram 广告中,Veo 3.1 才是更优工具。
开发者和创作者今天如何开始使用 Veo 3.1?
Veo 3.1 在哪里可用?
Veo 3.1 可通过 CometAPI 在 Gemini API 中使用。为什么我向你推荐 CometAPI?因为它最便宜且易于使用,而且你也可以在其中找到 sora 2 API 等。
示例使用模式与代码示例
import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post( f"{BASE_URL}/create", headers={ "Authorization": COMETAPI_KEY, "Content-Type": "application/json", }, json={ "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene", "model": "veo3.1", "enhance_prompt": True, },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True: query_response = requests.get( f"{BASE_URL}/query/{task_id}", headers={ "Authorization": f"Bearer {COMETAPI_KEY}", }, ) result = query_response.json() status = result["data"]["status"] progress = result["data"].get("progress", "") print(f"Checking status... {status} {progress}") if status == "SUCCESS" or result["data"]["data"]["status"] == "completed": video_url = result["data"]["data"]["video_url"] print(f"Video URL: {video_url}") break elif status == "FAILED": print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}") break time.sleep(10)
结论
Veo 3.1 代表了生成式视频的成熟。通过超越简单的文本到像素幻觉生成,并提供稳健的素材控制工具(“Ingredients”)、格式优化(原生竖屏)和交付质量(4K),Google 提供了首个真正“工作室级”的生成式视频 API。对于希望大规模自动化内容生产的企业而言,一个可控、高保真的视频模型终于不再只是等待中的未来。
开发者可以通过 CometAPI 访问 Veo 3.1 API。开始之前,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API guide 获取详细说明。访问前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的定价,以帮助你完成集成。
准备好开始了吗?→ 立即注册 CometAPI!
