Google 的 Veo 3.1 于一月更新,带来聚焦的改进,使图像→视频的工作流更接近生产级质量。3.1 版本围绕四项实用升级展开,让图像→视频工作流对创作者与开发者而言显著更易用:强化的 “Ingredients to Video” 管线,可从参考图像生成动态片段;跨角色与场景的一致性更强;为移动优先平台提供原生竖屏(9:16)输出;以及包括改进的 1080p 与 4K 超分在内的高保真输出选项。对于一直在为社交竖屏格式绕行“先裁剪再编辑”流程的创作者与开发者,Veo 3.1 的原生 9:16 输出与改进的超分有望降低摩擦,产出更精致、即开即用的平台级短片。
对于开发者与媒体专业人士而言,Veo 3.1 不仅仅是更高像素,更重要的是一致性。此次更新直面困扰 AI 视频已久的“闪烁”与身份丢失问题,提供一套能够在多镜头中维持角色与风格保真度的工具,有效对标 OpenAI 的 Sora 2.0,争夺高端生成式媒体市场的话语权。
Veo 3.1 的架构特征是什么?
Veo 3.1 构建在增强的、基于 Transformer 的扩散架构之上,并针对多模态理解进行微调。不同于此前主要从文本到视频的映射,Veo 3.1 将视觉输入(图像)与文本提示并列为“一等公民”。
这种架构转变使模型能够“看见”用户提供的素材——例如产品拍摄图、角色参考或特定背景——并以对 3D 几何与光照的深刻理解为其赋予动画。结果是一个更像数字渲染引擎、而不是“拉老虎机”般碰运气的系统。
相比以往版本,3.1 有哪些变化?
- 更丰富的参考综合:模型更好地提取特征(面部、服装、表面纹理、背景元素),并在多帧中可靠复用,使角色在整段视频中看起来是同一个角色。
- 更聪明的构图:不再通过裁剪横屏以适应竖屏画布(反之亦然),Veo 3.1 原生生成竖屏构图(9:16),让主体位置、景深线索与运动感受更契合该格式(对 TikTok/Shorts/Reels 创意至关重要)。
- 面向短内容的更快迭代:UX 与模型在诸多产品场景(Gemini app、Flow)中均针对 8 秒“社交优先”输出做了调优,让创作者更快试验。
“Ingredients to Video” 如何工作?3.1 有何新变化?
本次版本的亮点是经全面改造的 “Ingredients to Video” 能力。该功能允许用户提供彼此不同的视觉“配料”,模型必须在最终输出中加以利用,从而在素材管理与视频生成之间架起桥梁。
什么是 “Ingredients to Video” 概念?
在之前的版本中,“图像转视频”基本是单张图像的动画化任务。Veo 3.1 将其扩展为允许用户上传多张参考图像(最多三张)来定义场景。这些素材充当主体(人物、物体、纹理或背景),模型围绕它们编排运动、镜头构图与转场,生成在外观上保持所提供视觉身份不变的短视频。这与纯文本转视频不同,因为它从一开始就对外观与视觉连贯性施加了更强约束。
- 情境化融合:你可以上传一张人物图(角色 A)、一张地点图(背景 B)以及一张风格参考(风格 C)。Veo 3.1 将这些不同元素综合为一个连贯的视频,让角色 A 在环境 B 中表演,并以风格 C 呈现。
- 多模态提示:该视觉输入与文本协同工作。你可以提供一张产品图,并在文本提示中写“爆裂成粒子”,模型会在严格遵循产品视觉细节的同时,执行文本提示中的物理效果。
Veo 3.1 的 Ingredients 模式有哪些新变化?
Veo 3.1 为 Ingredients 流程带来了几项具体改进:
- 极简提示亦可表达:即使是简短的文本提示,配合配料图像也能产出更丰富的叙事与情感运动,更容易以更少迭代获得可用结果。
- 更强的主体身份保持:模型更好地在多镜头与场景切换中保留主体的视觉身份(面部、服装、产品标识),减少为连贯性而反复重传素材的需要。
- 物体与背景一致性:物体与场景元素可在剪辑中持续出现,提升故事连贯性,并支持道具或纹理的复用。
- 自动为场景注入动态动作与叙事节奏;
- 输出视频在“叙事性”与“面部细节”上更为丰富,增强人类视觉感知的自然度。
这些改进旨在减少图像转视频生成中最常见的痛点:主体漂移、背景不一致,以及跨帧移动时风格化丢失。
Ingredients to Video 的实践用例
- 从设计素材中为品牌吉祥物制作动画。
- 将演员的人像照片转换为社交广告用的动态短片。
- 在正式制作前快速打样视觉处理(光照、纹理)。
Veo 3.1 带来了哪些一致性升级?
在任何多镜头或多场景的生成序列中,维持主体身份(面部、服装、产品标签)、物体位置与背景延续性,对叙事可信度至关重要。不一致——面部结构、物体形状或纹理的轻微变化——会打破观众的沉浸感,并需要手动修正或重生成。以往的视频模型常在灵活性与连贯性间权衡;Veo 3.1 试图缩小这一取舍。
Veo 3.1 使构建读起来像连续叙事而非一系列独立小片段的短序列与故事节点成为可能。这一改进是 3.1 体验的核心:
- 时序稳定性:模型显著降低了面部或物体随时间“变形”的效果。
- 镜头间一致性:通过在不同提示中重复使用同一“配料”图像,创作者可以在不同场景下生成同一角色的多段短片,而不会看起来像不同的人。对于品牌规范与系列内容创作,这是一个巨大飞跃。
- 纹理融合:允许角色、物体与风格化背景自然融合,生成风格统一的高质量视频。
实际影响
对剪辑师与社交创作者而言,这意味着更少的修正与更少的抠像;对开发者与工作室而言,它降低了自动化多镜头序列的摩擦,并减少了为维持跨素材视觉连贯性而进行的人工筛选。

Veo 3.1 输出升级:竖屏与高保真输出
原生竖屏输出
随着 TikTok、YouTube Shorts 与 Instagram Reels 的主导地位,高质量竖屏视频的需求愈发旺盛。Veo 3.1 终于以应有的严肃态度对待这一格式。
Veo 3.1 引入原生 9:16 纵横比生成。
- 无需裁剪:不同于早期先生成方形或横屏再裁剪(损失分辨率与构图)的流程,Veo 3.1 从一开始就以竖屏进行构图。
- 构图智能:模型理解竖屏构图规则,确保主体居中、充分利用高耸结构,而不是生成被挤进手机屏幕时显得别扭的宽阔地平线。
原生竖屏生成如何改变工作流程
- 发布更快:无需生成后再裁剪与重构图。
- 更佳构图:模型以竖屏为前提进行场景构图(人物头顶留白、动作路径)。
- 即刻上平台:几乎无需编辑即可用于 TikTok 与 Shorts 的导出。
高保真输出
分辨率一直是 AI 视频的主要瓶颈。Veo 3.1 以原生 4K 支持打破 720p/1080p 的天花板。
- 集成超分:管线包含全新的超分辨率模块,可将生成内容以高比特率保真度超分至 4K(3840x2160)或 1080p。
- 伪影抑制:该超分器针对生成式伪影进行专门训练,可在锐化边缘的同时平滑 AI 纹理中常见的“闪烁感”,使输出适用于专业剪辑时间线。
Veo 3.1 与 Sora 2.0 的对比如何?
Google 的 Veo 3.1 与 OpenAI 的 Sora 2.0 的对比定义了当前的 AI 视频版图。两者都很强,但服务的重心不同。
| 功能 | Google Veo 3.1 | OpenAI Sora 2.0 |
|---|---|---|
| 核心理念 | 可控性与一致性。面向需要严格尊重特定素材(产品、角色)的生产工作流而设计。 | 模拟与物理。致力于高保真模拟真实世界,强调“一次成片”的魔法。文本转视频与图像转视频,突出写实性、物理准确性与音频同步。 |
| 输入灵活性 | 高。“Ingredients to Video” 支持多图注入,实现精确的素材控制。 | 中。文本转视频与单图起始帧能力强,但对特定元素的粒度化控制相对较弱。 |
| 竖屏视频 | 原生 9:16。为移动端格式优化的构图。 | 支持,但训练数据常偏好电影级 16:9 宽屏视觉。 |
| 分辨率 | 4K(经超分)。清晰、可用于广播级输出。 | 1080p 原生。质量高,但在 4K 工作流中需要外部超分。 |
| 品牌安全性 | 高。强力护栏与素材保真度使其更适合商业使用。 | 可变。可能为“创造性”而产生离谱的物理或细节幻觉。 |
| 身份/一致性 | 基于参考图像(Ingredients)改进的主体与物体一致性 | Sora 2 也强调多镜头一致性与可控性 |
实际差异点
- 移动与竖屏工作流:Veo 3.1 以原生竖屏渲染与直连 YouTube Shorts 明确瞄准移动创作者—在短视频管线效率上占优。
- 音频与同步声音:Sora 2 将同步对白与音效作为核心能力,这对需要运动与音频一体化生成的创作者可能更为关键。
简言之:Veo 3.1 在移动格式与生产级超分等实际环节上缩小了重要差距,而 Sora 2 在一体化音频与某些写实指标上仍具领先。如何选择取决于工作流优先级:移动优先、以图像为锚的叙事(Veo)vs. 带音频的电影级写实(Sora 2)。
为何重要:如果你是社媒创作者、想要一段长毛猛犸象走在纽约的爆款超写实短片,Sora 2.0 往往能在单位时间内带来更多“惊艳”。但如果你是广告代理,需要把特定的苏打罐(配料 A)在特定的海滩(配料 B)上做成竖屏 Instagram 广告动画,Veo 3.1 则是更优的工具。
开发者与创作者如何立即上手使用 Veo 3.1?
Veo 3.1 在哪里可用?
Veo 3.1 可通过 CometAPI 的 Gemini API 使用。为什么向你推荐 CometAPI?Beacause it is cheapest and Easy to use,你也能在其中找到 sora 2 API 等等。
用法模式与代码示例
import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post( f"{BASE_URL}/create", headers={ "Authorization": COMETAPI_KEY, "Content-Type": "application/json", }, json={ "prompt": "一只橙色的猫在蓝天白云中飞翔,阳光洒在它的毛发上,营造出美丽而梦幻的场景", "model": "veo3.1", "enhance_prompt": True, },)task = create_response.json()task_id = task["id"]print(f"任务已创建: {task_id}")print(f"状态: {task['status']}")# Poll until video is readywhile True: query_response = requests.get( f"{BASE_URL}/query/{task_id}", headers={ "Authorization": f"Bearer {COMETAPI_KEY}", }, ) result = query_response.json() status = result["data"]["status"] progress = result["data"].get("progress", "") print(f"检查状态中... {status} {progress}") if status == "SUCCESS" or result["data"]["data"]["status"] == "completed": video_url = result["data"]["data"]["video_url"] print(f"视频地址: {video_url}") break elif status == "FAILED": print(f"失败: {result['data'].get('fail_reason', 'Unknown error')}") break time.sleep(10)
结语
Veo 3.1 标志着生成式视频的成熟。通过超越“从文本到像素的幻觉式生成”,并提供面向素材控制(“Ingredients”)、格式优化(原生竖屏)与交付质量(4K)的一整套稳健工具,Google 交出了一套真正“工作室级”的生成式视频 API。对于希望在规模化自动化内容生产方面发力的企业而言,可控且高保真的视频模型终于姗姗来迟。
开发者可通过 CometAPI 访问 Veo 3.1 API。开始之前,可在 Playground 探索 CometAPI 的模型能力,并查阅 API 指南 获取详细说明。访问前,请确保已登录 CometAPI 并获取 API Key。CometAPI 以远低于官方的价格帮助你集成。
Ready to Go?→ 立即注册 CometAPI !
