Google 的 Veo 3.1:AI 视频的新版本有哪些变化,如何使用它?

CometAPI
AnnaOct 15, 2025
Google 的 Veo 3.1:AI 视频的新版本有哪些变化,如何使用它?

Google 今日通过 Veo 3.1 扩展其生成式视频工具包,这是一项渐进但意义重大的更新,面向公司的 Veo 视频模型家族。Veo 3.1 被定位为快速原型生成与更高保真度制作流程之间的平衡点,带来更丰富的音频、更长且更连贯的片段生成、更严格的提示遵循,以及一系列工作流特性,旨在让 AI 驱动的视频对叙事者、品牌与开发者更有用。该版本与 Google 的 Flow 编辑应用的更新同时发布,并以付费预览的形式在 Google 的开发者平台上线。

什么是 Veo 3.1?

Veo 3.1 是 Google 生成式视频模型家族的最新公开迭代。它在 Veo 3 的架构与特性之上构建,但重点强化了音频集成、更长片段时长与叙事连贯性。早期版本侧重于短、可循环或概念验证的片段(通常仅几秒),而 Veo 3.1 支持明显更长的单一片段——在某些生成模式下,Google 及其合作伙伴已展示可达一分钟的输出——并以 1080p 输出为高保真用例的基线。该模型还为影视创作者引入了便捷功能,例如可提供首帧与末帧以规定视觉弧线,“Ingredients to Video”(由多张参考图驱动内容),以及场景延展(在保持上下文的前提下生成额外秒数的画面)。

提供两种运行风格:主力 Veo 3.1 模型(面向质量与保真度)以及 Veo 3.1 Fast(以部分保真度换取更快迭代),让团队可先快速原型,再升尺度或重渲更高质量版本用于最终交付。

Veo 3.1 明确定位为一次进化式升级,强化音频、延长场景时长,并新增精细的编辑能力(插入/移除、场景延展、首末帧插值与参考图指导),而非重写架构。与 2025 年早些时候发布的 Veo 3 相比,Veo 3.1 围绕三条务实向量构建:(1)更丰富的原生音频,(2)高级场景与镜头控制,(3)质量与时长的提升。

更丰富的原生音频覆盖各项功能

虽然 Veo 3 引入了同步声音,Veo 3.1 进一步扩展了该音频输出的丰富度与上下文感知。Veo 3.1 将同步、具备上下文的音频(对话、环境声与效果)作为内置输出,而不再需要单独的声音设计流程。Google 将生成音频明确加入此前产出静默视频的功能(例如 Ingredients to Video、Frames to Video 与 Scene Extension)。这一变化减少了后期制作步骤,使创作者与团队更易于快速迭代。Google 描述为“更丰富的音频”,并在角色说话时改进了口型同步。

高级场景与镜头控制

Veo 3.1 强调与制作流程契合的控制(参考图、场景延展、首末帧插值、插入/移除),更好映射电影制作人的工作流。这在创意管线与企业自动化中是一项明显优势。

创作者可提供首帧与末帧或“ingredients”(一组图像),Veo 3.1 将生成连贯的转场与中间运动,保留角色外观与场景布局,从而提升叙事或品牌内容的连贯性。

多提示/多镜头序列与角色一致性: 新的工作流特性可在多个镜头与多条提示中维持角色身份与视觉连贯性,使单一角色或道具在整个序列中正确保持。

电影预设与灯光控制: 内置灯光与机位预设(dolly、push、zoom、depth-of-field、cinematic LUTs),以加速制作并降低对高级提示工程的需求。

质量与时长的改进

Veo 3.1 支持更长的片段(有报道称在 Flow 的场景延展功能中可达约 60 秒),而 Veo 3 主要聚焦于短(8 秒)的高保真片段。更长时长的可用性可能受界面(Flow)或 API 参数限制。

更佳的图像→视频保真度 — 当模型提供参考图(首/末帧、多个参考)时的渲染改进,使角色身份与场景一致性更稳定。

输出同时提供横屏(16:9)与竖屏(9:16)选项,可直接服务社媒与播出场景。

安全、溯源与水印

Google 在其生成式模型中强调安全与溯源特性;Veo 3.1 延续这一趋势。早期报道中,Google 指出:

  • SynthID 与溯源方法(在支持的场景中)帮助将 AI 生成的媒体追溯到模型/来源,并防范滥用。
  • 内容政策护栏 在 Flow 编辑器与 API 中(因地区/套餐而异),并提供审核工具以减少有害或敏感内容的生成。

创作者仍应遵循最佳实践:在需要时清晰标注 AI 内容,审查输出中可能的幻觉或敏感元素,并在广泛发布时应用传统审核流程。

Veo 3.1 仍存在哪些限制与风险?

Veo 3.1 是一次有意义的进步,但并非万能。主要限制与风险:

  • 故障模式仍然存在 — 在复杂场景或要求极高保真度时,仍会出现光照伪影、细微几何瑕疵以及偶发的对齐问题(手部、手指、细小文字)。记者与早期测试者指出这些是持续存在的边界案例。
  • 虚假信息与滥用担忧 — 更高的逼真度与音频合成带来对深度伪造与滥用的明显担忧。Google 继续强调安全防护(内容政策执行、溯源标记),并引入过 SynthID 水印以帮助追踪合成媒体,但这些系统并非治理与人工审核的万无一失替代。
  • 法律与知识产权问题 — 使用参考图像、角色肖像或受版权保护的素材进行生成将触发常见法律考量;企业应咨询法务并遵守使用政策护栏。

快速开始 — 示例工作流(Gemini 应用 + API)

在 Gemini 应用 / Flow 中(无代码):

打开 Gemini 应用(或 Flow 编辑器)并登录。找到 Video 或 Create → Video 选项。
Skywork

在模型下拉菜单中选择 Veo 3.1(如存在多个模型)。选择纵横比与目标时长。可选地选择电影或灯光预设。
TechRadar

提供文本提示,可选上传 1–3 张参考图(用于 Ingredients→Video 或 First/Last Frame 流程),并选择是否生成音频。提交并等待生成完成。根据需要使用 Flow 的编辑工具延展场景、插入物体或移除元素。
The Verge

如何以编程方式调用 Veo 3.1

CometAPI 的模型列表与 AI 文档包含模型名称(例如,veo-3.1 与 veo-3.1-pro)以及用于控制分辨率、时长、纵横比与参考的参数。

步骤:

  • 登录 CometAPI,并确保你获取 CometAPI 的密钥
  • 使用包含你的提示、参考(base64 或 GCS 引用)、目标分辨率/时长,以及音频或场景延展标志的 JSON 负载调用 Veo 3.1 模型端点。对于迭代运行使用 Veo 3.1 Fast 端点。
  • 处理输出(视频文件、可选的独立音轨),并在你的管线中管理后期处理(调色、编码交付)。监控成本与配额;更长或更高分辨率的片段将消耗更多算力。

CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ 个 AI 模型——如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到一个对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到你的应用中的过程。无论你在构建聊天机器人、图像生成器、音乐合成器,还是数据驱动的分析管线,CometAPI 都能让你更快迭代、控制成本并保持供应商无关性,同时汲取整个 AI 生态的最新突破。

开发者可以通过 CometAPI 访问 Veo 3.1CometAPI 提供远低于官方价格的方案,帮助你集成。

结论

Veo 3.1 是一次务实且界定清晰的升级:其直接价值在于通过将音频作为原生输出、扩展场景与参考控制,以及支持适度更长的串联输出,减少从创意到最终场景之间的摩擦。对于希望在生成循环中进行制作式编辑的创作者,以及寻求程序化内容自动化的企业,Veo 3.1 值得评估。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣