Veo 3.1 即将到来:Veo 是 Google 的一系列 AI 视频生成模型(当前为 Veo 3 / Veo 3 Fast)。Google 近日已经发布了 Veo 3 的重大改进(竖屏 9:16、1080p、Veo 3 Fast、降价),并且有关于 Veo 3.1 即将发布的传闻/社交帖——但 Google 尚未发布官方的 Veo 3.1 发布公告。我将列出已确认的事实、可能/预期的变化,以及与 OpenAI 的 Sora 2 的直接对比。
什么是 Veo
Veo 是 Google 的生成式视频模型产品线(DeepMind / Google Cloud / Gemini 家族),可将文本或图像生成短视频——并且(在 Veo 3 中)原生生成音频(音效、环境音与对白)。它通过 Google Cloud(Vertex AI / Gemini API)向开发者和企业提供,并在输出中包含内置的出处/溯源标记 / SynthID 水印。
Veo 3 已经带来了什么
- 文本 → 视频 与 图像 → 视频 能力(包括图像转视频预览)。
- 原生音频生成(音乐、环境声、对白)——Veo 3 引入了第一等公民的音频功能。
- 两个变体:高质量的 Veo 3 与注重速度/迭代的 Veo 3 Fast。
- 平台可用性: 已在 Vertex AI / Gemini API 提供(付费预览 → 2025 年年中走向全面可用的更新)。
- 安全/溯源: SynthID 水印,以及对人物/儿童生成的部分使用控制/审批。
那么——Veo 3.1 预计会带来什么?
状态: 目前 Google 尚无描述完整版本说明的官方 Veo 3.1 产品页。然而,多篇 Google 开发者帖子/社区帖子与推文显示,一个标记为“Veo 3.1”的短期增量更新即将到来——预计侧重于音频、质量与格式支持的迭代改进,而非一次完全的代际重写。
以下是我基于 x 的帖子与 Veo 3 特性做出的一些推断:
- 改进的原生音频(对白、多声音唇形同步)——更干净的对白、更好的 SFX 混音与空间化处理。Veo 3 已经原生生成音频;Veo 3.1 可能提升对白逼真度与语言支持,以追赶竞争对手近期的改进。
- 针对某些常见输出的更快/更便宜路径(更多与 Veo 3 Fast 的对齐与优化)。
- 提升图像→视频保真度与人物/姿态一致性,在多帧片段中更稳定。
- 扩展纵横比/分辨率控制(更灵活的 9:16/16:9 与在更多配置中支持 1080p)。Google 已经加入竖屏与 1080p;Veo 3.1 可能进一步扩展这些控制。
- 更长片段/放宽 8 秒上限——社区需求与 Google 先前路线图都表明,增加时长是一个可能目标(Veo 3 目前针对 8 秒片段做了优化)。
- 更好的图像→视频保真与扩展的图像转视频支持(在真实感与运动连贯性上的改进),基于 Veo 3 中的图像→视频预览能力进一步演进。

对比 Veo 3 /(预期)Veo 3.1 → OpenAI Sora 2
主要关注点
- Veo 3(Google):从文本/图像提示生成高保真 8 秒短视频;原生音频;融入 Gemini/Gemini API 与 Vertex AI;针对生产用途与开发者 API 集成进行优化。
- Sora 2(OpenAI):OpenAI 的旗舰视频+音频模型,强调物理真实感、连贯运动、对白与声音同步,并配套一个社交应用(Sora),提供将用户肖像整合的客串/同意系统,重视真实感与安全控制。
优势
- Veo(当前):强开发者/企业集成(Vertex AI、Gemini API)、生产定价选项、云端客户清晰路径、竖屏/1080p + 快速变体。适合将其纳入流水线的企业。
- Sora 2:在物理准确度与多模态同步(对白+视觉)方面表现出色,并有与社交工作流集成的面向消费者应用(客串功能、内容审核)。适合追求真实叙事场景与应用生态的创作者。
如何现在访问 Veo ——以及如何为 Veo 3.1 做好准备
- 在 Gemini 中试用(消费者 / 网页 / 移动端):在 Gemini 应用中可使用 Veo 生成功能(在提示栏点击“视频”选项)。访问级别(Pro / Ultra)会影响你可使用的 Veo 变体。
- 以编程方式/企业:通过 CometAPI 的 API 使用(Veo 模型 ID 可在模型文档中找到)。CometAPI 提供 veo3-pro、veo3-fast 和 veo3。详情请参考 Veo 3 的文档。
实用提示(开发者): 若需请求竖屏输出,设置 aspectRatio 参数(例如:"9:16"),并检查模型配置(Veo 3 与 Veo 3 Fast)以及你的套餐对于分辨率上限(720p vs 1080p)的限制。
如何(在今天)访问 Sora 2
Sora 应用: Sora 2 随 Sora 应用发布(在美国和加拿大以邀请制限量上线)。OpenAI 表示后续将扩大访问范围并扩展 API。如果你现在想试用 Sora 2,请查看 CometAPI 的 Sora 2 页面。CometAPI 已经支持 Sora 2 API,可生成约 10 秒的社交短片,并强调人物运动的真实感。
入门指南
CometAPI 是一个统一的 API 平台,将来自领先供应商的 500+ 款 AI 模型(如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)聚合到一个面向开发者的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 显著简化了将 AI 能力集成到你的应用中的过程。无论你在构建聊天机器人、图像生成器、音乐生成器,还是数据驱动的分析流水线,CometAPI 都能帮助你更快迭代、控制成本并保持供应商无绑定,同时利用 AI 生态的最新突破。
开发者可通过 CometAPI 访问 Veo 3.1 API,最新模型版本 始终与官网同步更新。开始使用前,可在 Playground 体验模型能力,并查阅API 指南获取详细说明。访问前请确保已登录 CometAPI 并获得 API key。CometAPI 提供远低于官方定价的价格,以帮助你完成集成。
准备好了吗?→ 立即注册 CometAPI!
