Veo 3 API

CometAPI
AnnaJul 3, 2025
Veo 3 API

Veo 3 API 是 Google Vertex AI 上的一个 RESTful 端点,使开发者能够从文本或图像提示在一次请求中生成同步的高分辨率视频与音频片段——内置安全过滤与几乎不可察觉的水印。

Google DeepMind 的 Veo 3 代表了文生视频的前沿突破,首次实现大规模生成式 AI 模型将高保真视频配套音频(包括对话、音效与环境音景)无缝同步。

核心功能与能力

  • 8 秒视频片段:可生成时长最长 8 秒的序列,镜头转场与拼接流畅无缝。
  • 集成音频生成:一次生成对话、环境噪声、音效与背景音乐。
  • 高清输出:支持最高 4K (3840 × 2160) 分辨率,光照一致、物理效果逼真、场景纹理细节丰富。
  • 多模态输入:同时支持 文本生成视频图像生成视频 提示,助力多样化创作流程。

这些能力让创作者无需单独的音频后期或复杂的剪辑流程,即可打造接近电影质感的叙事。

技术细节

Veo 3 的架构采用经过数百万条 YouTube 视频训练的多模态 Transformer。其编码器–解码器框架将文本提示输入到视频标记化层进行处理,生成驱动视觉合成模块的时空特征;同时,音频合成分支产生对齐的声音输出。跨模态注意力机制确保视觉音频模态紧密耦合,减少不同步伪影。训练经历了数十亿次参数更新,并通过 Google Cloud 的 Vertex AI 平台上的混合精度 GPU 集群进行优化。

基准性能

在内部基准测试中,Veo 3 展示出:

  • PSNR(峰值信噪比)在标准视频数据集上为 38 dB,比 Veo 2 提高 4 dB
  • SSIM(结构相似性指数)评分 0.92,表明视觉保真度高。
  • 音视频同步误差低于 15 ms,确保声音与画面之间的时延难以察觉。
  • 推理速度:在 NVIDIA A100 GPU 上约 12 帧/秒,使短片生成接近实时。
    这些指标使 Veo 3 位居生成式视频 AI 前沿,在质量同步方面超越了 Sora 和 Meta 近期的视频模型。

模型版本与演进

  • Veo 1(2024 年 5 月):在 Google I/O 2024 发布,引入时长达一分钟的 1080p 静音视频生成。
  • Veo 2(2024 年 12 月):升级至支持 4K,并提升对物理动态的理解。
  • Veo 3(2025 年 5 月):新增音频合成增强真实感4K 输出,在多模态生成上实现重大飞跃。

如何通过 CometAPI 调用 Veo 3 API

Veo 3 在 CometAPI 中的 API 定价,低于官方价格:

模型名称价格
veo3-pro$2
veo3-fast$0.4
veo3$2
veo3-pro-frames$0.4

veo3veo3-proveo3-fastveo3-pro-frames:这是 Google 官方最新发布的视频生成模型,生成的视频带有声音。它是全球唯一带声音的视频模型。veo3-pro-frames 支持首帧模式。该模型遵循 OpenAI Chat 标准格式调用。

必要步骤

  • 登录 cometapi.com。如果您还不是我们的用户,请先注册
  • 获取接口的访问凭证 API Key。在个人中心的 API Token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。
  • 获取本站的 URL:https://api.cometapi.com/

代码示例

  1. 选择 “veo3-pro” 等 endpoint 发送 API 请求并设置请求体。请求方法与请求体请参见我们网站的 API 文档。我们的网站也提供 Apifox 测试以便您使用。
  2. 将应用中的 BASE_URL 修改为我们的接口地址。URL 由您的具体应用需求决定。
  3. 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI Key。

如对调用有任何问题或建议,请通过社交媒体和邮箱 support@cometapi.com 联系我们。

使用场景:

提交视频生成任务(文档:点此查看):https://api.cometapi.com/veo/v1/video/create

查询视频生成状态https://api.cometapi.com/veo/v1/video/query/{taskId}

API 代码 CometAPI 使用示例

import requests
def main():
url = " https://api.cometapi.com/veo/v1/video/create"
payload = {
"model": "veo3-pro",
"prompt": "A DJ on the stand is playing, around a World War II battlefield, lots of explosions, thousands of dancing soldiers, between tanks shooting, barbed wire fences, lots of smoke and fire, black and white old video: hyper realistic, photorealistic, photography, super detailed, very sharp, on a very white background",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if name == "main":
main()

参见 2025 年使用 Google Veo 3 的 3 种方法

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣