如何使用 Veo 3.1 API

CometAPI
AnnaOct 26, 2025
如何使用 Veo 3.1 API

Veo 3.1 是 Google Veo 系列视频生成模型的最新迭代。它带来了更丰富的原生音频、更好的叙事与电影化控制、多图引导,以及新的编辑原语(首/末帧过渡、“ingredients”/参考图像与场景扩展工作流)。对开发者而言,访问 Veo 3.1 的最快方式是通过 API(面向消费端集成)与 Vertex AI(面向企业与云工作负载)。

什么是 Veo 3.1 API,它的关键特性是什么?

Veo 3.1 是一款文本与图像 → 视频的生成式模型,面向生成短时长、高质量、具电影质感的片段,并具备原生生成音频(对白、环境提示、音效)。此次发布重点提升了对提示的遵循度、角色一致性、音频生成,以及更细粒度的编辑控制(例如:首→末帧过渡;最多三张参考图像的引导)。

关键能力(快速总览)

  • Text → Video:直接根据叙事型提示生成视频(包含对白与音频)。
  • Image → Video:将单张图像转为短动画场景。()
  • Reference images(“Ingredients to video”):最多提供 3 张图像(角色、物体、风格),以在多次输出中保持视觉一致性。
  • First & Last Frame generation:创建连接两张图像的过渡(模型生成在两者之间平滑变形的中间帧,并匹配音频)。
  • Scene extension workflows:用于将已有片段向后扩展,通过在前一段视频尾部生成新片段来衔接(注意:功能与支持在 Gemini API 与 Vertex 预览之间存在差异——参见“conditions”部分)。
  • Native audio & SFX:模型可以合成对白、环境音,以及与生成画面同步的音效。

如何使用 Veo 3.1 API——前置条件与注意事项?

在调用 API 之前你需要准备什么?

  1. 访问与计费:Veo 3.1 处于付费预览阶段——确保你拥有 API key,或已启用 Vertex AI 且完成计费设置的 Google Cloud 项目。预览阶段中部分功能与模型变体可能受地区限制。
  2. 配额与预览限制:预览模型通常对每项目的请求速率有限制(例如:某些预览变体为 10 RPM)以及每次请求可生成的视频数量限制。请在 Vertex AI/Gemini 文档中查看与你账号对应的具体数值。
  3. 输入素材与格式:你可以从文本提示生成、从单/多张图像生成,或通过引用其 URI 扩展已有的 Veo 生成视频。对于图像转视频工作流,请提供受支持的格式(根据端点要求提供 URL 或字节)。
  4. 安全与来源标记:生成内容必须遵守 Google 的内容政策。在预览阶段可能会出现水印或使用标记;请在你的应用中准备好来源与内容审核流程。

支持哪些认证方式?

  • API key:用于 Gemini 托管端点或第三方 API 平台的 key。我推荐 CometAPI, CometAPI 提供远低于官方价格的方案,帮助你集成 Veo 3.1 API(veo3.1-pro; veo3.1)。
  • Google Cloud credentials / ADC:用于 Vertex AI,请使用 Application Default Credentials(服务账号 / gcloud auth)或绑定到 Google Cloud 项目的 API key。

Veo 3.1 API 的端点是什么、哪些参数最重要?

简短回答:你将调用 CometAPI API 的视频生成端点(用于 CometAPI 托管访问,v1/chat/completions)。两者都使用 JSON 请求体描述模型、提示,以及 video/output 配置;较大的视频任务会以长时间运行的操作返回。

常见端点(示例):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

典型请求参数(逻辑拆解)

  • model — 目标模型标识(veo3.1-pro;veo3.1,详见 model reference)。
  • prompt / input — 用于描述场景的人类文本;可根据模型能力包含多个提示或多段式指令。使用结构化提示来控制运动镜头、时间、氛围与音频线索。
  • image_references — 1–3 个图像 URI 或 base64 图像,用于引导物体/角色/风格(Veo 3.1 支持多参考图像)。
  • video — 在扩展先前 Veo 输出时使用(传入初始视频的 URI)。部分功能仅能作用于 Veo 生成的视频。
  • duration / fps / resolution / aspectRatio — 从支持的长度与格式中选择(预览模型列出支持的时长与帧率——例如某些预览文档为 4、6、8 秒;扩展在 Flow/Studio 中可能允许更长输出)。

进阶用法与技巧

1) 使用参考图像保持角色一致性

提供最多三张参考图像(面部/姿势/服装)以在多次生成的镜头间保持角色外观一致。典型流程:

  1. 上传或内联编码你的参考图像。
  2. 在每次生成时将它们传入 config.reference_images
  3. 在后续生成调用中复用相同图像(或结合种子值),以最大化视觉一致性。
curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) 首末帧过渡(镜头合成)

使用 image(首帧)与 config.last_frame 指示 Veo 合成中间运动。适用于电影化过渡——它会产生自然的视觉插值与同步音频。

提供首帧image)与末帧lastFrame),Veo 3.1 将在两者之间插值运动,生成平滑过渡(可选音频)。cURL(REST)示例——首+末图像:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) 场景扩展(串联多次生成)

有两种模式:

  • API/Flow 方式(预览特性):传入现有视频(返回的视频对象或 URI)作为 video=video_to_extend,生成与前一场景一致的后续片段。使用操作响应中的 video.uri 并在下一次调用中传入以延展叙事。注意:可用性与行为因平台而异,请在所选平台上验证。
  • Vertex 云模式:Vertex 的预览模型在文档中列出更严格的限制(例如当前预览仅返回 4/6/8 秒片段),若需生成分钟级输出,你必须串联多次请求并在应用中拼接,或在可用时使用引擎的官方场景扩展工具。请查看 Vertex 的 “Veo 3.1 preview” 页面获取当前支持矩阵。

选取此前由 Veo 生成的视频并向前扩展(增加秒数),同时保持风格与连贯性。API 要求输入为 Veo 生成的视频(可能不支持任意 MP4 的扩展)。你可以按 7 秒的步进扩展,直至文档所述上限(适用 Veo 预览限制):

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) 音频与对白控制

Veo 3.1 可根据提示生成原生音频(语音与音效)。技巧:

  • 将对白写入提示(对白用引号包裹),以促进更真实的口型同步。
  • 添加音频描述(“轻柔的脚步声从左至右”、“低沉雷声递进”)来塑造音效与氛围。
  • 使用种子值以在测试中复现相同的音频/画面结果。

5) 测试用的确定性输出(seeds)

若需要用于 CI 或 A/B 测试的可复现输出,请提供 seed 参数(uint32)。更改提示或参考图像仍会改变结果;在其他条件完全相同的情况下,种子仅保证可重复性。

6) 成本与性能优化

  • 合并更少但更大的作业:在允许范围内,将 sampleCount 设为一次生成多个候选视频(1–4),以降低启动开销。()
  • 缓存参考图像并复用种子以获得可重复性,避免重复上传大体积二进制。
  • 使用 Cloud Storage 输出(Vertex)用于大尺寸输出,避免在响应体中返回原始字节。

7) 与其他 Gemini 模型的多步管线

一个实用管线:使用静态图像生成器(例如 Gemini 图像模型)创建素材 → 将最佳图像作为 image + referenceImages 传入 Veo 3.1 → 使用文本模型迭代音频/对白提示以生成解说。Gemini 文档明确展示了将图像生成与 Veo 调用串联的示例。

实用提示、注意与最佳实践

  • 在需要可重复输出时使用种子(相同提示 + 相同参考 + 相同种子 → 相同生成)。
  • 保持参考图像一致:相同裁切、面部角度、服装/背景一致,有助于模型保持身份与风格。在多个镜头中复用相同的三张图像以保持连贯性。
  • 生产环境优先使用 GCS URI:将图像与输出存储在 Cloud Storage,可避免 base64 传输大小限制并简化串联/扩展。
  • 明确描述过渡与音频:对首/末帧过渡,在提示中加入镜头运动、节奏,以及音效/语音线索,以获得更好同步的音频。
  • 先测试短循环:在调试提示、种子与参考图像时,先使用 4–8 秒的短时长迭代,然后串联扩展以生成更长场景。
  • 确认精确字段名:SDK 可能使用 reference_images(snake_case)、referenceImages(camelCase),或在嵌套的 image 对象中使用 content / gcsUri。请查看所用 SDK 或 Vertex 模型架构中的精确属性名。

Veo 3.1 如何计费、价格是多少?

Veo 3.1 按生成视频的每秒计费,Google 提供多个变体(例如 StandardFast),每秒费率不同。开发者定价示例显示付费层为 $0.40 / second(Veo 3.1 Standard)$0.15 / second(Veo 3.1 Fast)。Gemini 定价页面还指出仅在视频成功生成时计费(失败尝试可能不计费)。

Veo 3.1 API 在 CometAPI 中的定价

veo3.10.4000
veo3.1-pro2.0000

总结——为何 Veo 3.1 目前对开发者重要

Veo 3.1 在 AI 视频生成方面实现了明确的增量式跃迁:更丰富的原生音频、参考图像引导与全新编辑原语,让它在叙事、预可视化与创意应用中更具实力。模型的具体能力在不同端点与预览版本之间略有差异(例如 CometAPI 与 gemini 的版本差异)——因此请对你计划使用的模型变体进行测试与验证。本文中的示例为原型与生产提供了可操作的起点。

如何访问 Veo 3.1 API API

CometAPI 是一个统一的 API 平台,聚合了来自领先提供商的 500+ AI 模型——例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——至一个面向开发者的接口。通过提供一致的认证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到应用中的流程。无论你在构建聊天机器人、图像生成器、音乐创作或数据驱动分析管线,CometAPI 都能让你更快迭代、控制成本并保持供应商中立,同时及时掌握 AI 生态的最新突破。

开发者可通过 CometAPI 访问 Veo 3.1 API最新模型版本 会与官方网站保持同步更新。开始之前,可在 Playground 中探索模型能力,并查阅 API guide 获取详细说明。访问前请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方的价格,方便你的集成。

Ready to Go?→ Sign up for CometAPI today

如需获取更多关于 AI 的技巧、指南与新闻,请关注我们的 VKXDiscord

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣