Google 于 2025 年 10 月中旬公开推出 Veo 3.1(以及 Veo 3.1 Fast 变体),作为改进的文本到视频模型,可生成更高保真度的短片,具备原生音频、更好的提示遵循,以及新的编辑能力,如场景/片段扩展、帧到帧插值和图像引导生成(可使用最多三张参考图像)。Veo 3.1 可通过 API 获取,出现在 Gemini 应用和 Flow 创作工具中,并通过 Vertex AI 与 Google AI Studio 面向企业开发者开放(不同平台与套餐的可用性有所差异)。Flow 的集成带来了更多 UI 编辑控制(光照/阴影,对象插入/移除即将推出),而 API 为开发者提供了可编程的生成与扩展功能。
我将提供一份通过 Veo 3.1(Flow、CometAPI/Gemini API —— 分步)编辑视频的指南。
Veo 3.1 做什么,它源自哪里?
Veo 3.1 是 Google 生成式视频模型(Veo)家族的最新迭代,旨在将文本提示——以及可选的图像或已有视频帧——转换为短小、连贯、写实或风格化的视频片段,并包含合成音频(对白、环境音、音效)。3.1 更新强调更逼真的写实效果、更丰富的原生音频以及连贯性的工具(场景扩展与帧插值),将 Veo 定位为 Google 文本与图像模型的以视频为中心的对应者。
关键升级包括:
- 为生成片段提供原生音频与对白合成(无需单独的语音管线)。
- 帧到帧插值(由首帧与末帧驱动生成片段)。
- 图像引导生成(最多使用三张参考图像以保持角色/风格一致性)。
- 场景扩展(通过以前一个片段最后一秒作为种子生成连接片段以保持连贯性)。
- 更好的提示遵循与改进的电影化控制。
Veo 3.1 在哪里运行?
Veo 3.1 可在 Google 的 API(付费预览)、Vertex AI / Model Garden、Gemini 移动/网页应用中使用,并已集成到 Flow 和 Veo Studio 演示中。CometAPI 也已开始集成 Veo。
如何通过 Veo 3.1 在 Flow 中编辑视频?分步说明
下面我将讲解最常见的编程与 UI 工作流程:在 Flow(创作者 UI)中编辑、使用 Gemini 应用快速生成,以及使用 Gemini API / Vertex AI 进行程序化处理(用于生产与自动化)。
如何使用 Flow(创作者 UI)编辑视频?
Flow 是 Google 面向电影人/创作者的创意 UI,集成了 Veo 模型用于生成,并提供一组编辑控制(光照、阴影、场景构图、对象插入/移除工具)。在 Flow 中使用 Veo 3.1,您可以:
- 生成或重新生成具有更丰富音频的镜头。
- 使用 “Ingredients to Video”(上传参考图像以保持角色/风格一致性)。
- 扩展场景或将多个镜头串联,使用 Scene Extension(根据前一镜头结尾连接新片段)。
- 在 UI 中应用基础对象插入功能(移除功能即将推出)。
如何在 Flow 中进行基础编辑(实操步骤)?
- 创建/生成您的种子片段(文本提示或图像提示)。
- 使用时间线选择片段结尾,选择 Extend(Scene Extension),并配合新提示以继续动作或添加运动。每次扩展都会添加一个小的跳跃,系统会进行混合以保持连贯性。
- 对于对象变更,使用 Insert 工具(描述要添加的项目及其位置)。对于移除,请在 Flow 的 Remove 工具可用时使用并检查合成伪影。
- 导出并在需要时使用传统 NLE(Premiere、DaVinci Resolve)进行调色、字幕或精确剪辑。
Flow 旨在让迭代式的创意编辑更快速;将其视为时间线编辑与生成式替换的混合体。
如何通过 Veo 3.1 API 以程序化方式编辑或生成视频
主要有两条程序化路径:
- Gemini API(generativelanguage / Gemini SDK)——用于直接调用 Veo 模型进行生成与扩展(示例见 Google 的 Gemini API 文档)。
- CometAPI(OpenAI Format/ chat)——CometAPI 提供对 Gemini 3 Pro Image( Nano Banana Pro)、Gemini 3 Pro 以及 100+ AI 模型(聊天、图像、音乐、视频生成)的访问,您可以通过 OpenAI 风格的 chat 端点访问 Veo 3.1。
使用 Veo 3.1 的编辑可视为若干不同流程。每个流程结合模型输入(文本/图像/视频)与后处理步骤,以获得可用于生产的结果。
Veo 3.1 通过 API 暴露。典型模式是一个长时间运行的 generateVideos 操作——您提交任务、轮询操作,完成后下载输出文件。
以下是简化且可运行的示例——请根据您的 API 密钥与环境进行调整;并参考您的环境的 SDK 与身份验证指南。
JavaScript(Node)示例——生成与轮询
该示例基于 Gemini API 风格用法。
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
这种模式(提交 → 轮询 → 下载)是 Gemini 文档中的规范方法。
我可以使用 curl / REST 而不是 Python SDK 吗?
可以——官方网页展示了 SDK,但底层的 Veo 3.1 也可通过 REST 使用。不同环境(Gemini API 与 CometAPI REST)的实现有所差异。如果您偏好 curl,请确保遵循正确的身份验证(来自 Google Cloud 的 Bearer token 或 CometAPI API key),并使用与您的产品相对应的视频生成端点。以下为 CometAPI 的伪 curl 示例(根据您的认证与端点进行适配):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
重要:具体的 REST URL 与载荷结构取决于您使用的是 Gemini API 还是 CometAPI 端点——在发起请求前请查阅相应产品文档。SDK 会为您处理许多认证与轮询细节。
如何使用 Veo 3.1——支持哪些工作流程?
下面我将讲解您在使用 Veo 3.1 编辑时会用到的实际流程:UX 流程(Flow/Gemini studio)与程序化流程(Gemini API / Vertex API)。每个流程我都会展示示例、注意事项以及可复制的小代码片段。
使用 Veo 3.1 的编辑可视为若干不同流程。每个流程结合模型输入(文本/图像/视频)与后处理步骤,以获得可用于生产的结果。
主要编辑工作流程
有三类您会频繁使用的实用编辑流程:
- 文本驱动的编辑与再生成——通过改写提示或对同一场景应用新指令来改变镜头。
- 参考图像引导的编辑(“Ingredients to video”)——最多提供 3 张图像,以在生成帧中保留角色或对象。
- 帧插值(首帧与末帧)——提供起始与结束图像,Veo 在两者之间生成过渡序列(如需可包含音频)。
- 场景扩展——通过基于前一片段最后一秒生成连接片段,来扩展现有的 Veo 生成片段(或其他片段)。
- 对象插入/移除及其他 Flow 编辑工具——一些 Flow UI 功能(对象插入/移除、涂鸦提示、镜头角度重拍)正在基于 Veo 能力叠加,可在 GUI 中辅助帧级修饰。
注意与提示:使用适当的认证(Gemini API key / CometAPI API key)。示例使用的是 veo-3.1-generate-preview——模型 ID 与参数名称可能因 SDK 版本与区域略有不同;CometAPI 的 Veo 3.1 模型 ID 为 veo3.1-pro 和 veo3.1。
1) 文本 → 视频(新生成)
用例: 从剧本或创意提示创建一个全新的短片。
流程:
- 准备清晰的文本提示,包括场景描述、镜头机位与运动、音频提示(对白或音效)。
- 使用 Veo 3.1 模型调用 Gemini 的
generateVideos端点。 - 轮询长时间运行的操作直到生成完成,下载生成的 MP4,随后审阅与迭代。
简单 Python 示例(文本 → 视频):
请使用官方 Google genai Python 客户端。
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) 图像 → 视频(为源图像赋予动画)
用例: 将产品照、人物肖像或单张照片动画化为短片。
流程:
- 生成或选择一张初始图像(可由图像模型如 Nano Banana 生成)。
- 将图像作为
image参数上传并调用generate_videos,可选地提供referenceImages或在插值中提供lastFrame。 - 检索与审阅;迭代提示或图像素材。
Python 图像→视频片段(图像先行生成):
Veo 3.1 最实用的功能之一是参考图像:最多提供 3 张图像(人物、产品、对象),使生成视频在各帧中保持该外观。
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
实用提示:
- 优先使用清晰、光线良好的参考图像,并从有用角度捕捉主体。
- 使用参考图像来在多镜头序列中保持产品识别、服饰或角色面孔的一致性。
- 避免在未获许可的情况下使用受版权保护或私人人士的图像。
3) 视频到视频 / 扩展(继续或重拍)
用例: 扩展已有生成片段或在其结尾之外继续动作,或以先前生成的视频为基础进行再编辑。
流程:
- 将生成的视频作为
video输入,并编写提示描述视频应如何继续(例如,“Extend: 主角推开门走入光中”)。 - 使用扩展模式——Veo 3.1 会定格最后一秒并继续动作。注意:若最后一秒没有音频,语音的延展性较不稳定。
Python 示例(扩展现有视频):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
流程提示:重复扩展片段(将每个新生成片段拼接到前一个片段末尾)以构建更长的序列。请注意伪影的累积——定期使用高质量参考帧重新锚定或对部分段落重新生成以保持保真度。
4) 帧级编辑(首帧与末帧、参考图像)
您可以生成一个从起始帧过渡到结束帧的视频。先生成图像(例如使用 Gemini 的图像模型),然后将该图像作为 image 传入并在配置中设置 last_frame 以驱动插值。
用例: 需要严格的视觉连贯性或在两帧之间进行动画。
流程:
- 生成或上传首帧与末帧。
- 使用
image=first_frame调用 Veo 3.1,并设置config.last_frame=last_frame。 - 模型会在这些帧之间进行插值,生成与您的提示匹配的合理运动及音频。
意义所在: 为了创作控制,首/末帧使您能精确限定起止的镜头构图,这对特效、连贯性或叙事节奏至关重要。
Python(图像 → 视频)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
这将为您带来在两个明确视觉锚点之间的平滑插值。
哪些提示与输入策略更适合 Veo 3.1?
Veo 3.1 对结构化提示响应最佳,清晰描述视觉构图、运动、声音与情绪基调。Google 针对 Veo 3.1 的“提示指南”建议使用特定要素;以下是简要清单:
提示结构(推荐)
- 主场景——简洁句子:人物/事物、主要动作。
- 镜头描述——特写/广角/推轨/稳定/手持,镜头运动与构图。
- 时间与节奏——简短提示如“缓慢”、“电影化 24fps 感”,或在需要精确时给出帧数。
- 音频提示——指定背景环境音、具体音效或对白(使用引号)。Veo 3.1 可合成原生音频。
- 风格与参考——包含
referenceImages或提及摄影/电影风格:“黑色电影,高对比度,Kodak 500 感”。 - 负向提示——明确说明您不希望出现的元素(如“无 logo、无文字、非卡通风格”),以减少不期望的结果。
使用参考图像
图像引导与首/末帧插值是 Veo 3.1 的功能。常见且高质量的流水线是:
- 使用图像模型(Nano Banana 或 Gemini 图像模型)生成或优化静态素材,并通过 1–3 张参考图像定义在生成帧中需要持续的主体(人物、产品)外观与风格。Veo 在参考资产引导下对主体外观的保持效果良好。
- 将这些素材组合为参考图像(或首/末帧)。
- 调用 Veo 3.1 进行视频生成/插值/扩展。
- 可选后期处理(调色、压缩、手动编辑)使用标准视频工具(Premiere、DaVinci Resolve)。
Tokens、时长与分辨率注意事项
- Veo 3.1 的文本输入有 token 限制(例如某些预览变体约 ~1,024 tokens),输出通常为一段短视频(示例常见为 8 秒);请保持简洁并迭代。计划通过拼接多个生成片段来制作更长内容。
结论——Veo 3.1 为创作者与剪辑师带来什么变化
Veo 3.1 在短视频、原生音频的 AI 生成方面实现了实用性跃升。它不仅是生成器:它正在成为 编辑助手,融入 Flow 与 Gemini Studio 等工具,使创作者能够进行精细编辑(对象插入/移除、镜头重拍),同时复用相同的生成原语。对于开发者与后期团队,推荐的方法是迭代:使用 API 生成与扩展短段落,用参考帧保持连贯性,并使用传统工具完成最终合成与音频混音。
开发者可以通过 CometAPI 访问 Veo 3.1 API 与 Gemini 3 Pro Image( Nano Banana Pro)。要开始,请在 Playground 探索 CometAPI 的模型能力,并查阅 API guide 以获取详细说明。在访问之前,请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案,帮助您完成集成。
Ready to Go?→ Sign up for CometAPI today!
