Google 在 Google I/O 2025 上重大发布 Imagen 4、Imagen 4 Ultra 和 Veo 3 模型

Google 计划在其年度 Google I/O 开发者大会（May 20, 2025）上发布下一代生成式 AI 模型——Imagen 4、Imagen 4 Ultra 和 Veo 3。早期泄露的预览标识符（例如 imagen-4.0-generate-preview-05-20、imagen-4.0-ultra-generate-exp-05-20、veo-3.0-generate-preview）显示，将在图像与视频合成领域采取分阶段上线与多能力层级的策略。与 Imagen 3 相比，Imagen 4 旨在在照片级真实感、提示词忠实度与风格一致性方面带来显著提升，而 “Ultra” 变体可能提供更高分辨率或专用性能模式。在视频方面，Veo 3 承诺在镜头衔接一致性与风格遵从上优于 Veo 2。预计这三款模型都将与 Google 的 Gemini AI 生态深度集成，使用户能够在同一工作流中从文本提示无缝过渡到图像或视频。

预览标识符与分阶段发布策略

分阶段预览：例如以下内部引用

imagen-4.0-generate-preview-05-20
imagen-4.0-ultra-generate-exp-05-20
veo-3.0-generate-preview

Google 在 Google I/O 2025 上重大发布 Imagen 4、Imagen 4 Ultra 和 Veo 3 模型

已出现在代码仓库与 API 预览中，表明 Google 打算为图像生成提供标准与 “Ultra” 性能层级，同时为早期测试者提供高级视频模型预览。

Google I/O 发布：

这些标识符强烈暗示 Google 将在 May 20, 2025 的 I/O 上进行展示，并可能向开发者开放预览访问，延续此前对 Imagen 3 与 Veo 2 的发布节奏。

Imagen 4 的新变化

照片级真实感与保真度

强化渲染：据称 Imagen 4 在照片级细节方面更出色，减少伪影并提升色彩准确性。早期消息还指出其在理解复杂提示（如细腻光照或反射）方面有所改进。
提示词遵从性：该模型预计将更精准地遵循用户指令，生成在内容与风格上更贴合需求的图像（例如“群山上空日落的油画”）。

风格一致性

多图一致性：Imagen 4 旨在跨多张输出保持统一视觉风格，特别适用于分镜创作或产品目录等对统一性要求很高的场景。
Ultra 变体：“Ultra” 级别（imagen‑4.0‑ultra）可能提供更高分辨率输出或面向企业与创意专业人士的专项优化（例如面向印刷媒体的超高保真）。

Veo 3 的新变化

连贯性提升

片段间连续性：Veo 3 致力于生成镜头间在构图、光照与角色外观上保持一致的视频序列，以缓解 Veo 2 随时间出现的视觉漂移问题。
风格保真：该模型更注重对艺术或电影风格的忠实复现，更易产出目标审美（如黑色电影、粉彩动画）的视频。

集成 SynthID 水印

数字水印：基于 DeepMind 随 Veo 2 引入的 SynthID 技术，Veo 3 将嵌入不可感知的水印，以帮助识别 AI 生成内容并遏制滥用。

与 Gemini AI 的集成

无缝访问：Imagen 4 与 Veo 3 预计可通过 Google 的 Gemini 界面直接访问，用户可在聊天式提示或 Google Photos、Google Slides 等产品界面中生成图像或视频。
Gemini Gems：定制化 AI “Gems” 或将集成这些模型，使用户能创建特定用途的助手（如可生成行程图片与概览视频的旅行规划 Gem），并在类似 ChatGPT 的 GPT Store 的市场中共享。

可用性与后续计划

公开预览：开发者与企业测试者或将自 May 20, 2025（Google I/O）起收到邀请，试用 Imagen 4（标准版与 Ultra）与 Veo 3，并在接下来数周更广泛上线至 Labs 与 Vertex AI。

反馈与迭代：与以往一样，Google 预计将征集用户反馈，以在正式可用前优化安全过滤、水印鲁棒性与性能。

持续关注：有兴趣的开发者应关注 CometAPI。

新的模型 API 将在 CometAPI 上架，且承诺提供低于 Google 的价格，便于集成。请持续关注 API 文档。