Google 计划在其年度 Google I/O 开发者大会(May 20, 2025)上发布下一代生成式 AI 模型——Imagen 4、Imagen 4 Ultra 和 Veo 3。早期泄露的预览标识符(例如 imagen-4.0-generate-preview-05-20、imagen-4.0-ultra-generate-exp-05-20、veo-3.0-generate-preview)显示,将在图像与视频合成领域采取分阶段上线与多能力层级的策略。与 Imagen 3 相比,Imagen 4 旨在在照片级真实感、提示词忠实度与风格一致性方面带来显著提升,而 “Ultra” 变体可能提供更高分辨率或专用性能模式。在视频方面,Veo 3 承诺在镜头衔接一致性与风格遵从上优于 Veo 2。预计这三款模型都将与 Google 的 Gemini AI 生态深度集成,使用户能够在同一工作流中从文本提示无缝过渡到图像或视频。
预览标识符与分阶段发布策略
分阶段预览:例如以下内部引用
imagen-4.0-generate-preview-05-20imagen-4.0-ultra-generate-exp-05-20veo-3.0-generate-preview


已出现在代码仓库与 API 预览中,表明 Google 打算为图像生成提供标准与 “Ultra” 性能层级,同时为早期测试者提供高级视频模型预览。
Google I/O 发布:
这些标识符强烈暗示 Google 将在 May 20, 2025 的 I/O 上进行展示,并可能向开发者开放预览访问,延续此前对 Imagen 3 与 Veo 2 的发布节奏。
Imagen 4 的新变化
照片级真实感与保真度
- 强化渲染:据称 Imagen 4 在照片级细节方面更出色,减少伪影并提升色彩准确性。早期消息还指出其在理解复杂提示(如细腻光照或反射)方面有所改进。
- 提示词遵从性:该模型预计将更精准地遵循用户指令,生成在内容与风格上更贴合需求的图像(例如“群山上空日落的油画”)。
风格一致性
- 多图一致性:Imagen 4 旨在跨多张输出保持统一视觉风格,特别适用于分镜创作或产品目录等对统一性要求很高的场景。
- Ultra 变体:“Ultra” 级别(imagen‑4.0‑ultra)可能提供更高分辨率输出或面向企业与创意专业人士的专项优化(例如面向印刷媒体的超高保真)。
Veo 3 的新变化
连贯性提升
- 片段间连续性:Veo 3 致力于生成镜头间在构图、光照与角色外观上保持一致的视频序列,以缓解 Veo 2 随时间出现的视觉漂移问题。
- 风格保真:该模型更注重对艺术或电影风格的忠实复现,更易产出目标审美(如黑色电影、粉彩动画)的视频。
集成 SynthID 水印
- 数字水印:基于 DeepMind 随 Veo 2 引入的 SynthID 技术,Veo 3 将嵌入不可感知的水印,以帮助识别 AI 生成内容并遏制滥用。
与 Gemini AI 的集成
- 无缝访问:Imagen 4 与 Veo 3 预计可通过 Google 的 Gemini 界面直接访问,用户可在聊天式提示或 Google Photos、Google Slides 等产品界面中生成图像或视频。
- Gemini Gems:定制化 AI “Gems” 或将集成这些模型,使用户能创建特定用途的助手(如可生成行程图片与概览视频的旅行规划 Gem),并在类似 ChatGPT 的 GPT Store 的市场中共享。
可用性与后续计划
公开预览:开发者与企业测试者或将自 May 20, 2025(Google I/O)起收到邀请,试用 Imagen 4(标准版与 Ultra)与 Veo 3,并在接下来数周更广泛上线至 Labs 与 Vertex AI。
反馈与迭代:与以往一样,Google 预计将征集用户反馈,以在正式可用前优化安全过滤、水印鲁棒性与性能。
持续关注:有兴趣的开发者应关注 CometAPI。
新的模型 API 将在 CometAPI 上架,且承诺提供低于 Google 的价格,便于集成。请持续关注 API 文档。
