谷歌即將推出其下一代生成式人工智慧模式——圖片 4, Imagen 4 Ultra和 Veo 3—在 Google I/O 年度開發者大會上 20年2025月XNUMX日。預覽標識符的早期洩漏(例如, imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) 標誌著影像和視訊合成領域的分階段推出和多層次的能力。 Imagen 4 的目標是在照片級真實感、即時保真度和風格一致性方面比 Imagen 3 有顯著提升,而“Ultra”版本可能提供更高的分辨率或專門的性能模式。在影片方面,與 Veo 3 相比,Veo 2 承諾提供更連貫的剪輯到剪輯連續性和更強大的風格堅持。這三種模型預計將與Google的 Gemini AI 生態系統緊密結合,實現在同一工作流程中從文字提示到圖像或影片的無縫過渡。
預覽識別碼和推出策略
分階段預覽:內部參考,例如
imagen-4.0-generate-preview-05-20imagen-4.0-ultra-generate-exp-05-20veo-3.0-generate-preview


已在程式碼庫和 API 預覽中浮現,表明 Google 打算為圖像生成提供標準和「超」效能層,以及為早期測試人員提供高級視訊模型預覽。
Google I/O 大會發布:
這些標識符強烈暗示 Google 將在 I/O 大會上展示並可能向開發者授予預覽存取權限 20年2025月XNUMX日與先前推出的 Imagen 3 和 Veo 2 類似。
Imagen 4 的新功能
照片寫實主義與保真度
- 增強渲染:據報道,Imagen 4 實現了更逼真的細節,減少了偽影並提高了色彩準確度。早期的傳言表明,對複雜提示的理解有所改善,例如細微的燈光或反射。
- 及時遵守:此模型有望更精確地遵循使用者指令,提供更符合內容和樣式指令的圖像(例如,「山上日落油畫」)。
風格一致性
- 多圖像凝聚力:Imagen 4 旨在在多個輸出中保持一致的視覺風格,有利於故事板或產品目錄創建等一致性至關重要的用例。
- 超級變體:「Ultra」層(imagen-4.0-ultra)可能為企業和創意專業人士提供更高解析度的輸出或專門的最佳化(例如,印刷媒體的超高保真度)。
Veo 3 的新功能
提高連貫性
- 片段間連續性:Veo 3 旨在產生連續鏡頭保持一致的取景、燈光和角色外觀的視訊序列,解決 Veo 2 在視覺隨時間漂移方面的限制。
- 風格保真度:此模型專注於更忠實地複製藝術或電影風格,從而更容易製作出具有所需美感的影片(例如黑色電影、柔和動畫)。
SynthID 水印集成
- 數字水印:利用 DeepMind 的 SynthID 技術(隨 Veo 2 推出),Veo 3 將嵌入難以察覺的水印,以幫助識別 AI 生成的內容並遏制濫用。
與 Gemini AI 集成
- 無縫訪問:Imagen 4 和 Veo 3 預計都可以透過 Google 的 Gemini 介面直接存取 - 使用戶能夠在基於聊天的提示中或透過 Google Photos 和 Google Slides 等產品介面產生圖像或影片。
- 雙子座寶石:客製化的 AI「Gems」可能會融入這些模型,讓使用者可以建立專門的助手(例如,產生行程影像和概覽影片的旅遊計畫 Gem),並在類似於 ChatGPT 的 GPT Store 的市場中分享它們。
可用性和後續步驟
公共預覽:開發人員和企業測試人員可能會收到邀請,從開始試用 Imagen 4(標準版和 Ultra)和 Veo 3 20年2025月XNUMX日 在 Google I/O 上,並在接下來的幾週內向實驗室和 Vertex AI 進行更廣泛的推廣。
反饋與迭代:與先前的發布一樣,Google 可能會在全面上市之前徵求用戶回饋,以改善安全過濾器、浮水印穩健性和效能優化。
關注此空間:有興趣的開發者應該關注 彗星API.
新的模型API將會在CometAPI上線,並承諾提供比Google更低的價格,方便您的整合。請繼續關注 API 文件.
