Google ra mắt chính thức các mẫu Imagen 4, Imagen 4 Ultra và Veo 3 tại Google I/O 2025

CometAPI
AnnaMay 18, 2025
Google ra mắt chính thức các mẫu Imagen 4, Imagen 4 Ultra và Veo 3 tại Google I/O 2025

Google chuẩn bị ra mắt các mô hình AI thế hệ tiếp theo của mình—Hình ảnh 4, Hình ảnh 4 UltraVeo3—trong hội nghị nhà phát triển Google I/O thường niên của mình Ngày 20 tháng 2025 năm XNUMX. Rò rỉ sớm các mã định danh xem trước (ví dụ: imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) báo hiệu một đợt triển khai theo giai đoạn và nhiều tầng khả năng trên cả miền tổng hợp hình ảnh và video. Imagen 4 hướng đến mục tiêu mang lại những cải tiến đáng kể về tính chân thực của ảnh, độ trung thực nhanh chóng và tính nhất quán về phong cách so với Imagen 3, trong khi biến thể "Ultra" có thể cung cấp độ phân giải thậm chí cao hơn hoặc các chế độ hiệu suất chuyên biệt. Về phía video, Veo 3 hứa hẹn tính liên tục giữa các clip mạch lạc hơn và tuân thủ phong cách mạnh mẽ hơn so với Veo 2. Cả ba mô hình đều được kỳ vọng sẽ tích hợp chặt chẽ với hệ sinh thái AI Gemini của Google, cho phép chuyển đổi liền mạch từ lời nhắc văn bản sang hình ảnh hoặc video trong cùng một quy trình làm việc.


Xem trước các định danh và chiến lược triển khai

Bản xem trước được dàn dựng: Các tham chiếu nội bộ như

  • imagen-4.0-generate-preview-05-20
  • imagen-4.0-ultra-generate-exp-05-20
  • veo-3.0-generate-preview

Google ra mắt chính thức các mẫu Imagen 4, Imagen 4 Ultra và Veo 3 tại Google I/O 2025
Google ra mắt chính thức các mẫu Imagen 4, Imagen 4 Ultra và Veo 3 tại Google I/O 2025

Đã xuất hiện trong kho lưu trữ mã và bản xem trước API, cho thấy ý định của Google trong việc cung cấp cả cấp hiệu suất tiêu chuẩn và "Siêu cao" để tạo hình ảnh, cũng như bản xem trước mô hình video nâng cao cho những người thử nghiệm ban đầu.

Ra mắt Google I/O:

Những mã định danh này cho thấy Google sẽ giới thiệu và có khả năng cấp quyền truy cập xem trước cho các nhà phát triển tại I/O vào Ngày 20 tháng 2025 năm XNUMX, phản ánh các bản triển khai trước đó cho Imagen 3 và Veo 2.


Có gì mới trong Imagen 4

Chủ nghĩa hiện thực và tính trung thực

  • Kết xuất nâng cao: Imagen 4 được cho là đạt được chi tiết chân thực hơn, giảm hiện tượng nhiễu và cải thiện độ chính xác của màu sắc. Những tin đồn ban đầu cho thấy sự cải thiện trong việc hiểu các lời nhắc phức tạp, chẳng hạn như ánh sáng sắc thái hoặc phản chiếu.
  • Tuân thủ nhanh chóng:Mô hình này dự kiến ​​sẽ tuân thủ chính xác hơn các hướng dẫn của người dùng, cung cấp hình ảnh phù hợp hơn với cả chỉ thị về nội dung và phong cách (ví dụ: “bức tranh sơn dầu về cảnh hoàng hôn trên núi”).

Phong cách nhất quán

  • Sự gắn kết đa hình ảnh: Imagen 4 được thiết kế để duy trì phong cách trực quan nhất quán trên nhiều đầu ra, mang lại lợi ích cho các trường hợp sử dụng như lập bảng phân cảnh hoặc tạo danh mục sản phẩm, trong đó tính đồng nhất là rất quan trọng.
  • Biến thể siêu việt:Cấp “Siêu” (imagen‑4.0‑ultra) có khả năng cung cấp các đầu ra có độ phân giải cao hơn hoặc các tối ưu hóa chuyên biệt (ví dụ: độ trung thực cực cao cho phương tiện in) dành cho các doanh nghiệp và chuyên gia sáng tạo.

Có gì mới trong Veo 3

Cải thiện sự gắn kết

  • Tính liên tục của Clip-to-Clip:Veo 3 hướng đến mục tiêu tạo ra các chuỗi video trong đó các cảnh quay liên tiếp duy trì khung hình, ánh sáng và ngoại hình nhân vật nhất quán, giải quyết những hạn chế trong Veo 2 về hiện tượng trôi hình ảnh theo thời gian.
  • Độ trung thực của phong cách:Mô hình này tập trung vào việc sao chép các phong cách nghệ thuật hoặc điện ảnh một cách trung thực hơn, giúp dễ dàng sản xuất video theo phong cách thẩm mỹ mong muốn (ví dụ: hoạt hình đen trắng, phấn màu).

Tích hợp SynthID Watermarking

  • Hình mờ kỹ thuật số: Tận dụng công nghệ SynthID của DeepMind (được giới thiệu cùng với Veo 2), Veo 3 sẽ nhúng các hình mờ vô hình để giúp xác định nội dung do AI tạo ra và hạn chế việc sử dụng sai mục đích.

Tích hợp với Gemini AI

  • Truy cập liền mạch: Cả Imagen 4 và Veo 3 đều có thể truy cập trực tiếp thông qua giao diện Gemini của Google—cho phép người dùng tạo hình ảnh hoặc video trong lời nhắc dựa trên trò chuyện hoặc thông qua giao diện sản phẩm như Google Photos và Google Slides.
  • Đá quý Song Tử:Các “Gems” AI tùy chỉnh có thể kết hợp các mô hình này, cho phép người dùng tạo ra các trợ lý chuyên biệt (ví dụ: Gem lập kế hoạch du lịch tạo ra hình ảnh hành trình và video tổng quan) và chia sẻ chúng trên một thị trường tương tự như Cửa hàng GPT của ChatGPT.

Khả năng cung cấp và các bước tiếp theo

Công Preview: Các nhà phát triển và người thử nghiệm doanh nghiệp có thể nhận được lời mời thử nghiệm với Imagen 4 (tiêu chuẩn và Ultra) và Veo 3 bắt đầu Ngày 20 tháng 2025 năm XNUMX tại Google I/O, với việc triển khai rộng rãi hơn tới Labs và Vertex AI trong những tuần tiếp theo.

Phản hồi và lặp lại:Giống như các lần ra mắt trước, Google có thể sẽ xin phản hồi của người dùng để tinh chỉnh các bộ lọc an toàn, độ mạnh của hình mờ và tối ưu hóa hiệu suất trước khi cung cấp rộng rãi.

Xem không gian này: các nhà phát triển quan tâm nên theo dõi Sao chổiAPI.

API mô hình mới sẽ được liệt kê trên CometAPI và được hứa hẹn sẽ cung cấp mức giá thấp hơn Google để tạo điều kiện thuận lợi cho việc tích hợp của bạn. Vui lòng tiếp tục chú ý Tài liệu API.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%