Google wprowadza na rynek modele Imagen 4, Imagen 4 Ultra i Veo 3 na konferencji Google I/O 2025

Google jest gotowy zaprezentować swoje generatywne modele sztucznej inteligencji nowej generacji —Obraz 4, Obraz 4 Ultra, Wideo 3—podczas corocznej konferencji programistów Google I/O 20 maja 2025Wczesne przecieki identyfikatorów podglądu (np. imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) sygnalizuje etapowe wdrażanie i wiele poziomów możliwości w domenach syntezy obrazu i wideo. Imagen 4 ma na celu zapewnienie znaczących korzyści w zakresie fotorealizmu, szybkiej wierności i spójności stylistycznej w porównaniu z Imagen 3, podczas gdy wariant „Ultra” może oferować jeszcze wyższą rozdzielczość lub specjalistyczne tryby wydajności. Po stronie wideo Veo 3 obiecuje bardziej spójną ciągłość klipu do klipu i solidne przestrzeganie stylu w porównaniu z Veo 2. Oczekuje się, że wszystkie trzy modele będą ściśle zintegrowane z ekosystemem Gemini AI firmy Google, umożliwiając płynne przejścia od monitów tekstowych do obrazów lub filmów w ramach tego samego przepływu pracy.

Podgląd identyfikatorów i strategii wdrażania

Podglądy etapowe: Odniesienia wewnętrzne, takie jak

imagen-4.0-generate-preview-05-20
imagen-4.0-ultra-generate-exp-05-20
veo-3.0-generate-preview

Google wprowadza na rynek modele Imagen 4, Imagen 4 Ultra i Veo 3 na konferencji Google I/O 2025

Pojawiły się w repozytoriach kodu i podglądach interfejsu API, co wskazuje na zamiar Google’a zaoferowania zarówno standardowego, jak i „Ultra” poziomu wydajności do generowania obrazu, a także zaawansowanego podglądu modelu wideo dla wczesnych testerów.

Uruchomienie Google I/O:

Te identyfikatory zdecydowanie sugerują, że Google zaprezentuje i potencjalnie przyzna dostęp do wersji zapoznawczej deweloperom podczas konferencji I/O 20 maja 2025, odzwierciedlając poprzednie wdrożenia Imagen 3 i Veo 2.

Co nowego w Imagen 4

Fotorealizm i wierność

Ulepszone renderowanie: Imagen 4 podobno osiąga większe fotorealistyczne szczegóły, redukując artefakty i poprawiając dokładność kolorów. Wczesne plotki sugerują poprawę w rozumieniu złożonych podpowiedzi, takich jak niuansowe oświetlenie lub odbicia.
Szybkie przestrzeganie:Oczekuje się, że model będzie dokładniej wykonywał polecenia użytkownika, dostarczając obrazy lepiej odpowiadające zarówno treści, jak i stylowi (np. „obraz olejny przedstawiający zachód słońca nad górami”).

Spójność stylu

Spójność wielu obrazów:Imagen 4 został zaprojektowany tak, aby zachować spójny styl wizualny w wielu wynikach, co przydaje się w takich przypadkach, jak tworzenie scenorysów lub katalogów produktów, gdzie spójność ma kluczowe znaczenie.
Ultra wariant:Poziom „Ultra” (imagen‑4.0‑ultra) prawdopodobnie oferuje wyniki o wyższej rozdzielczości lub specjalistyczne optymalizacje (np. ultrawysoką wierność dla mediów drukowanych) dla przedsiębiorstw i profesjonalistów kreatywnych.

Co nowego w Veo 3

Poprawiona spójność

Ciągłość klip-do-klipu:Veo 3 ma na celu generowanie sekwencji wideo, w których kolejne ujęcia zachowują spójne kadrowanie, oświetlenie i wygląd postaci, rozwiązując w ten sposób ograniczenia Veo 2 związane z dryfem obrazu w czasie.
Wierność stylowi:Model ten koncentruje się na wierniejszym odwzorowywaniu stylów artystycznych lub filmowych, dzięki czemu łatwiej jest produkować filmy o pożądanej estetyce (np. noir, animacja pastelowa).

Integracja znakowania wodnego SynthID

Cyfrowy znak wodnyWykorzystując technologię SynthID firmy DeepMind (wprowadzoną w Veo 2), Veo 3 będzie umieszczać niezauważalne znaki wodne, które pomogą identyfikować treści generowane przez sztuczną inteligencję i ograniczyć niewłaściwe wykorzystanie.

Integracja z Gemini AI

Bezproblemowy dostęp:Oczekuje się, że zarówno Imagen 4, jak i Veo 3 będą bezpośrednio dostępne za pośrednictwem interfejsów Gemini firmy Google, co umożliwi użytkownikom generowanie obrazów i filmów w ramach komunikatów opartych na czacie lub za pośrednictwem interfejsów produktów, takich jak Zdjęcia Google i Prezentacje Google.
Klejnoty Bliźniąt: Dostosowane „klejnoty” AI mogą zawierać te modele, umożliwiając użytkownikom tworzenie wyspecjalizowanych asystentów (np. klejnotu do planowania podróży, który generuje obrazy tras i filmy przeglądowe) i udostępnianie ich w sklepie podobnym do GPT Store firmy ChatGPT.

Dostępność i kolejne kroki

Publiczne Podgląd:Programiści i testerzy korporacyjni mogą otrzymać zaproszenia do eksperymentowania z Imagen 4 (standard i Ultra) i Veo 3 od 20 maja 2025 na konferencji Google I/O, z szerszym wdrożeniem w laboratoriach i Vertex AI w kolejnych tygodniach.

Informacja zwrotna i iteracja:Podobnie jak w przypadku poprzednich wydań, Google prawdopodobnie zwróci się do użytkowników z prośbą o opinie, aby udoskonalić filtry bezpieczeństwa, zwiększyć niezawodność znaku wodnego i zoptymalizować wydajność przed ogólną dostępnością.

Obserwuj tą przestrzeń:zainteresowani deweloperzy powinni monitorować Interfejs API Comet.

Nowy model API zostanie wymieniony na CometAPI i obiecuje niższe ceny niż Google, aby ułatwić integrację. Prosimy o dalsze zwracanie uwagi Dokumentacja API.