Google wird seine generativen KI-Modelle der nächsten Generation vorstellen –Bild 4, Imagen 4 Ultra und Veo 3– während der jährlichen Google I/O-Entwicklerkonferenz am 20. Mai 2025. Frühe Lecks von Vorschaukennungen (z. B. imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) signalisieren eine stufenweise Einführung und mehrere Funktionsebenen in den Bereichen Bild- und Videosynthese. Imagen 4 soll im Vergleich zu Imagen 3 eine deutliche Verbesserung des Fotorealismus, der Eingabetreue und der stilistischen Konsistenz bieten, während die Variante „Ultra“ möglicherweise eine noch höhere Auflösung oder spezielle Leistungsmodi bietet. Auf der Videoseite verspricht Veo 3 im Vergleich zu Veo 2 eine stimmigere Clip-zu-Clip-Kontinuität und eine robustere Stiltreue. Alle drei Modelle werden voraussichtlich eng in das Gemini-KI-Ökosystem von Google integriert und ermöglichen so nahtlose Übergänge von Textansagen zu Bildern oder Videos innerhalb desselben Arbeitsablaufs.
Vorschaukennungen und Rollout-Strategie
Staged Previews: Interne Referenzen wie
imagen-4.0-generate-preview-05-20imagen-4.0-ultra-generate-exp-05-20veo-3.0-generate-preview


Sind in Code-Repositories und API-Vorschauen aufgetaucht und deuten auf die Absicht von Google hin, sowohl Standard- als auch „Ultra“-Leistungsstufen für die Bildgenerierung sowie eine erweiterte Videomodellvorschau für frühe Tester anzubieten.
Start von Google I/O:
Diese Kennungen deuten stark darauf hin, dass Google Entwicklern bei I/O auf 20. Mai 2025, was früheren Rollouts für Imagen 3 und Veo 2 entspricht.
Was ist neu in Imagen 4
Fotorealismus und Wiedergabetreue
- Verbessertes Rendering: Imagen 4 soll angeblich fotorealistischere Details erzielen, Artefakte reduzieren und die Farbgenauigkeit verbessern. Erste Gerüchte deuten auf Verbesserungen beim Verständnis komplexer Eingabeaufforderungen hin, wie beispielsweise nuancierter Beleuchtung oder Reflexionen.
- Schnelle Einhaltung: Es wird erwartet, dass das Modell den Benutzeranweisungen präziser folgt und Bilder liefert, die sowohl den Inhalts- als auch den Stilrichtlinien besser entsprechen (z. B. „Ölgemälde eines Sonnenuntergangs über den Bergen“).
Stilkonsistenz
- Zusammenhalt mehrerer Bilder: Imagen 4 ist darauf ausgelegt, einen konsistenten visuellen Stil über mehrere Ausgaben hinweg beizubehalten, was Anwendungsfällen wie Storyboarding oder der Erstellung von Produktkatalogen zugutekommt, bei denen Einheitlichkeit entscheidend ist.
- Ultra-Variante: Die Stufe „Ultra“ (imagen‑4.0‑ultra) bietet wahrscheinlich Ausgaben mit höherer Auflösung oder spezielle Optimierungen (z. B. Ultra High Fidelity für Printmedien) für Unternehmen und Kreativprofis.
Was ist neu in Veo 3
Verbesserte Kohärenz
- Clip-zu-Clip-Kontinuität: Veo 3 zielt darauf ab, Videosequenzen zu erstellen, bei denen aufeinanderfolgende Aufnahmen eine konsistente Rahmung, Beleuchtung und Charaktererscheinung beibehalten, und behebt damit die Einschränkungen von Veo 2 im Zusammenhang mit der visuellen Abweichung im Laufe der Zeit.
- Stiltreue: Das Modell konzentriert sich auf die originalgetreuere Nachbildung künstlerischer oder filmischer Stile, wodurch die Produktion von Videos in einer gewünschten Ästhetik (z. B. Noir, Pastell-Animation) erleichtert wird.
Integration von SynthID-Wasserzeichen
- Digitale Wasserzeichen: Veo 2 nutzt die SynthID-Technologie von DeepMind (eingeführt mit Veo 3) und bettet nicht wahrnehmbare Wasserzeichen ein, um KI-generierte Inhalte zu identifizieren und Missbrauch einzudämmen.
Integration mit Gemini AI
- Nahtloser Zugang: Sowohl Imagen 4 als auch Veo 3 werden voraussichtlich direkt über die Gemini-Schnittstellen von Google zugänglich sein, sodass Benutzer Bilder oder Videos innerhalb von Chat-basierten Eingabeaufforderungen oder über Produktschnittstellen wie Google Fotos und Google Slides erstellen können.
- Zwillinge-Edelsteine: Angepasste KI-„Gems“ können diese Modelle integrieren, sodass Benutzer spezialisierte Assistenten erstellen können (z. B. ein Gem zur Reiseplanung, das Reiseroutenbilder und Übersichtsvideos generiert) und diese auf einem Marktplatz ähnlich dem GPT Store von ChatGPT teilen können.
Verfügbarkeit und nächste Schritte
Public Preview: Entwickler und Enterprise-Tester können ab sofort Einladungen zum Experimentieren mit Imagen 4 (Standard und Ultra) und Veo 3 erhalten. 20. Mai 2025 bei Google I/O, mit umfassenderer Einführung bei Labs und Vertex AI in den folgenden Wochen.
Feedback und Iteration: Wie bei früheren Produkteinführungen wird Google wahrscheinlich vor der allgemeinen Verfügbarkeit Benutzerfeedback einholen, um Sicherheitsfilter, Wasserzeichenrobustheit und Leistungsoptimierungen zu verfeinern.
Beobachten Sie diesen Raum: Interessierte Entwickler sollten die CometAPI.
Die neue Modell-API wird auf CometAPI gelistet und verspricht günstigere Preise als Google, um Ihre Integration zu erleichtern. Bitte achten Sie weiterhin darauf API-Dokument.
