Google hat heute sein generatives Video-Toolkit erweitert um Veo 3.1, ein schrittweises, aber konsequentes Update der Veo-Videomodellfamilie des Unternehmens. Veo 3.1 positioniert sich als Mittelweg zwischen schneller Prototypenerstellung und Produktionsabläufen mit höherer Wiedergabetreue und bietet satteren Ton, längere und kohärentere Clip-Generierung, eine genauere Einhaltung von Vorgaben und eine Reihe von Workflow-Funktionen, die KI-gesteuerte Videos für Geschichtenerzähler, Marken und Entwickler nützlicher machen sollen. Die Version erscheint zusammen mit Updates der Flow-Bearbeitungsanwendung von Google und ist in einer kostenpflichtigen Vorschau auf den Entwickleroberflächen von Google verfügbar.
Was ist Veo 3.1?
Veo 3.1 ist die neueste Version der generativen Videomodellfamilie von Google. Es baut auf der Architektur und dem Funktionsumfang von Veo 3 auf, konzentriert sich aber stark auf Audiointegration, längere Cliplänge und erzählerische Kontinuität. Während frühere Generationen kurze, schleifenfähige oder Proof-of-Concept-Clips (oft wenige Sekunden lang) priorisierten, unterstützt Veo 3.1 wesentlich längere Einzelclips – Google und Partner demonstrieren Ausgaben von bis zu 1 Minute für bestimmte Generierungsmodi – und zielt auf eine 1080p-Ausgabe als Basis für Anwendungsfälle mit höherer Wiedergabetreue ab. Das Modell führt außerdem praktische Funktionen für Filmemacher und Kreative ein, beispielsweise die Möglichkeit, ein erstes und ein letztes Bild bereitzustellen, um einen visuellen Bogen vorzugeben, „Zutaten für Videos“ (mehrere Referenzbilder, die den Inhalt steuern) und Szenenerweiterung (Erstellen zusätzlicher Sekunden Filmmaterial, das den Kontext bewahrt).
Es werden zwei Betriebsvarianten angeboten: das Hauptmodell Veo 3.1 (auf Qualität und Wiedergabetreue ausgerichtet) und Veo 3.1 Fast (wobei ein Teil der Wiedergabetreue gegen eine schnellere Iteration eingetauscht wird), wodurch die Teams schnell Prototypen erstellen und diese dann für die endgültigen Ergebnisse hochskalieren oder in höherer Qualität neu rendern können.
Veo 3.1 ist explizit als evolutionäres Upgrade positioniert, das den Ton verbessert, die Szenenlänge verlängert und granulare Bearbeitungsfunktionen (Einfügen/Entfernen, Szenenerweiterung, Interpolation des ersten und letzten Frames sowie Referenzbildführung) hinzufügt, anstatt die Architektur neu zu schreiben. Im Vergleich zur Veo 3-Version Anfang 2025 basiert Veo 3.1 auf drei praktischen Vektoren: (1) satterer nativer Ton, (2) erweiterte Szenen- und Einstellungssteuerung und (3) Verbesserungen bei Qualität und Länge.
Reichhaltigeres natives Audio über alle Funktionen hinweg
Während Veo 3 synchronisierten Ton einführte, erweitert Veo 3.1 die Klangfülle und Kontextsensitivität dieser Audioausgabe. Veo 3.1 generiert synchronisierten, kontextbezogenen Ton (Dialog, Umgebungsgeräusche und Effekte) als integrierte Ausgabe, sodass keine separaten Sounddesign-Durchgänge erforderlich sind. Google hat generierten Ton explizit zu Funktionen hinzugefügt, die zuvor stumme Videos produzierten (z. B. „Ingredients to Video“, „Frames to Video“ und „Scene Extension“). Diese Änderung reduziert die Nachbearbeitungsschritte und erleichtert Entwicklern und Teams die schnelle Iteration. Google beschreibt „klangfüllteren Ton“ und verbesserte Lippensynchronisation bei sprechenden Figuren.
Erweiterte Szenen- und Aufnahmesteuerung
Veo 3.1 legt den Schwerpunkt auf die produktionsähnliche Steuerung (Referenzbilder, Szenenerweiterung, First-Last-Interpolation, Einfügen/Entfernen), die sich besser an den Workflow eines Filmemachers anpasst. Dies ist eine klare Stärke in kreativen Pipelines und der Unternehmensautomatisierung.
Ersteller können ein erstes und ein letztes Bild oder „Zutaten“ (eine Reihe von Bildern) bereitstellen und Veo 3.1 generiert kohärente Übergänge und Zwischenbewegungen, die das Aussehen der Charaktere und die Szenenanordnung bewahren und so die Kontinuität für narrative oder Markeninhalte verbessern.
Multi-Prompt-/Multi-Shot-Sequenzierung und Zeichenkonsistenz: Neue Workflow-Funktionen zur Aufrechterhaltung der Charakteridentität und visuellen Kontinuität über Aufnahmen und mehrere Eingabeaufforderungen hinweg, sodass ein einzelner Charakter oder eine Requisite während einer Sequenz korrekt erhalten bleiben kann.
Filmische Voreinstellungen und Lichtsteuerung: Integrierte Beleuchtungs- und Kameravoreinstellungen (Dolly, Push, Zoom, Tiefenschärfe, filmische LUTs) beschleunigen die Produktion und reduzieren den Bedarf an fortgeschrittener, schneller Technik.
Qualitäts- und Längenverbesserungen
Veo 3.1 ermöglicht längere Clips (Berichte deuten auf bis zu ~60 Sekunden in den Szenenerweiterungsfunktionen von Flow hin), während Veo 3 hauptsächlich auf kurze (acht Sekunden) High-Fidelity-Clips ausgerichtet war. Die Verfügbarkeit längerer Clips kann durch die Schnittstelle (Flow) oder API-Parameter eingeschränkt sein.
Bessere Bild→Videotreue – Verbesserungen beim Rendern, wenn einem Modell Referenzbilder (erstes/letztes Bild, mehrere Referenzen) gegeben werden, sorgen für eine konsistentere Charakteridentität und Szenenkohärenz.
Die Ausgaben umfassen sowohl horizontale (16:9) als auch vertikale (9:16) Optionen, um soziale und Broadcast-Anwendungsfälle direkt zu bedienen.
Sicherheit, Herkunft und Wasserzeichen
Google hat in seinen generativen Modellen Wert auf Sicherheits- und Herkunftsmerkmale gelegt; Veo 3.1 folgt diesem Trend. In einer ersten Berichterstattung stellt Google fest:
- SynthID und Provenienzansätze (sofern unterstützt), um die Rückverfolgung KI-generierter Medien zu Modellen/Quellen zu erleichtern und Missbrauch vorzubeugen.
- Leitplanken für Inhaltsrichtlinien im Flow-Editor und in der API (regions-/planabhängig) sowie Moderationstools zur Reduzierung der Generierung schädlicher oder sensibler Inhalte.
Die Ersteller sollten sich weiterhin an bewährte Verfahren halten: KI-Inhalte bei Bedarf deutlich kennzeichnen, die Ergebnisse auf halluzinogene oder sensible Elemente überprüfen und bei der Veröffentlichung in großem Umfang traditionelle Überprüfungsabläufe anwenden.
Welche Grenzen und Risiken bleiben bei Veo 3.1 bestehen?
Veo 3.1 ist ein bedeutender Fortschritt, aber kein Allheilmittel. Wichtigste Einschränkungen und Risiken:
- Fehlermodi bleiben bestehen – Lichtartefakte, subtile Geometriefehler und gelegentliche Fehlausrichtungen (Hände, Finger, kleiner Text) treten immer noch in komplexen Szenen oder bei Anforderungen an die Wiedergabetreue auf. Reporter und frühe Tester bezeichnen diese Fälle als hartnäckige Randfälle.
- Bedenken hinsichtlich Fehlinformationen und Missbrauch – Höherer Realismus und Audiosynthese geben Anlass zu offensichtlichen Bedenken hinsichtlich Deepfakes und Missbrauch. Google legt weiterhin Wert auf Sicherheitsvorkehrungen (Durchsetzung von Inhaltsrichtlinien, Herkunftsmarkierungen) und hat bereits SynthID-Wasserzeichen eingeführt, um synthetische Medien zu verfolgen. Diese Systeme sind jedoch kein narrensicherer Ersatz für Governance und menschliche Überprüfung.
- Rechtliche und IP-Fragen – Die Verwendung von Referenzbildern, Charakterabbildungen oder urheberrechtlich geschütztem Material zur Generierung löst standardmäßige rechtliche Überlegungen aus. Unternehmen sollten einen Anwalt konsultieren und die Leitlinien der Nutzungsrichtlinien beachten.
Schnellstart – Beispiel-Workflow (Gemini-App + API)
In der Gemini-App/Flow (kein Code):
Öffnen Sie die Gemini-App (oder den Flow-Editor) und melden Sie sich an. Suchen Sie nach der Option „Video“ oder „Erstellen → Video“.
Himmelsarbeit
Wählen Sie Veo 3.1 im Modell-Dropdown-Menü (falls mehrere Modelle vorhanden sind). Wählen Sie das Seitenverhältnis und die Zieldauer. Wählen Sie optional eine Film- oder Beleuchtungsvorgabe.
TechRadar
Geben Sie eine Texteingabe ein, laden Sie optional 1–3 Referenzbilder hoch (für Zutaten→Video oder Erstes/Letztes Bild) und wählen Sie, ob Audio generiert werden soll. Senden Sie die Eingabe ab und warten Sie, bis die Generierung abgeschlossen ist. Nutzen Sie die Bearbeitungswerkzeuge von Flow, um Szenen zu erweitern, Objekte einzufügen oder Elemente nach Bedarf zu entfernen.
The Verge
So rufen Sie Veo 3.1 auf (programmgesteuert)
Die Modellliste und KI-Dokumentation von CometAPI enthält Modellnamen (z. B. veo-3.1 und veo-3.1-pro) und Parameter zur Steuerung von Auflösung, Länge, Seitenverhältnis und Referenzen.
Schritte:
- Anmelden bei CometAPI und dir versichern Holen Sie sich den Schlüssel der CometAPI.
- Rufen Sie den Veo 3.1-Modellendpunkt mit einer JSON-Nutzlast auf, die Ihre Eingabeaufforderung, Referenzen (Base64- oder GCS-Referenzen), Zielauflösung/-dauer und Flags für Audio- oder Szenenerweiterungen enthält. Verwenden Sie den Veo 3.1 Fast-Endpunkt für iterative Läufe.
- Verarbeiten Sie die Ausgabedateien (Videodateien, optional separate Audiospur) und verwalten Sie die Nachbearbeitung (Farbkorrektur, Kodierung für die Bereitstellung) in Ihrer Pipeline. Überwachen Sie Kosten und Kontingente. Lange oder hochauflösende Clips erfordern mehr Rechenleistung.
CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.
Entwickler können zugreifen Veo 3.1 über CometAPI, CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.
Fazit
Veo 3.1 ist ein pragmatisches und durchdachtes Upgrade: Der unmittelbare Nutzen liegt in der Reduzierung der Reibung zwischen Idee und finaler Szene durch die Hinzufügung von Audio als native Ausgabe, die Erweiterung der Szenen- und Referenzsteuerung und die Ermöglichung längerer Ausgabeketten. Für Kreative, die produktionsähnliche Bearbeitung innerhalb einer generativen Schleife wünschen, und für Unternehmen, die eine programmatische Inhaltsautomatisierung anstreben, ist Veo 3.1 ein überzeugendes Tool.
