So verwenden Sie die Veo 3.1-API

Veo 3.1 ist die neueste Version der Veo-Familie von Videogenerierungsmodellen von Google. Sie bietet satteren nativen Ton, verbesserte narrative und filmische Steuerung, Mehrbildführung und neue Bearbeitungsfunktionen (Übergänge zwischen erstem und letztem Bild, „Zutaten“/Referenzbilder und Szenenerweiterungs-Workflows). Entwickler können Veo 3.1 am schnellsten über die API (für kundenorientierte Integrationen) und Vertex AI (für Unternehmens- und Cloud-Workloads) nutzen.

Was ist die Veo 3.1 API und was sind ihre Hauptfunktionen?

Veo 3.1 ist ein Text-Bild-Video-Generierungsmodell von Google zur Produktion kurzer, hochwertiger Filmclips mit nativ generiertem Audio (Dialog, Umgebungsgeräusche, Soundeffekte). Der Schwerpunkt der Version liegt auf der Verbesserung der Prompt-Einhaltung, der Charakterkonsistenz, der Audiogenerierung und detaillierteren Bearbeitungsfunktionen (z. B. Übergänge vom ersten zum letzten Frame und Anleitung über bis zu drei Referenzbilder).

Wichtige Funktionen (auf einen Blick)

Text → Video: Erstellen Sie Videos direkt aus Erzählaufforderungen (Dialog und Audio inbegriffen).
Bild → Video: Verwandeln Sie ein Bild in eine kurze animierte Szene. ()
Referenzbilder („Zutaten zum Video“): Versorgung bis zu 3 Bilder (Zeichen, Objekte, Stile), um die visuelle Konsistenz über alle Ausgaben hinweg zu gewährleisten.
Generierung des ersten und letzten Frames: Erstellen Sie Übergänge zwischen zwei Bildern (das Modell generiert Frames, die fließend zwischen ihnen übergehen, mit passendem Audio).
Arbeitsabläufe für Szenenerweiterungen: Tools zum Erweitern eines vorhandenen Clips durch Generieren neuer Clips, die an das Ende eines vorherigen Videos angehängt werden (Hinweis: Funktionen und Support unterscheiden sich zwischen Gemini-API und Vertex-Vorschau – siehe Abschnitt „Bedingungen“).
Natives Audio und SFX: Das Modell kann Sprache, Umgebungsgeräusche und synchronisierte Effekte synthetisieren, die zu den generierten visuellen Elementen passen.

Wie verwende ich die Veo 3.1 API – was sind die Voraussetzungen und Bedingungen?

Was benötigen Sie, bevor Sie die API aufrufen?

Zugang & Abrechnung: Veo 3.1 ist in der kostenpflichtigen Vorschau verfügbar. Stellen Sie sicher, dass Sie über einen API-Schlüssel oder ein Google Cloud-Projekt mit aktiviertem Vertex AI und eingerichteter Abrechnung verfügen. Einige Funktionen und Modellvarianten sind in der Vorschau regional beschränkt.
Kontingente und Vorschaubeschränkungen: Vorschaumodelle unterliegen häufig projektbezogenen Anforderungsratenlimits (Beispiele: 10 RPM für Vorschauvarianten) und Videolimits pro Anforderung. Die genauen Zahlen für Ihr Konto finden Sie auf der Modellseite in den Vertex AI/Gemini-Dokumenten.
Eingabe-Assets und -Format: Sie können aus Textaufforderungen, einzelnen oder mehreren Bildern generieren oder ein vorhandenes, von Veo generiertes Video durch Referenzierung seiner URI erweitern. Für Bild-zu-Video-Workflows stellen Sie Bilder in den unterstützten Formaten bereit (URLs oder Bytes, je nach Endpunkt).
Sicherheit & Herkunft: Generierte Inhalte müssen den Inhaltsrichtlinien von Google entsprechen. In der Vorschau können Wasserzeichen oder Verwendungskennzeichen erscheinen. Stellen Sie sich darauf ein, dass Ihre Anwendung die Schritte zur Herkunft und Inhaltsmoderation umfasst.

Welche Authentifizierungsmethoden werden unterstützt?

API-Schlüssel: Für die von Gemini gehosteten Endpunkte oder den Schlüssel der API-Plattform eines Drittanbieters. Ich empfehle CometAPI, CometAPI bieten einen Preis weit unter dem offiziellen Preis, um Ihnen bei der Integration der Veo 3.1 API (veo3.1-pro; veo3.1) zu helfen
Google Cloud-Anmeldeinformationen/ADC: Verwenden Sie für Vertex AI die Standardanmeldeinformationen der Anwendung (Dienstkonto/gcloud auth) oder einen API-Schlüssel, der an Ihr Google Cloud-Projekt angehängt ist.

Was sind die Veo 3.1 API-Endpunkte und welche Parameter sind am wichtigsten?

Kurze Antwort: Sie rufen entweder die CometAPI API Endpunkt zur Videogenerierung (für CometAPI-gehosteten Zugriff, v1/chat/completions). Beide verwenden einen JSON-Anforderungstext, der das Modell, die Eingabeaufforderung(en) und eine video/output Konfiguration; größere Videoaufträge werden als Vorgänge mit langer Ausführungsdauer zurückgegeben.

Häufige Endpunkte (Beispiele):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

Typische Anfrageparameter (logische Aufschlüsselung)

Modell — Modellkennung zum Ziel (veo3.1-pro; veo3.1-Namen aufgelistet in Modellreferenz).
Eingabeaufforderung / Eingabe — menschlicher Text zur Beschreibung der Szene; kann je nach Modellfähigkeiten mehrere Eingabeaufforderungen oder Anweisungen für mehrere Aufnahmen enthalten. Verwenden Sie strukturierte Eingabeaufforderungen zur Steuerung von Kamerabewegungen, Tageszeit, Stimmung und Audiosignalen.
Bildreferenzen — 1–3 Bild-URIs oder Base64-Bilder zur Orientierung von Objekten/Zeichen/Stilen (Veo 3.1 unterstützt mehrere Bildreferenzen).
Video — wird verwendet, wenn Verlängerung eine vorherige Veo-Ausgabe (übergeben Sie die ursprüngliche Video-URI). Einige Funktionen funktionieren nur bei von Veo generierten Videos.
Dauer / fps / Auflösung / Seitenverhältnis – Wählen Sie aus unterstützten Längen und Formaten (Vorschaumodelle listen unterstützte Dauern und Bildraten auf – z. B. 4, 6, 8 Sekunden in einigen Vorschaudokumenten; Erweiterungen ermöglichen möglicherweise längere Ausgaben in Flow/Studio).

Was sind fortgeschrittene Nutzungsmuster und -techniken?

1) Bewahren Sie die Zeichenkonsistenz mit Referenzbildern

Stellen Sie bis zu drei Referenzbilder (Gesichter/Posen/Kostüme) bereit, um das Aussehen einer Figur über mehrere generierte Aufnahmen hinweg beizubehalten. Typischer Ablauf:

Laden Sie Ihre Referenzbilder hoch oder kodieren Sie sie inline.
Geben Sie sie weiter config.reference_images beim Generieren jedes Schusses.
Verwenden Sie für nachfolgende Generationsaufrufe dieselben Bilder (oder kombinieren Sie sie mit Startwerten), um die visuelle Konsistenz zu maximieren.

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) Übergänge zwischen dem ersten und letzten Bild (Shot-Synthese)

Nutzen Sie image (erstes Bild) + config.last_frame um Veo anzuweisen, die Zwischenbewegung zu synthetisieren. Dies ist ideal für filmische Übergänge – es erzeugt eine natürliche visuelle Interpolation und synchronisierten Ton.

Bieten eine erstes Bild (image) Und eine letztes Bild (lastFrame) und Veo 3.1 interpoliert die Bewegung zwischen ihnen, um einen sanften Übergang (mit optionalem Audio) zu erzeugen. cURL (REST)-Beispiel – erstes + letztes Bild:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) Szenenerweiterung (Verkettung mehrerer Generationen)

Es gibt zwei Muster:

API/Flow-Ansatz (Vorschaufunktionen): Sie übergeben ein vorhandenes Video (ein zurückgegebenes Videoobjekt oder eine URI) als video=video_to_extend um einen Folgeclip zu erstellen, der mit der vorherigen Szene übereinstimmt. Verwenden Sie die Operationsantwort, um die video.uri und geben Sie es in den nächsten Anruf ein, um die Erzählung zu erweitern. Hinweis: Verfügbarkeit und Verhalten können je nach Plattform variieren. Validieren Sie es daher auf der von Ihnen gewählten Plattform.
Vertex-Wolkenmuster: Das Vorschaumodell von Vertex hat strengere, im Dokument aufgeführte Beschränkungen (z. B. gibt die aktuelle Vorschau nur 4/6/8 Sekunden lange Segmente zurück). Um minutenlange Ausgaben zu erzeugen, müssen Sie daher mehrere Anfragen verketten und diese in Ihrer Anwendung zusammenfügen oder die offiziellen Szenenerweiterungstools der Engine verwenden, sofern verfügbar. Die aktuelle Support-Matrix finden Sie auf der Seite „Veo 3.1 Vorschau“ von Vertex.

Machen Sie einen zuvor von Veo generiert Video und erweitern Sie es (Sekunden hinzufügen), während Stil und Kontinuität erhalten bleiben. Die API erfordert als Eingabe ein von Veo generiertes Video (Erweiterungen beliebiger MP4-Formate werden möglicherweise nicht unterstützt). Sie können in 7-Sekunden-Schritten bis zu den dokumentierten Grenzen erweitern (es gelten die Veo-Vorschaugrenzen):

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) Audio- und Dialogsteuerung

Veo 3.1 generiert natives Audio (Sprache und Effekte) aus Eingabeaufforderungen. Tricks:

Fügen Sie alle gesprochenen Zeilen in Ihre Eingabeaufforderung ein (schließen Sie Dialoge in Anführungszeichen), um eine realistische Lippensynchronisation zu fördern.
Fügen Sie Audiodeskriptoren hinzu („leise Schritte von links nach rechts“, „gedämpftes Donner-Crescendo“), um Soundeffekte und Stimmung zu gestalten.
Verwenden Sie Startwerte, um bei allen Testläufen dasselbe audiovisuelle Ergebnis zu reproduzieren.

5) Deterministische Ergebnisse zum Testen (Seeds)

Wenn Sie wiederholbare Ergebnisse für CI- oder A/B-Tests benötigen, geben Sie eine seed Parameter (uint32). Das Ändern der Eingabeaufforderung oder der Referenzbilder verändert das Ergebnis weiterhin; Seed garantiert die Wiederholbarkeit einzige wenn alles andere identisch ist.

6) Kosten- und Leistungsoptimierungen

Weniger, dafür größere Aufträge bündeln: Wo erlaubt, setzen sampleCount um mehrere Kandidatenvideos in einer Anfrage (1–4) zu erstellen und so den Einrichtungsaufwand zu reduzieren. ()
Referenzbilder zwischenspeichern und Seeds wiederverwenden aus Gründen der Reproduzierbarkeit, damit Sie das erneute Hochladen großer Binärdateien vermeiden.
Verwenden Sie Cloud Storage-Ausgaben (Vertex) für große Ausgabegrößen, um die Rückgabe von Rohbytes im Anforderungstext zu vermeiden.

7) Mehrstufige Pipelines mit anderen Gemini-Modellen

Eine nützliche Pipeline: Verwenden Sie einen Standbildgenerator (z. B. Gemini-Bildmodell), um Assets zu erstellen → übergeben Sie die besten Bilder als image + referenceImages zu Veo 3.1 → Audio-/Dialogaufforderungen mit dem Textmodell für generierte Erzählungen iterieren. Die Gemini-Dokumente zeigen explizit Beispiele für die Verkettung von Bildgenerierung und Veo-Aufrufen.

Praktische Tipps, Fallstricke und Best Practices

Verwenden Sie Samen wenn Sie deterministische, wiederholbare Ausgaben zwischen den Läufen wünschen (gleiche Eingabeaufforderung + gleiche Referenzen + gleicher Seed → gleiche Generation).
Halten Sie die Referenzbilder konsistent: Gleicher Ausschnitt, gleicher Gesichtswinkel, einheitliche Kleidung/Hintergrund helfen dem Model, Identität und Stil zu bewahren. Verwenden Sie dieselben drei Bilder für mehrere Aufnahmen, um die Kontinuität zu wahren.
Bevorzugen Sie GCS-URIs für die Produktion: Durch das Speichern von Bildern und Ausgaben in Cloud Storage werden die Übertragungsgrößenbeschränkungen von Base64 umgangen und die Verkettung/Erweiterung vereinfacht.
Übergänge und Audio explizit beschreiben: Fügen Sie für den ersten/letzten Übergang Kamerabewegung, Tempo und SFX-/Sprachhinweise in die Eingabeaufforderung ein, um eine bessere Audiosynchronisierung zu erzielen.
Testen Sie zuerst kurze Schleifen: Iterieren Sie mit kurzen Dauern (4–8 s), während Sie Eingabeaufforderungen, Seeds und Referenzbilder optimieren, und verketten Sie dann Erweiterungen für längere Szenen.
Bestätigen Sie die genauen Feldnamen: SDKs können verwenden reference_images (Schlangenfall), referenceImages (camelCase) oder verschachtelt image Objekte mit content / gcsUri. Überprüfen Sie die SDK-Dokumente oder das Vertex-Modellschema auf die genauen Eigenschaftsnamen in der von Ihnen verwendeten Version.

Was kostet Veo 3.1 und wie wird es abgerechnet?

Veo 3.1 wird in Rechnung gestellt pro Sekunde des generierten Videos, und Google stellt mehrere Varianten zur Verfügung (zum Beispiel Standard kombiniert mit einem nachhaltigen Materialprofil. Schnell) mit unterschiedlichen Preisen pro Sekunde. Die veröffentlichten Entwicklerpreise zeigen beispielhafte Tarife für die kostenpflichtige Stufe von 0.40 $/Sekunde für Veo 3.1 Standard kombiniert mit einem nachhaltigen Materialprofil. 0.15 $/Sekunde für Veo 3.1 FastAuf der Gemini-Preisseite wird außerdem darauf hingewiesen, dass Ihnen nur dann Kosten entstehen, wenn ein Video erfolgreich erstellt wurde (fehlgeschlagene Versuche werden möglicherweise nicht in Rechnung gestellt).

Veo 3.1 API Preise in CometAPI


veo3.1	0.4000
veo3.1-pro	2.0000

Fazit – warum Veo 3.1 gerade jetzt für Entwickler wichtig ist

Veo 3.1 ist ein deutlicher Fortschritt für die KI-Videogenerierung: Reichhaltigerer nativer Ton, Referenzbildführung und neue Bearbeitungsfunktionen machen es zu einer besseren Option für Storytelling, Prävisualisierung und kreative Apps. Die genauen Funktionen des Modells unterscheiden sich leicht zwischen Endpunkten und Vorschauversionen (z. B. der Versionsunterschied zwischen CometAPI und Gemini). Testen und validieren Sie daher die gewünschte Modellvariante. Die Beispiele in diesem Handbuch bieten einen praktischen Ausgangspunkt für Prototyping und Produktion.

Zugriff Veo 3.1 API API

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen Veo 3.1 API über CometAPI, die neuste Modellversion wird immer mit der offiziellen Website aktualisiert. Erkunden Sie zunächst die Fähigkeiten des Modells in der Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Bereit loszulegen? → Melden Sie sich noch heute für CometAPI an !

Wenn Sie weitere Tipps, Anleitungen und Neuigkeiten zu KI erfahren möchten, folgen Sie uns auf VK, X kombiniert mit einem nachhaltigen Materialprofil. Discord!