Can Veo 3.1 API generate videos from images as well as text prompts?

Ja. Veo 3.1 unterstützt sowohl Text-zu-Video- als auch Bild-zu-Video-Workflows und ermöglicht es Kreativen, von Prompts, Bildern oder Frame-Guidance-Workflows aus zu starten.

When should I use Veo 3.1 instead of Sora 2?

Wählen Sie Veo 3.1, wenn Audiosynchronisierung, bildgesteuerte Workflows, vertikale Content-Erstellung oder die Ökosystem-Integration mit Google-Tools am wichtigsten sind.

Can Veo 3.1 create vertical videos for TikTok or Shorts?

Ja. Veo 3.1 unterstützt native 9:16-Seitenverhältnisse.

What should I do if Veo 3.1 generation fails or produces poor results?

Reduzieren Sie die Prompt-Komplexität, vereinfachen Sie Kameraanweisungen und iterieren Sie die Prompts.

Is Veo 3.1 suitable for commercial marketing videos and ads?

Ja. Es ist gut geeignet für Branded Content, Produktvideos und Social-Media-Kampagnen.

Is there a free trial for Veo 3.1 API in CometAPI?

Neue Nutzer erhalten einen kostenlosen Schlüssel, und der API-Preis beträgt weiterhin 20% des offiziellen Preises.

Erschwingliche Veo 3.1 API | image-to-video

Playground für Veo 3.1

Erkunden Sie Veo 3.1's Playground — eine interaktive Umgebung zum Testen von Modellen und Ausführen von Abfragen in Echtzeit. Probieren Sie Prompts aus, passen Sie Parameter an und iterieren Sie sofort, um die Entwicklung zu beschleunigen und Anwendungsfälle zu validieren.

Technische Spezifikationen von Veo 3.1

Item	Veo 3.1 (öffentliche Spezifikationen)
Official model ID	veo-3.1-generate-001
Provider	Google DeepMind / Google Cloud
Model type	Text-zu-Video- und Bild-zu-Video-Generierung
Input types	Textprompts, Bildeingaben, First-Frame + Last-Frame Guidance
Output type	KI-generiertes Video
Supported resolutions	720p und 1080p, 4K
Supported aspect ratios	16:9 und 9:16
Supported framerate	24 FPS
Video duration	4-, 6- oder 8-s-Clips (modusabhängig)
Prompt language	Englisch
Videos per request	Bis zu 4
API rate limit	Bis zu 50 Anfragen/Minute/Projekt
Supported deployment	Vertex AI, Gemini ecosystem integrations, Flow
Unsupported features (official docs)	Dynamische gemeinsame Kontingente, einige Reference-Image-Workflows, native Videoerweiterung im Standard-API-Flow

Was ist Veo 3.1?

Veo 3.1 ist Googles Flaggschiff-Familie generativer Videomodelle, die sich auf videokinematografische Qualität, stärkere Prompt-Übereinstimmung, bessere Szenenkonsistenz und multimodale Video-Creation-Workflows konzentriert. Es geht über die Standard-Text-zu-Video-Generierung hinaus, indem es bildgesteuerte Generierung und framekontrollierte Storytelling-Workflows unterstützt. Offiziell unterstützt werden Text-zu-Video, Bild-zu-Video, Prompt-Umformulierung sowie First/Last Frame-Generierungs-Workflows.

Kernfunktionen

Veo 3.1 konzentriert sich auf praxisnahe Funktionen für die Content-Erstellung:

Native Audiogenerierung (Dialog, Umgebungsgeräusche, SFX) in die Ausgaben integriert. Veo 3.1 erzeugt native Audios (Dialog + Ambience + SFX), die an die visuelle Timeline ausgerichtet sind; das Modell zielt darauf ab, Lippensynchronität und audio‑visuelle Ausrichtung für Dialoge und Szenenhinweise zu wahren.
Längere Ausgaben (Unterstützung bis zu ~60 Sekunden/1080p gegenüber den sehr kurzen Clips von Veo 3, 8 s) und Multi-Prompt-Multi-Shot-Sequenzen für narrative Kontinuität.
Scene Extension und First/Last Frame-Modi, die Material zwischen Keyframes erweitern oder interpolieren.
Objekteinfügung und (kommt) Objektentfernung sowie Bearbeitungsgrundbausteine in Flow.

Jeder der obigen Punkte zielt darauf ab, manuelle VFX-Arbeit zu reduzieren: Audio und Szenenkontinuität sind jetzt erstklassige Ausgaben statt nachträglicher Ergänzungen.

Technische Details (Modellverhalten & Eingaben)

Modellfamilie & Varianten: Veo gehört zu Googles Veo‑3‑Familie; die Preview‑Modell‑ID ist typischerweise veo3.1-pro; veo3.1 (CometAPI‑Doku). Es akzeptiert Textprompts, Bildreferenzen (Einzelbild oder Sequenzen) und strukturierte Multi‑Prompt‑Layouts für Multi‑Shot‑Generierung.

Auflösung & Dauer: Die Preview‑Dokumentation beschreibt Ausgaben in 720p/1080p mit Optionen für längere Dauern (bis ~60 s in bestimmten Preview‑Einstellungen) und höherer Wiedergabetreue als frühere Veo‑Varianten.

Seitenverhältnisse: 16:9 (unterstützt) und 9:16 (unterstützt, außer in einigen Reference‑Image‑Flows).

Prompt-Sprache: Englisch (Preview).

API‑Limits: Typische Preview‑Grenzen umfassen max. 10 API‑Anfragen/Min. pro Projekt, max. 4 Videos pro Anfrage und Videolängen wählbar zwischen 4, 6 oder 8 Sekunden (Reference‑Image‑Flows unterstützen 8 s).

Benchmark-Leistung

Googles interne und öffentlich zusammengefasste Auswertungen berichten von starker Präferenz für Veo‑3.1‑Ausgaben in Vergleichen durch menschliche Bewerter anhand von Metriken wie Textausrichtung, visueller Qualität und audio‑visueller Kohärenz (Text→Video und Bild→Video).

Veo 3.1 erzielte State‑of‑the‑Art-Ergebnisse in internen Vergleichen durch menschliche Bewerter entlang mehrerer Achsen — Gesamtpräferenz, Prompt‑Ausrichtung (Text→Video und Bild→Video), visuelle Qualität, Audio‑Video‑Ausrichtung und „visuell realistische Physik“ auf Benchmark‑Datensätzen wie MovieGenBench und VBench.

Einschränkungen & Sicherheitsaspekte

Einschränkungen:

Artefakte & Inkonsistenzen: Trotz Verbesserungen können bestimmte Lichtsituationen, feinauflösende Physik und komplexe Okklusionen weiterhin zu Artefakten führen; die Bild→Video‑Konsistenz (insbesondere über lange Dauern) ist verbessert, aber nicht perfekt.
Fehlinformations-/Deepfake‑Risiko: Reichhaltigeres Audio + Objekteinf./‑entf. erhöht das Missbrauchsrisiko (realistisch wirkendes Fake‑Audio und längere Clips). Google verweist auf Maßnahmen (Richtlinien, Schutzmechanismen), und frühere Veo‑Releases erwähnten Watermarking/SynthID zur Herkunftssicherung; technische Schutzmaßnahmen eliminieren das Missbrauchsrisiko jedoch nicht.
Kosten- & Durchsatzbeschränkungen: Hochauflösende, lange Videos sind rechnerisch aufwendig und derzeit in einer kostenpflichtigen Preview verfügbar — erwarten Sie höhere Latenz und Kosten im Vergleich zu Bildmodellen. Community‑Posts und Google‑Forenbeiträge diskutieren Verfügbarkeitsfenster und Fallback‑Strategien.

Sicherheitskontrollen: Veo 3.1 verfügt über integrierte Inhaltsrichtlinien, Watermarking/SynthID‑Signale in früheren Veo‑Releases und Preview‑Zugriffskontrollen; Kunden sollten den Plattformrichtlinien folgen und für risikoreiche Ausgaben eine menschliche Prüfung implementieren.

Praktische Anwendungsfälle

Schnelles Prototyping für Kreative: Storyboards → Multi‑Shot‑Clips und Animatics mit nativen Dialogen zur frühen kreativen Begutachtung.
Marketing & Kurzform‑Content: 15–60‑s Produktspots, Social‑Clips und Konzept‑Teaser, bei denen Geschwindigkeit wichtiger ist als perfekte Photorealistik.
Bild→Video‑Adaption: Illustrationen, Figuren oder zwei Frames in sanfte Übergänge oder animierte Szenen verwandeln über First/Last Frame und Scene Extension.
Tooling‑Erweiterung: In Flow integriert für iterative Bearbeitung (Objekteinfügung/‑entfernung, Licht‑Presets), die manuelle VFX‑Durchläufe reduziert.

Vergleich mit anderen führenden Modellen

Veo 3.1 vs Veo 3 (Vorgänger): Veo 3.1 fokussiert verbesserte Prompt‑Übereinstimmung, Audioqualität und Multi‑Shot‑Konsistenz — inkrementelle, aber wirkungsvolle Updates zur Reduktion von Artefakten und zur Verbesserung der Editierbarkeit.

Veo 3.1 vs OpenAI Sora 2: In der Presse berichtete Abwägungen: Veo 3.1 betont Narrativkontrolle über längere Formen, integriertes Audio und die Flow‑Edit‑Integration; Sora 2 (im Pressvergleich) setzt andere Schwerpunkte (Geschwindigkeit, andere Editing‑Pipelines). TechRadar und andere Publikationen rahmen Veo 3.1 als Googles gezielten Wettbewerber zu Sora 2 für narrative und längere Videounterstützung. Unabhängige Side‑by‑Side‑Tests bleiben begrenzt.

Fähigkeit	Veo 3.1	Sora 2	Runway Gen-4 / Gen-4.5
Native vertikale Ausgabe	Ja	Eingeschränkte Workflow-Unterstützung	Ja
Bild-zu-Video	Ja	Ja	Ja
Fokus auf Audio-Integration	Stark	Moderat	Moderat
Frame-Konditionierung	Ja	Ja	Teilweise
Optimierung für Social-Video	Stark	Moderat	Stark
Integration in das API-Ökosystem	Google-Ökosystem	OpenAI‑Ökosystem	Creator‑Tools‑Ökosystem

Wie verwende ich die Veo 3.1‑API mit CometAPI?

Erstellen Sie einen CometAPI‑API‑Schlüssel
Wählen Sie veo-3.1-generate-001 als Modell‑Endpoint
Senden Sie Prompt‑ oder Bildeingaben über die Video‑Generierungs‑API
Ergebnisse abfragen und generierte Videos abrufen
Prompts für Kamerabewegung, Szenenkontinuität und Konsistenzverbesserungen iterieren

FAQ

Preise für Veo 3.1

Entdecken Sie wettbewerbsfähige Preise für Veo 3.1, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie Veo 3.1 Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.

Veo Video Generation Pricing

Pricing (Per Second)

Model	720p	1080p	4K
`veo3`	$0.32	$0.32	$0.48
`veo3-fast`	$0.08	$0.096	$0.24
`veo3.1`	$0.32	$0.32	$0.48
`veo3.1-fast`	$0.08	$0.096	$0.24

💡 Billed per second. Total cost = price per second × video duration (seconds).

Beispielcode und API für Veo 3.1

Greifen Sie auf umfassende Beispielcodes und API-Ressourcen für Veo 3.1 zu, um Ihren Integrationsprozess zu optimieren. Unsere detaillierte Dokumentation bietet schrittweise Anleitungen und hilft Ihnen dabei, das volle Potenzial von Veo 3.1 in Ihren Projekten zu nutzen.

POST

/v1/videos

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

cURL Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Versionen von Veo 3.1

Der Grund, warum Veo 3.1 mehrere Snapshots hat, kann potenzielle Faktoren wie Änderungen der Ausgabe nach Updates umfassen, die ältere Snapshots für Konsistenz erfordern, Entwicklern eine Übergangszeit für Anpassung und Migration bieten und verschiedene Snapshots, die globalen oder regionalen Endpunkten entsprechen, um das Benutzererlebnis zu optimieren. Für detaillierte Unterschiede zwischen den Versionen lesen Sie bitte die offizielle Dokumentation.

Modell-ID	Beschreibung	Verfügbarkeit	Anfrage
veo3.1-all	Die verwendete Technologie ist inoffiziell und die Generierung ist instabil usw.	✅	Chat Format
veo3.1	Empfohlen, verweist auf das neueste Modell	✅	Asynchrone Generierung