请提供需要翻译的具体文本,并注明目标语言(例如:德语)。当前输入为一般性问答,非翻译文本。

CometAPI
AnnaDec 26, 2025
请提供需要翻译的具体文本,并注明目标语言(例如:德语)。当前输入为一般性问答,非翻译文本。

Veo 3.1 erzeugt beim Aufruf der Gemini/Vertex-(Veo)-Endpunkte nativ synchronisierten Ton zusammen mit dem Video — die Audioausgabe steuerst du über den Textprompt (Audiohinweise, Dialogzeilen, SFX, Ambience), und derselbe Generierungsauftrag liefert eine MP4-Datei zum Download. Wenn du eine einheitliche API bevorzugst, die viele Anbieter bündelt, bietet CometAPI ebenfalls Zugriff auf Veo 3.1 (du rufst CometAPI mit deinem Comet-Key auf und verlangst veo3.1/veo3.1-pro). Das Release ist als direkter Konkurrent zu anderen Medienmodellen positioniert (zum Beispiel OpenAIs Sora 2) und konzentriert sich auf Verbesserungen bei Audiorealismus, narrativer Steuerung und Multi-Shot-Kontinuität.

Was ist Veo 3.1?

Veo 3.1 ist Googles neueste Iteration der Veo-Familie von Text-und-Bild→Video-Modellen. Im Vergleich zu früheren Veo-Versionen hebt Veo 3.1 die native Audiogenerierung hervor — das bedeutet, das Modell erzeugt synchronisierten Dialog, Ambience, Soundeffekte und musikalische Cues als Teil der Videoausgabe, ohne dass ein separater Text-to-Speech- oder Postproduktionsschritt erforderlich ist. Außerdem bringt es neue narrative Steuerungen (Referenzbilder, Übergänge zwischen erstem und letztem Frame sowie Szenenerweiterungsfunktionen), die auf kohärentere Multi-Shot-Geschichten abzielen.

Warum das wichtig ist: Audio ist der Kanal, über den Zuschauer Raum, Emotion, Timing und Kausalität interpretieren. Native Audiogenerierung (Dialog, der mit Lippenbewegungen übereinstimmt, SFX, die zu sichtbaren Ereignissen getimt sind, und Hintergrundatmosphären, die zur Szenengeografie passen) reduziert den manuellen Aufwand, damit sich ein Clip „echt“ anfühlt, und erlaubt schnellere Iterationen bei Story und Stimmung.

Kann Veo 3.1 Audio erzeugen — und welche Arten von Audio kann es erstellen?

Wie wird Audio im Modell erzeugt?

Veo 3.1 behandelt Audio als integrierte Ausgabemodalität der Videogenerierungspipeline. Anstatt Videoframes an eine separate TTS- oder Foley-Engine zu senden, modelliert Veos Generierungsprozess Audio- und visuelle Ströme gemeinsam, sodass Timing, akustische Hinweise und visuelle Ereignisse kohärent sind. Dieses gemeinsame Modellieren ermöglicht, dass Konversationen, Ambient-Klanglandschaften und synchronisierte SFX natürlich an die generierten Bilder ausgerichtet erscheinen. „richer native audio“ und synchronisierte Tongenerierung werden als zentrale Verbesserungen in 3.1 hervorgehoben.

Warum die Audiofunktion bedeutsam ist

Historisch erzeugten viele Text-zu-Video-Systeme stumme Videos und überließen Audio einer späteren Pipeline. Veo 3.1 ändert das, indem Audio im selben Generierungsvorgang entsteht — was den manuellen Mixaufwand reduziert, für strafferes Lipsync bei kurzen Zeilen sorgt und es ermöglicht, kausale Klangereignisse über Prompts zu steuern (z. B. „ein Glas zerspringt, wenn die Kamera nach links schwenkt“). Das hat erhebliche Auswirkungen auf Produktionsgeschwindigkeit, iterative Gestaltung und kreatives Prototyping.

Welche Audioarten kann Veo 3.1 erstellen?

  • Dialog/Sprache — Multisprecher-Dialog mit Timing, das zu Lippen und Aktionen passt.
  • Ambient-Klanglandschaften — Umgebungsgeräusche (Wind, Verkehr, Raumklang), die zur Szenengeografie passen.
  • Soundeffekte (SFX) — Treffer, Einschläge, Türen, Schritte usw., auf visuelle Ereignisse getimt.
  • Musik-Cues — kurze musikalische Motive oder Stimmungsunterlegungen, die zum Szenentempo passen.

Diese Audiotypen werden nativ erzeugt und primär durch den Prompt-Inhalt statt durch separate Audioparameter gesteuert.

Technische Grenzen und Länge

Out of the box ist Veo 3.1 auf hochwertige Kurzclips ausgelegt (8-Sekunden-High-Quality-Ausgaben für einige Flows), unterstützt jedoch auch die Szenenerweiterung und Generierungsbrücken (erster→letzter Frame, Verlängerung ab der letzten Sekunde), die Multi-Clip-Sequenzen von mehreren Zehn Sekunden bis zu einer Minute oder mehr ermöglichen, wenn sie über die Szenenerweiterung aneinandergereiht werden.

Wie erzeugt man Audio mit Veo 3.1 (direkt, über Google Gemini/Vertex)

Schritt 1: Voraussetzungen

  1. Google-Konto mit Zugriff auf die Gemini API/Vertex AI und gültigem API-Schlüssel/Anmeldedaten (Veo 3.1 ist in vielen Zugriffspfaden als bezahlte Vorschau verfügbar).
  2. Der Google-Client genai/Gemini oder der REST-Endpunkt ist in deiner Umgebung eingerichtet (oder Vertex-Client, wenn du die Cloud Console bevorzugst).

Schritt 2: Das richtige Modell und den Zugriff wählen

Verwende veo-3.1-generate-preview (oder veo-3.1-fast, wenn Geschwindigkeit/Kosten Priorität haben). Diese Modellstrings erscheinen in Googles Beispielen für den Vorschauzugang. Du benötigst einen bezahlten Gemini-API-/Google-AI-Schlüssel (oder Zugang über AI Studio/Vertex AI).


Schritt 3: Python-Beispiel — Gemini-genai-Client (empfohlen, Copy/Paste)

Dieses Beispiel zeigt die Form eines programmatischen Aufrufs (Python, google.genai-Client). Es demonstriert, wie man einen Textprompt mit Audioanweisungen übergibt.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Hinweise: Die zurückgegebene Datei ist typischerweise eine MP4 mit enthaltenem Audiotrack. Das zentrale Element für die Audiosteuerung oben sind beschreibende Audioanweisungen im Prompt. Veo 3.1 reagiert auf natürlichsprachige Audiovorgaben, um synchronisierte Audiotracks zu generieren.

Schritt 3 — Verwendung von Referenzbildern und „Ingredients to Video“

Um das Erscheinungsbild von Figuren und akustische Hinweise konsistent zu halten, kannst du bis zu drei Referenzbilder übergeben, die Veo zur Wahrung von visuellem Stil und Kontinuität nutzt. Derselbe Generierungsaufruf unterstützt reference_images=[...]. Das wird empfohlen, wenn du konsistente Stimmen oder wiederkehrende Geräusche für eine Figur erwartest (z. B. das Quietschen einer wiederkehrenden Tür).

Schritt 4 — Szenen verlängern (Szenenerweiterung) mit Audiokontinuität

Veo 3.1 unterstützt die „Szenenerweiterung“, bei der neue Clips aus der letzten Sekunde eines vorherigen Clips generiert werden, um längere Sequenzen zu erstellen — und Audio so erweitert wird, dass die Kontinuität gewahrt bleibt (Hintergrundambiences, laufende Musik usw.). Verwende dazu den Parameter video=video_to_extend im Aufruf generate_videos.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Schritt 5 — Brücke zwischen erstem und letztem Frame (mit Audio)

Wenn du einen weichen Übergang zwischen zwei Frames möchtest (z. B. ein Tag- in ein Dämmerungsbild morphen), übergib image=first_frame und last_frame=last_frame und füge Audioanweisungen in den Prompt ein. Veo generiert die Übergangsframes plus Audio, das den visuellen Verlauf widerspiegelt. Veo liefert typischerweise einen einzigen gemischten Audiotrack in der MP4.

Wie nutzt man die Audiowerkzeuge in Veo 3.1?

1) Was CometAPI macht und warum man es nutzen sollte

CometAPI bietet einen einzigen, OpenAI-ähnlichen REST-Endpunkt, um auf viele Modelle zuzugreifen (einschließlich Googles Veo). Das ist nützlich, wenn du einen einzigen Integrationspunkt (Abrechnung, Quoten, SDK-Parität) möchtest und nicht mehrere Anbieter-Keys verwalten willst. Comet dokumentiert, dass Veo 3.1 unter ihren Videomodellen verfügbar ist.

2) Grundablauf, um Veo 3.1 über CometAPI aufzurufen

  1. Bei CometAPI registrieren und einen API-Schlüssel erstellen.
  2. Die exakte Modellkennung im Comet-Katalog bestätigen („Veo 3.1“/„veo3.1-pro“).
  3. Den OpenAI-ähnlichen Endpunkt von CometAPI (oder deren SDK) verwenden und das Feld model auf den Veo-Modellnamen setzen. Comet leitet deine Anfrage im Auftrag an Google weiter.

Veo3.1 asynchrone Generierung, Diese API wird über unsere selbst entwickelte Technologie bereitgestellt und hat folgende Einschränkungen: Die Videodauer ist fest auf 8 Sekunden eingestellt und kann nicht angepasst werden
Bitte kontaktiere den technischen Support, wenn du auf Probleme stößt

Beispielanfrage

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Welche Best Practices gibt es für audio-bewusstes Prompting mit Veo 3.1?

Prompt-Design für gutes Audio (was enthalten sein sollte)

Verwende strukturierte „Audio-Lanes“ im Prompt. Minimal empfohlene Blöcke:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Wichtige Tipps: Lanes beschriften, kurze Zeitanker hinzufügen (z. B. „at 1.6s“), die emotionale Darbietung und den Klangcharakter beschreiben (z. B. „weicher Hall, langsamer Attack“) und bei Bedarf Stereo-Panning mit L/R bzw. L→R annotieren. Iteration ist üblich — einen Kurzclip (4–8 s) erzeugen, dann verlängern.

Prompt-Struktur und Tonalität

  • Strukturierte Lanes verwenden: „Ambience:“, „SFX:“, „Music:“ und „Dialogue:“-Blöcke beschriften. Generatoren arbeiten besser mit vorhersehbaren Mustern.
  • Beim Timing spezifisch sein: kurze zeitliche Anker (z. B. „sfx: door slam at 1.6s“) helfen bei engem Sync. Wenn exakte Frame-Genauigkeit entscheidend ist, iterieren und verfeinern.
  • Klangeigenschaften beschreiben: statt „Synth“ lieber „weiches Pad mit langsamem Attack, 80-BPM-Feel“ angeben, um die musikalische Stimmung zu lenken.

Konsistenz Bild → Audio

Wenn du ein Referenzbild oder einen Startframe bereitstellst, erwähne, woher das Audio stammen soll (z. B. „Ambience: gedämpfte Stadt von links, näher an der Kamera; ein vorbeifahrendes Auto sollte von L→R pannen“). Das führt zu plausibleren Stereo-Hinweisen und wahrgenommener Quelllokalisierung.

Iterations-Workflow

  1. Einen Kurzclip (4–8 s) erzeugen und die Audiosynchronität evaluieren.
  2. Wenn du eine längere Erzählung brauchst, die Szenenerweiterung verwenden, um den Clip zu verlängern, wobei die letzte Sekunde als Kontinuitäts-Samen erhalten bleibt.
  3. Für Figurenkonsistenz (Stimmklang, Akzent) Referenzbilder nutzen und Stimm-Beschreibungen zwischen Clips wiederholen. Erwäge kurze wiederholte textliche „Voice Anchors“ (z. B. „ALICE — sanfter Mid-Atlantic-Akzent“), um die Stimme stabil zu halten.

Hinweise zur Postproduktion

Veo liefert eine Ausgangs-MP4 mit eingebettetem Audio. Für fortgeschrittenes Mischen (Mehrkanal-Stems, getrennte Dialog-/Musikstems) musst du Audio eventuell in einer DAW extrahieren und neu komponieren — Veo ist primär für integrierte Einzeldatei-Generierung gedacht. Drittanbieter-Workflows kombinieren häufig Veo für die Basisgenerierung und DAW-Bearbeitungen für distributionsreife Mixe.

Beispielprompts (Copy-Paste-fertig)

1 — Natürlich klingende Atmosphäre + Effekt + kurzer Dialog

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — Foley-lastiger Action-Beat

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — Filmische Ambience + Charakterstimme

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— Straffer Dialog + SFX (Kurzclip, explizites Timing)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — Ambience-first-Szene (Stimmung, weniger strikte SFX)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — Mehrere Sprecher (gestaffelt)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


Wie schneidet Veo 3.1s Audio im Vergleich zu Sora 2 ab?

Sowohl Veo 3.1 als auch OpenAIs Sora 2 unterstützen synchronisierte Audioausgabe, die an das generierte Video gekoppelt ist. Beide sind als Flaggschiff-Modelle für Mediengenerierung ihrer jeweiligen Anbieter positioniert und betonen realistische Audio-Video-Kohärenz. Beide veröffentlichen APIs.

Zentrale Unterschiede

  • Modelfokus & Länge: Veo 3.1 betont Steuerbarkeit mit Funktionen wie erstem/letztem Frame, Szenenerweiterung für längere Sequenzen und expliziter Referenzbild-Konditionierung, um Charakter- und Audiokontinuität über Multi-Shot-Sequenzen zu erhalten. Sora 2 wird als Flaggschiffmodell präsentiert, das Video mit synchronisiertem Audio generiert; Sora 2 Pro betont hohe Wiedergabetreue und abgestimmte Kompromisse zwischen Qualität und Kosten (Sora 2 Pro-Tier für höhere Fidelity). Veo 3.1 hebt ausdrücklich Szenenerweiterung und Multi-Prompt-Sequenzen hervor.
  • Plattformintegration: Veo 3.1 ist im gesamten Gemini-Ökosystem von Google integriert (Gemini-App, Flow, Gemini API, Vertex AI), während Sora 2 als OpenAIs Plattformmodell mit API-Endpunkten und einer Sora-App für iOS präsentiert wird; Preis- und Endpunktstrukturen unterscheiden sich (Sora-2-Dokumente zeigen Preisstufen pro Sekunde). Wähle basierend auf deiner bestehenden Cloud-Landschaft und Compliance-Anforderungen.
  • Feinsteuerungen für Video: Veo 3.1 nennt mehrere spezifische kreative Steuerungen (Ingredients to Video, Szenenerweiterung, Erster/Letzter Frame), die die Iterationszeit für narrative Workflows verkürzen. Sora 2 fokussiert sich auf synchronisiertes Audio und physikalische Genauigkeit in der Bewegung; beide bieten Steuerungen, aber ihre Idiome und SDKs unterscheiden sich.

Praktische Auswirkungen für audiointensive Projekte

Wenn du aus der Box hochfidele Single-Shot-Videos mit synchronisiertem Audio und ein einfaches Preismodell pro Sekunde priorisierst → Sora 2 ist ein starker Konkurrent; teste beide auf deinen Ziel-Assets und Budgets.

Wenn du lange, kontinuierliche Erzählungen mit konsistenten Audiomotiven über mehrere Shots brauchst → Veo 3.1s Szenenerweiterung und Referenzbild-Konditionierung sind attraktiv.

Abschließendes Urteil: Wann sollte man Veo 3.1 verwenden (Audio-zentrierte Empfehlungen)

Verwende Veo 3.1, wenn du kontrollierte Multi-Shot-Sequenzen mit konsistenten Figuren und integriertem Audio benötigst, das die narrative Kontinuität unterstützt. Die besonderen Stärken von Veo 3.1 sind Szenenerweiterung, Steuerung von erstem/letztem Frame und Referenzbild-Konditionierung — all das macht es hervorragend für serielle oder episodische Kurzform-Inhalte mit Audiokontinuität.

Entwickler können über CometAPI auf Veo 3.1 und Sora 2 zugreifen. Um zu beginnen, erkunde die Modellfähigkeiten von CometAPI im Playground und konsultiere den API-Guide für detaillierte Anweisungen. Bitte stelle vor dem Zugriff sicher, dass du bei CometAPI angemeldet bist und den API-Schlüssel erhalten hast. CometAPI bietet einen deutlich günstigeren Preis als der offizielle Preis, um dir die Integration zu erleichtern.

Bereit loszulegen? → Kostenlose Testversion von Veo 3.1!

Zugang zu Top-Modellen zu niedrigen Kosten

Mehr lesen