Kan Veo 3.1 audio verwerken? En hoe moet je het professioneel gebruiken?

CometAPI
AnnaDec 26, 2025
Kan Veo 3.1 audio verwerken? En hoe moet je het professioneel gebruiken?

Veo 3.1 genereert native gesynchroniseerde audio samen met de video wanneer je de Gemini/Vertex (Veo)-endpoints aanroept — je stuurt de audio aan via de tekstprompt (audio-aanwijzingen, dialoogregels, SFX, omgevingsgeluid) en dezelfde generatiejob levert een MP4 op die je kunt downloaden. Als je de voorkeur geeft aan één uniforme API die veel providers bundelt, biedt CometAPI ook toegang tot Veo 3.1 (je roept CometAPI aan met je Comet-sleutel en vraagt veo3.1/veo3.1-pro aan). De release is gepositioneerd als een directe concurrent van andere mediamodellen (bijvoorbeeld OpenAI’s Sora 2), met verbeteringen gericht op audiorealisme, narratieve controle en continuïteit over meerdere shots.

Wat is Veo 3.1?

Veo 3.1 is Google’s nieuwste iteratie in de Veo-familie van tekst-en-afbeelding→video-modellen. In vergelijking met eerdere Veo-releases benadrukt Veo 3.1 specifiek native audiogeneratie — wat betekent dat het model gesynchroniseerde dialogen, ambiance, geluideffecten en muzikale cues produceert als onderdeel van de video-uitvoer, in plaats van een aparte tekst-naar-spraak- of postproductiestap te vereisen. Het introduceert ook nieuwe narratieve besturingselementen (referentieafbeeldingen, overgangen tussen eerste-en-laatste frame en functies voor scène-uitbreiding) die zijn bedoeld om verhalen met meerdere shots samenhangender te maken.

Waarom dat ertoe doet: audio is hoe kijkers ruimte, emotie, timing en causaliteit interpreteren. Native audiogeneratie (dialoog die overeenkomt met lippbewegingen, SFX die zijn getimed op zichtbare gebeurtenissen, en achtergrondsferen die passen bij de scènegeografie) vermindert het handmatige werk dat nodig is om een clip “echt” te laten aanvoelen en laat makers sneller itereren op verhaal en sfeer.

Kan Veo 3.1 audio produceren — en welke soorten audio kan het maken?

Hoe wordt audio in het model geproduceerd?

Veo 3.1 behandelt audio als een geïntegreerde outputmodaliteit van de videogeneratiepijplijn. In plaats van videoframes naar een aparte TTS- of Foley-engine te sturen, modelleert Veo’s generatieproces audio- en visuele streams gezamenlijk, zodat timing, akoestische cues en visuele gebeurtenissen coherent zijn. Die gezamenlijke modellering maakt het mogelijk dat conversaties, omgevingssoundscapes en gesynchroniseerde SFX natuurlijk uitgelijnd zijn met de gegenereerde beelden. “rijkere native audio” en gesynchroniseerde geluids­generatie worden in 3.1 als kernverbeteringen genoemd.

Waarom de audiocapaciteit belangrijk is

Historisch gezien produceerden veel tekst-naar-video-systemen stille video en werd audio later toegevoegd. Veo 3.1 verandert dat door audio in dezelfde generatiepass te produceren — wat de handmatige mixinspanning vermindert, strakkere lipsynchronisatie voor korte zinnen afdwingt en prompts laat sturen op causale geluidsgebeurtenissen (bijv. “een glas breekt terwijl de camera naar links snijdt”). Dit heeft grote implicaties voor productiesnelheid, iteratief ontwerp en creatieve prototypering.

Welke soorten audio kan Veo 3.1 maken?

  • Dialoog/spraak — meerstemmige dialoog met timing die overeenkomt met lippen en acties.
  • Omgevingssoundscapes — omgevingsaudio (wind, verkeer, room tone) die past bij de scènegeografie.
  • Geluideffecten (SFX) — klappen, impacten, deuren, voetstappen, enz., getimed op visuele gebeurtenissen.
  • Muzikale cues — korte muzikale motieven of mood-underscoring die overeenkomen met de scène­cadans.

Deze audiotypen worden native gegenereerd en worden primair gestuurd door promptinhoud in plaats van door aparte audioparameters.

Technische grenzen en lengte

Standaard is Veo 3.1 ontworpen voor hoogwaardige korte clips (8 seconden hoogwaardige output voor sommige workflows), maar het model ondersteunt ook Scene Extension en generatiebruggen (first→last frame, verlengen vanaf de laatste seconde) die multi-clip-sequenties mogelijk maken van tientallen seconden tot een minuut of langer wanneer ze via Scene Extension aan elkaar worden gezet.

Hoe genereer je audio met Veo 3.1 (direct, via Google Gemini / Vertex)

Stap 1: Vereisten

  1. Google-account met toegang tot de Gemini API / Vertex AI en een geldige API-sleutel / inloggegevens (Veo 3.1 is in betaalde preview voor veel toegangs­paden).
  2. De Google genai-/Gemini-client of de REST-endpoint ingesteld in je omgeving (of Vertex-client als je de cloudconsole verkiest).

Stap 2: Kies het juiste model en toegang

Gebruik veo-3.1-generate-preview (of veo-3.1-fast waar snelheid/kosten prioriteit hebben). Deze modelstrings komen voor in Google’s voorbeelden voor previewtoegang. Je hebt een betaalde Gemini API-/Google AI-sleutel nodig (of toegang via AI Studio / Vertex AI).


Stap 3: Python-voorbeeld — Gemini genai-client (aanbevolen, kopiëren/plakken)

Dit voorbeeld toont de vorm van een programmatische aanroep (Python, google.genai-client). Het demonstreert hoe je een tekstprompt opgeeft die audio-instructies bevat.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Notities: Het geretourneerde bestand is doorgaans een MP4 met de gegenereerde audiotrack. Het belangrijkste element voor audiosturing hierboven zijn beschrijvende audio-instructies die in de prompt zijn opgenomen. Veo 3.1 reageert op audio-instructies in natuurlijke taal om gesynchroniseerde audiotracks te genereren.

Stap 3 — Referentieafbeeldingen en “Ingredients to video” gebruiken

Om het uiterlijk van personages en akoestische cues consistent te houden, kun je tot drie referentieafbeeldingen meegeven die Veo gebruikt om visuele stijl en continuïteit te bewaren. Dezelfde generatie-aanroep ondersteunt reference_images=[...]. Dit is aan te bevelen wanneer je consistente stemmen of kenmerkende geluiden voor een personage verwacht (bijv. het kraken van een terugkerende deur).

Stap 4 — Scènes verlengen (Scene extension) met audiocontinuïteit

Veo 3.1 ondersteunt “scene extension”, waarbij nieuwe clips worden gegenereerd op basis van de laatste seconde van een eerdere clip om langere sequenties te creëren — en audio wordt verlengd op een manier die de continuïteit bewaart (achtergrondambiance, lopende muziek, enz.). Gebruik de parameter video=video_to_extend in de generate_videos-aanroep.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Stap 5 — First & last frame bridging (met audio)

Als je een soepele overgang tussen twee frames wilt (bijvoorbeeld van dag naar schemer), geef dan image=first_frame en last_frame=last_frame op en voeg audio-instructies toe in de prompt. Veo genereert de overgangsframes plus audio die de visuele progressie weerspiegelt. Veo retourneert doorgaans één gemixte audiotrack in de MP4.

Hoe gebruik je de audiotools in Veo 3.1?

1) Wat CometAPI doet en waarom je het gebruikt

CometAPI biedt je één REST-endpoint in OpenAI-stijl om toegang te krijgen tot veel modellen (waaronder Google’s Veo). Dit is handig als je één integratiepunt wilt (billing, quota’s, SDK-pariteit) en niet meerdere leverancierssleutels wilt beheren. Comet documenteert dat Veo 3.1 tot hun videomodellen behoort.

2) Basisflow om Veo 3.1 via CometAPI aan te roepen

  1. Meld je aan bij CometAPI en maak een API-sleutel.
  2. Bevestig de exacte modelidentifier in Comets catalogus ("Veo 3.1"/"veo3.1-pro").
  3. Gebruik CometAPI’s endpoint in OpenAI-stijl (of hun SDK) en stel het veld model in op de Veo-modelnaam. Comet leidt je verzoek namens jou door naar Google.

Veo3.1 asynchrone generatie, Deze API is geïmplementeerd via onze zelfontwikkelde technologie met de volgende beperkingen: de videoduur is vast op 8 seconden en kan niet worden aangepast
Neem contact op met de technische ondersteuning als je problemen ondervindt

Voorbeeldverzoek

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Wat zijn best practices voor audio-bewuste prompting met Veo 3.1?

Ontwerp van prompts voor goede audio (wat op te nemen)

Gebruik gestructureerde “audiolanes” in de prompt. Minimale aanbevolen blokken:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Belangrijke tips: label lanes, voeg korte tijdankers toe (bijv. at 1.6s), beschrijf emotionele voordracht en klankkarakter (bijv. “zachte galm, trage attack”), en als je stereopanning nodig hebt, annoteer L / R of L→R. Iteratie is gebruikelijk — genereer een korte clip (4–8s) en verleng daarna.

Promptstructuur en toon

  • Gebruik gestructureerde lanes: label “Ambiance:”, “SFX:”, “Muziek:”, en “Dialoog:”-blokken. Generatoren werken beter met voorspelbare patronen.
  • Wees specifiek over timing: korte tijdankers (bijv. “sfx: deurklap op 1.6s”) helpen bij strakke sync. Als exacte frame-nauwkeurigheid essentieel is, itereren en verfijnen.
  • Beschrijf klankeigenschappen: zeg in plaats van “synth” bijvoorbeeld “zachte pad met trage attack, 80 BPM-feel” om de muzikale sfeer te sturen.

Visueel → audio-consistentie

Als je een referentieafbeelding of startframe opgeeft, vermeld waar de audio vandaan moet komen (bijv. “Ambiance: gedempte stad links, dichter bij de camera; autodoorgang moet pannen L→R”). Dit levert geloofwaardigere stereocues en waargenomen bronslokalisatie op.

Iteratieworkflow

  1. Genereer een korte clip (4–8s) en beoordeel de audiosync.
  2. Als je een langere narratief nodig hebt, gebruik dan Scene Extension om de clip te verlengen en de laatste seconde als continuïteitszaad te behouden.
  3. Voor consistentie van personages (stemklank, accent) gebruik je referentieafbeeldingen en herhaal je stemdescriptors tussen clips. Overweeg korte herhaalde tekstuele “voice anchors” (bijv. “ALICE — zachte mid-Atlantische tongval”) om de stem stabiel te houden.

Notities voor postproductie

Veo geeft je een start-MP4 met ingesloten audio. Voor geavanceerde mixage (multikanaals stems, gescheiden dialoog-/muziekstems) moet je audio mogelijk nog steeds extraheren en opnieuw componeren in een DAW — Veo is primair bedoeld voor geïntegreerde single-file-generatie. Workflows van derden combineren vaak Veo voor basisgeneratie en DAW-edits voor distributiekwaliteit.

Voorbeeldprompts (klaar om te kopiëren-plakken)

1 — Natuurlijk klinkende ambiance + effect + korte dialoog

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — Foley-rijke actiebeat

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — Filmische ambiance + stem van personage

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— Strakke dialoog + SFX (korte clip, expliciete timing)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — Ambiance-first scene (sfeer, minder strikte SFX)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — Gesprekscène met meerdere sprekers (gestagd)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


Hoe verhoudt de audio van Veo 3.1 zich tot die van Sora 2?

Beide — Veo 3.1 en OpenAI’s Sora 2 — ondersteunen gesynchroniseerde audio-output gekoppeld aan de gegenereerde video. Ze zijn gepositioneerd als vlaggenschipmodellen voor mediageneratie van hun respectieve leveranciers en leggen de nadruk op realistische audio-videocoherentie. Beide publiceren API’s.

Belangrijkste verschillen

  • Modelfocus & lengte: Veo 3.1 legt de nadruk op bestuurbaarheid met functies zoals first/last frame, Scene Extension voor langere sequenties, en expliciete conditionering met referentieafbeeldingen om karakter- en audiocontinuïteit te behouden over meerdere shots. Sora 2 wordt gepresenteerd als een vlaggenschipmodel dat video met gesynchroniseerde audio genereert; Sora 2 Pro benadrukt hoge fideliteit en afgestemde afwegingen tussen kwaliteit en kosten (Sora 2 Pro-tier voor hogere fideliteit). Veo 3.1 noemt expliciet Scene Extension en multi-prompt-sequenties.
  • Platformintegratie: Veo 3.1 is geïntegreerd in Google’s Gemini-ecosysteem (Gemini-app, Flow, Gemini API, Vertex AI), terwijl Sora 2 wordt gepresenteerd als OpenAI’s platformmodel met API-endpoints en een Sora-app voor iOS; prijs- en endpointstructuren verschillen (Sora 2-docs tonen prijsniveaus per seconde). Kies op basis van je bestaande cloudfootprint en compliancebehoeften.
  • Fijnmazige videocontroles: Veo 3.1 benoemt meerdere specifieke creatieve controls (Ingredients to Video, Scene Extension, First/Last Frame) die de iteratietijd voor narratieve workflows verminderen. Sora 2 richt zich op gesynchroniseerde audio en fysieke nauwkeurigheid in beweging; beide bieden controls, maar hun idiomen en SDK’s verschillen.

Praktische implicaties voor audio-intensieve projecten

Als je uit de doos prioriteit geeft aan hoogwaardige single-shot-video met gesynchroniseerde audio en een eenvoudig prijsmodel per seconde → Sora 2 is een sterke concurrent; test beide op je doelassets en budgetten.

Als je een lange doorlopende narratief met consistente audiomotieven over shots heen nodig hebt → Veo 3.1’s Scene Extension en conditionering met referentieafbeeldingen maken het aantrekkelijk.

Eindoordeel: Wanneer gebruik je Veo 3.1 (audio-gerichte aanbevelingen)

Gebruik Veo 3.1 wanneer je gecontroleerde sequenties met meerdere shots nodig hebt met consistente personages en geïntegreerde audio die narratieve continuïteit ondersteunt. De onderscheidende sterke punten van Veo 3.1 zijn Scene Extension, first/last frame-control en conditionering met referentieafbeeldingen — die het uitstekend maken voor seriële of episodische shortformcontent met audiocontinuïteit.

Ontwikkelaars kunnen via CometAPI toegang krijgen tot Veo 3.1 en Sora 2. Om te beginnen, verken de modelmogelijkheden van CometAPI in de Playground en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat je bent ingelogd bij CometAPI en een API-sleutel hebt verkregen voordat je toegang vraagt. CometAPI biedt een prijs die veel lager is dan de officiële prijs om je te helpen integreren.

Klaar om te beginnen?→ Gratis proefversie van Veo 3.1!

Toegang tot topmodellen tegen lage kosten

Lees Meer