Ondersteunt Veo 3.1 audio? En hoe moet je het professioneel gebruiken?

CometAPI
AnnaDec 26, 2025
Ondersteunt Veo 3.1 audio? En hoe moet je het professioneel gebruiken?

Veo 3.1 genereert native gesynchroniseerde audio samen met de video wanneer je de Gemini/Vertex (Veo)-endpoints aanroept — je stuurt de audio aan via de tekstprompt (audiocues, dialoogregels, SFX, ambiance) en dezelfde generatietaak retourneert een MP4 die je kunt downloaden. Als je liever één uniforme API gebruikt die veel providers bundelt, biedt CometAPI ook toegang tot Veo 3.1 (je roept CometAPI aan met je Comet-sleutel en vraagt veo3.1/veo3.1-pro). De release is gepositioneerd als een directe concurrent van andere mediamodellen (bijvoorbeeld OpenAI’s Sora 2), met verbeteringen gericht op audiorealisme, narratieve controle en continuïteit over meerdere shots.

Wat is Veo 3.1?

Veo 3.1 is Google’s nieuwste iteratie in de Veo-familie van tekst-en-afbeelding→videomodellen. Vergeleken met eerdere Veo-releases benadrukt Veo 3.1 specifiek native audiogeneratie — wat betekent dat het model gesynchroniseerde dialoog, ambiance, geluidseffecten en muzikale cues produceert als onderdeel van de video-uitvoer, zonder aparte text-to-speech of nabewerking. Het introduceert ook nieuwe narratieve controles (referentie-afbeeldingen, overgangen tussen eerste en laatste frame, en scène-extensies) om meer samenhang in verhalen met meerdere shots te bereiken.

Waarom dat ertoe doet: audio bepaalt hoe kijkers ruimte, emotie, timing en causaliteit interpreteren. Native audiogeneratie (dialoog die overeenkomt met lipbeweging, SFX die zijn getimed op zichtbare gebeurtenissen, en achtergronden die passen bij de scènegeografie) vermindert het handwerk om een clip “echt” te laten aanvoelen en stelt makers in staat sneller te itereren op verhaal en sfeer.

Kan Veo 3.1 audio produceren — en wat voor audio kan het maken?

Hoe wordt audio in het model geproduceerd?

Veo 3.1 behandelt audio als een geïntegreerde outputmodaliteit binnen de videogeneratiepipeline. In plaats van videoframes naar een aparte TTS- of Foley-engine te sturen, modelleert Veo’s generatieproces audio- en visuele streams gezamenlijk, zodat timing, akoestische cues en visuele gebeurtenissen coherent zijn. Die gezamenlijke modellering maakt zaken mogelijk zoals conversaties, ambiënte klanklandschappen en gesynchroniseerde SFX die natuurlijk aansluiten op de gegenereerde beelden. “rijkere native audio” en gesynchroniseerde geluidsgeneratie worden genoemd als headline-verbeteringen in 3.1.

Waarom de audiocapaciteit belangrijk is

Historisch gezien produceerden veel tekst-naar-video-systemen stille video en lieten audio aan een latere pipeline over. Veo 3.1 verandert dat door audio in dezelfde generatiepass te produceren — wat de handmatige mixinspanning vermindert, strakkere lipsynchronisatie afdwingt voor korte zinnen, en prompts laat sturen op causale geluidsgebeurtenissen (bijv. “een glas versplintert terwijl de camera links cut”). Dit heeft grote gevolgen voor productiesnelheid, iteratief ontwerp en creatieve prototypering.

Welke soorten audio kan Veo 3.1 creëren?

  • Dialoog/spraak — meerstemmige dialoog met timing die overeenkomt met lippen en handelingen.
  • Ambiënte klanklandschappen — omgevingsgeluid (wind, verkeer, room tone) dat past bij de scènegeografie.
  • Geluidseffecten (SFX) — hits, impacts, deuren, voetstappen, enz., getimed op visuele events.
  • Muzikale cues — korte muzikale motieven of sfeerondersteuning die passen bij het tempo van de scène.

Deze audiotypes worden native gegenereerd en worden primair gestuurd door de inhoud van de prompt, niet door aparte audioparameters.

Technische beperkingen en lengte

Out of the box is Veo 3.1 ontworpen voor hoogwaardige korte clips (8 seconden hoogwaardige output voor sommige flows), maar het model ondersteunt ook scène-extensie en generatiebruggen (eerste→laatste frame, verlengen vanaf de laatste seconde) die multi-clip-sequenties mogelijk maken van tientallen seconden tot een minuut of langer wanneer ze worden samengevoegd via Scene Extension.

Hoe audio genereren met Veo 3.1 (direct, via Google Gemini / Vertex)

Stap 1: Vereisten

  1. Google-account met toegang tot de Gemini API / Vertex AI en een geldige API-sleutel/credentials (Veo 3.1 is in betaalde preview voor veel toegangswegen).
  2. De Google genai/Gemini-client of de REST-endpoint opgezet in je omgeving (of Vertex-client als je liever de cloudconsole gebruikt).

Stap 2: Kies het juiste model en toegang

Gebruik veo-3.1-generate-preview (of veo-3.1-fast waar snelheid/kosten prioriteit hebben). Deze modelstrings komen voor in Google’s voorbeelden voor previewtoegang. Je hebt een betaalde Gemini API/Google AI-sleutel nodig (of toegang via AI Studio/Vertex AI).


Stap 3: Pythonvoorbeeld — Gemini genai-client (aanbevolen, copy/paste)

Dit voorbeeld toont de vorm van een programmatische call (Python, google.genai-client). Het demonstreert het geven van een tekstprompt met audio-instructies.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Opmerkingen: Het geretourneerde bestand is doorgaans een MP4 met de gegenereerde audiotrack. Het kernelement voor audiosturing hierboven zijn beschrijvende audio-instructies opgenomen in de prompt. Veo 3.1 reageert op audioaanwijzingen in natuurlijke taal om gesynchroniseerde audiotracks te genereren.

Stap 3 — Referentie-afbeeldingen en “Ingredients to video” gebruiken

Om het uiterlijk van personages en akoestische cues consistent te houden, kun je maximaal drie referentie-afbeeldingen doorgeven die Veo gebruikt om visuele stijl en continuïteit te behouden. Dezelfde generatiecall ondersteunt reference_images=[...]. Dit wordt aanbevolen wanneer je consistente stemmen of habituële geluiden voor een personage verwacht (bijv. het kraken van een terugkerende deur).

Stap 4 — Scènes verlengen (Scene Extension) met audiocontinuïteit

Veo 3.1 ondersteunt “scène-extensie”, waarbij nieuwe clips worden gegenereerd op basis van de laatste seconde van een eerdere clip om langere sequenties te maken — en audio wordt verlengd op een manier die de continuïteit behoudt (achtergrondambiances, doorgaande muziek, enz.). Gebruik de parameter video=video_to_extend in de generate_videos-call.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Stap 5 — Brug tussen eerste en laatste frame (met audio)

Als je een vloeiende overgang tussen twee frames wilt (bijv. een dagscène die naar schemering morft), geef image=first_frame en last_frame=last_frame op en neem audio-instructies op in de prompt. Veo genereert de overgangsframes plus audio die de visuele progressie weerspiegelt. Veo retourneert doorgaans één gemixte audiotrack in de MP4.

Hoe gebruik je de audiotools in Veo 3.1?

1) Wat CometAPI doet en waarom je het gebruikt

CometAPI geeft je één, REST-endpoint in OpenAI-stijl om veel modellen te benaderen (waaronder Google’s Veo). Dit is handig als je één integratiepunt wilt (billing, quota’s, SDK-pariteit) en niet meerdere vendorsleutels wilt beheren. Comet documenteert dat Veo 3.1 wordt aangeboden onder hun videomodellen.

2) Basisflow om Veo 3.1 via CometAPI aan te roepen

  1. Meld je aan bij CometAPI en maak een API-sleutel.
  2. Bevestig de exacte modelidentifier in Comets catalogus ("Veo 3.1"/"veo3.1-pro").
  3. Gebruik CometAPI’s endpoint in OpenAI-stijl (of hun SDK) en stel het model-veld in op de Veo-modelnaam. Comet zal je verzoek namens jou naar Google routeren.

Veo3.1 Async Generation, Deze API is geïmplementeerd via onze zelf ontwikkelde technologie met de volgende beperkingen: Videoduur is vast op 8 seconden en kan niet worden aangepast
Neem contact op met technische ondersteuning als je problemen ondervindt

Voorbeeldverzoek

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Wat zijn best practices voor audio-bewuste prompting met Veo 3.1?

Ontwerp van prompts voor goede audio (wat op te nemen)

Gebruik gestructureerde “audio-lanes” in de prompt. Minimale aanbevolen blokken:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Belangrijke tips: label lanes, voeg korte tijdankers toe (bijv. at 1.6s), beschrijf emotionele voordracht en klankkarakter (bijv. “zachte reverb, trage attack”), en als je stereopanning nodig hebt, annoteer L / R of L→R. Iteratie is gebruikelijk — genereer een korte clip (4–8 s), en verleng daarna.

Promptstructuur en toon

  • Gebruik gestructureerde lanes: label blokken “Ambience:”, “SFX:”, “Music:”, en “Dialogue:”. Generators werken beter met voorspelbare patronen.
  • Wees specifiek over timing: korte temporele ankers (bijv. “sfx: door slam at 1.6s”) helpen met strakke sync. Als exacte frame-nauwkeurigheid essentieel is, itereren en verfijnen.
  • Beschrijf geluidskarakteristieken: zeg in plaats van “synth” bijvoorbeeld “zachte pad met trage attack, 80 BPM-gevoel” om de muzikale sfeer te sturen.

Visueel → audio-consistentie

Als je een referentie-afbeelding of startframe opgeeft, vermeld waar de audio vandaan moet komen (bijv. “Ambience: gedempt stadsgeruis van links, dichter bij de camera; auto pass moet L→R pannen”). Dit levert plausibelere stereocues en waargenomen bronlokalisatie op.

Iteratieworkflow

  1. Genereer een korte clip (4–8 s) en evalueer de audiosync.
  2. Als je langere narratieven nodig hebt, gebruik Scene Extension om de clip te vergroten terwijl de laatste seconde als continuïteitsseed behouden blijft.
  3. Voor personageconsistentie (stemkleur, accent), gebruik referentie-afbeeldingen en herhaal stembeschrijvingen tussen clips. Overweeg korte herhaalde tekstuele “stem-anker”-regels (bijv. “ALICE — zachte mid-Atlantische tongval”) om de stem stabiel te houden.

Notities voor postproductie

Veo geeft je een start-MP4 met ingesloten audio. Voor geavanceerde mixing (multichannel stems, gescheiden dialoog-/muziekstems) moet je audio mogelijk nog extraheren en opnieuw componeren in een DAW — Veo is primair voor geïntegreerde single-file-generatie. Derde partijen combineren vaak Veo voor basale generatie en DAW-edits voor distributiekwaliteit.

Voorbeeldprompts (copy-paste klaar)

1 — Natuurlijk klinkende ambiance + effect + korte dialoog

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — Foley-zware actiesequentie

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — Cinematische ambiance + stem van personage

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— Strakke dialoog + SFX (korte clip, expliciete timing)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — Ambiance-first scène (mood, minder strikte SFX)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — Gesprek met meerdere sprekers (gestaag)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


Hoe verhoudt de audio van Veo 3.1 zich tot die van Sora 2?

Beide, Veo 3.1 en OpenAI’s Sora 2, ondersteunen gesynchroniseerde audio-uitvoer die is gekoppeld aan gegenereerde video. Ze worden gepositioneerd als vlaggenschip-mediamodellen van hun respectieve leveranciers en benadrukken realistische audio-video-coherentie. Beide publiceren API’s.

Belangrijkste verschillen

  • Modelfocus & lengte: Veo 3.1 benadrukt bedienbaarheid met functies zoals first/last frame, scène-extensie voor langere sequenties, en expliciete conditioning op referentie-afbeeldingen om personage- en audiocontinuïteit over meerdere shots te behouden. Sora 2 wordt gepresenteerd als een vlaggenschipmodel dat video met gesynchroniseerde audio genereert; Sora 2 Pro benadrukt hoge fideliteit en afgestemde trade-offs tussen kwaliteit en kosten (Sora 2 Pro-tier voor hogere fideliteit). Veo 3.1 noemt expliciet scène-extensie en multi-prompt-sequenties.
  • Platformintegratie: Veo 3.1 is geïntegreerd in Google’s Gemini-ecosysteem (Gemini-app, Flow, Gemini API, Vertex AI), terwijl Sora 2 wordt gepresenteerd als OpenAI’s platformmodel met API-endpoints en een Sora-app voor iOS; prijsstelling en endpoint-structuren verschillen (Sora 2-docs tonen prijsniveaus per seconde). Kies op basis van je bestaande cloudvoetafdruk en compliancebehoeften.
  • Fijnmazige videocontroles: Veo 3.1 benoemt verschillende specifieke creatieve controls (Ingredients to Video, Scene Extension, First/Last Frame) die de iteratietijd voor narratieve workflows verminderen. Sora 2 focust op gesynchroniseerde audio en fysieke nauwkeurigheid in beweging; beide bieden controls, maar hun idiomen en SDK’s verschillen.

Praktische implicaties voor audio-intensieve projecten

Als je out-of-the-box hoogwaardige single-shot-video met gesynchroniseerde audio en een eenvoudige prijs per seconde prioriteert → Sora 2 is een sterke concurrent; test beide op je doelassets en budgetten.

Als je een lange continue narratief met consistente audiomotieven over shots nodig hebt → Veo 3.1’s Scene Extension en conditioning op referentie-afbeeldingen maken het aantrekkelijk.

Eindoordeel: wanneer gebruik je Veo 3.1 (audio-centrische aanbevelingen)

Gebruik Veo 3.1 wanneer je gecontroleerde sequenties met meerdere shots nodig hebt met consistente personages en geïntegreerde audio die narratieve continuïteit ondersteunt. Veo 3.1’s onderscheidende sterke punten zijn scène-extensie, first/last frame-controle en conditioning op referentie-afbeeldingen — allemaal maken ze het uitstekend voor seriële of episodische short-form content met audiocontinuïteit.

Ontwikkelaars kunnen toegang krijgen tot Veo 3.1 en Sora 2 via CometAPI. Om te beginnen, verken de modelmogelijkheden van CometAPI in de Playground en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat je bent ingelogd bij CometAPI en een API-sleutel hebt verkregen voordat je toegang krijgt. CometAPI biedt een prijs die veel lager is dan de officiële prijs om je te helpen integreren.

Klaar om te starten?→ Gratis proef van Veo 3.1!

Lees Meer

500+ modellen in één API

Tot 20% korting