Veo 3.1 genererer nativt synkronisert lyd sammen med video når du kaller Gemini/Vertex (Veo)-endepunktene — du styrer lyden via tekstprompten (lydmarkører, dialoglinjer, SFX, atmosfære), og samme genereringsjobb returnerer en MP4 du kan laste ned. Hvis du foretrekker ett samlet API som samler mange leverandører, tilbyr CometAPI også tilgang til Veo 3.1 (du kaller CometAPI med din Comet-nøkkel og ber om veo3.1/veo3.1-pro). Lanseringen er posisjonert som en direkte konkurrent til andre mediamodeller (for eksempel OpenAIs Sora 2), med forbedringer fokusert på lydrealisme, narrativ kontroll og kontinuitet på tvers av flere opptak.
Hva er Veo 3.1?
Veo 3.1 er Googles nyeste iterasjon i Veo-familien av tekst-og-bilde→video-modeller. Sammenlignet med tidligere Veo-versjoner fremhever Veo 3.1 spesielt nativ lydgenerering — det vil si at modellen produserer synkronisert dialog, atmosfære, lydeffekter og musikalske signaler som en del av videoutdataene, i stedet for å kreve en separat tekst-til-tale- eller etterproduksjonsprosess. Den bringer også nye fortellerkontroller (referansebilder, overganger mellom første og siste bilde, og Scene Extension-funksjoner) som skal gjøre flerskuddsfortellinger mer sammenhengende.
Hvorfor det betyr noe: Lyd er hvordan seere tolker rom, følelser, timing og kausalitet. Nativ lydgenerering (dialog som samsvarer med leppebevegelser, SFX timet til synlige hendelser, og bakgrunnsatmosfære som matcher scenens geografi) reduserer manuelt arbeid som trengs for å få et klipp til å føles “ekte” og lar skapere iterere raskere på historie og stemning.
Kan Veo 3.1 produsere lyd — og hvilke typer lyd kan den lage?
Hvordan produseres lyd i modellen?
Veo 3.1 behandler lyd som en integrert utgangsmodalitet i videogenereringsrørledningen. I stedet for å sende videorammer til en separat TTS- eller Foley-motor, modellerer Veo genereringsprosessen lyd- og bildeforløp i fellesskap slik at timing, akustiske signaler og visuelle hendelser er koherente. Den felles modelleringen muliggjør ting som samtalebytter, omgivelseslydbilder og synkroniserte SFX som fremstår naturlig tilpasset de genererte bildene. “rikere nativ lyd” og synkronisert lydgenerering er fremhevede forbedringer i 3.1.
Hvorfor lydfunksjonen er betydningsfull
Historisk produserte mange tekst-til-video-systemer stum video og overlot lyd til en senere rørledning. Veo 3.1 endrer dette ved å produsere lyd i samme genereringspass — noe som reduserer manuelt miksarbeid, gir strammere leppesynk for korte linjer, og lar prompten styre kausale lydbegivenheter (f.eks. “et glass knuser idet kameraet kutter til venstre”). Dette har betydelige implikasjoner for produksjonshastighet, iterativ design og kreativ prototyping.
Hvilke typer lyd kan Veo 3.1 generere?
- Dialog / tale — flerstemmig dialog med timing som samsvarer med lepper og handlinger.
- Omgivelseslydbilder — miljølyd (vind, trafikk, romtone) som passer scenens geografi.
- Lydeffekter (SFX) — slag, treff, dører, fottrinn osv., timet til visuelle hendelser.
- Musikalske cue-er — korte musikalske motiver eller stemningsunderlag som matcher scenens tempo.
Disse lydtypene genereres nativt og styres primært av innholdet i prompten fremfor separate lydparametere.
Tekniske begrensninger og lengde
Rett ut av boksen er Veo 3.1 konstruert for høy kvalitet på korte klipp (8 sekunders høy-kvalitetsutdata for noen flyter), men modellen støtter også Scene Extension og genereringsbroer (første→siste bilde, forleng fra siste sekund) som muliggjør multiklipp-sekvenser på titalls sekunder opp til et minutt eller mer når de sys sammen via Scene Extension.
Slik genererer du lyd med Veo 3.1 (direkte, via Google Gemini / Vertex)
Trinn 1: Forutsetninger
- Google-konto med tilgang til Gemini API / Vertex AI og en gyldig API-nøkkel / legitimasjon (Veo 3.1 er i betalt forhåndsvisning for mange tilgangsveier).
- Google
genai/ Gemini-klient eller REST-endepunkt satt opp i miljøet ditt (eller Vertex-klient hvis du foretrekker Cloud Console).
Trinn 2: Velg riktig modell og tilgang
Bruk veo-3.1-generate-preview (eller veo-3.1-fast der hastighet/kostnad prioriteres). Disse modellstrengene vises i Googles eksempler for forhåndstilgang. Du trenger en betalt Gemini API / Google AI-nøkkel (eller tilgang via AI Studio / Vertex AI).
Trinn 3: Python-eksempel — Gemini genai-klient (anbefalt, kopier/lim inn)
Dette eksemplet viser formen på et programmatisk kall (Python, google.genai-klient). Det demonstrerer å oppgi en tekstprompt som inneholder lydinstruksjoner.
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
Merknader: Den returnerte filen er vanligvis en MP4 som inkluderer det genererte lydsporet. Nøkkelen til lydkontroll over er beskrivende lydinstruksjoner innebygd i prompten. Veo 3.1 reagerer på naturlig-språklige lydinstruksjoner for å generere synkroniserte lydspor.
Trinn 3 — Bruke referansebilder og “Ingredients to video”
For å holde karakteruttrykk og akustiske signaler konsistente kan du sende opptil tre referansebilder som Veo bruker for å bevare visuell stil og kontinuitet. Samme genereringskall støtter reference_images=[...]. Dette anbefales når du forventer konsistente stemmer eller faste lyder for en karakter (f.eks. knirringen fra en tilbakevendende dør).
Trinn 4 — Forlenge scener (Scene Extension) med lydkontinuitet
Veo 3.1 støtter “Scene Extension”, der nye klipp genereres fra det siste sekundet av et tidligere klipp for å skape lengre sekvenser — og lyden utvides på en måte som bevarer kontinuitet (bakgrunnsambienser, pågående musikk osv.). Bruk parameteren video=video_to_extend i generate_videos-kallet.
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Trinn 5 — Bro mellom første og siste bilde (med lyd)
Hvis du vil ha en jevn overgang mellom to bilder (for eksempel morfing fra et dagbilde til et skumringsbilde), oppgi image=first_frame og last_frame=last_frame og inkluder lydinstruksjon i prompten. Veo vil generere overgangsrammene pluss lyd som reflekterer den visuelle progresjonen. Veo returnerer vanligvis ett enkelt mikset lydspor inne i MP4-filen.
Hvordan bruker du lydverktøyene i Veo 3.1?
1) Hva CometAPI gjør og hvorfor bruke det
CometAPI gir deg ett enkelt, OpenAI-lignende REST-endepunkt for å få tilgang til mange modeller (inkludert Googles Veo). Dette er nyttig hvis du vil ha ett integrasjonspunkt (fakturering, kvoter, SDK-paritet) og ikke ønsker å administrere flere leverandørnøkler. Comet dokumenterer at Veo 3.1 tilbys blant deres videomodeller.
2) Grunnleggende flyt for å kalle Veo 3.1 via CometAPI
- Registrer deg hos CometAPI og opprett en API-nøkkel.
- Bekreft nøyaktig modellidentifikator i Comets katalog ("Veo 3.1"/"veo3.1-pro").
- Bruk CometAPIs OpenAI-lignende endepunkt (eller deres SDK) og sett feltet
modeltil Veo-modellnavnet. Comet vil rute forespørselen din til Google på dine vegne.
Veo3.1 Async Generation, dette API-et er implementert gjennom vår egenutviklede teknologi med følgende begrensninger: Videovarigheten er fastsatt til 8 sekunder og kan ikke tilpasses.
Ta kontakt med teknisk støtte hvis du støter på problemer.
Eksempel på forespørsel
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Hva er beste praksis for lydbevisst prompting med Veo 3.1?
Prompt-design for god lyd (hva bør være med)
Bruk strukturerte “lydspor” i prompten. Minimalt anbefalte blokker:
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
Nøkkeltips: merk spor, legg til korte tidsankre (f.eks. at 1.6s), beskriv emosjonell levering og lydkarakter (f.eks. “myk klang, sakte attack”), og hvis du trenger stereopanning, annoter L / R eller L→R. Iterasjon er typisk — generer et kort klipp (4–8 s), deretter forleng.
Prompt-struktur og tone
- Bruk strukturerte spor: merk blokkene “Ambience:”, “SFX:”, “Music:” og “Dialogue:”. Generatorer fungerer bedre med forutsigbare mønstre.
- Vær spesifikk på timing: korte tidsankre (f.eks. “sfx: door slam at 1.6s”) hjelper med stram synk. Hvis nøyaktig bilde-nivå-presisjon er essensiell, iterer og finjuster.
- Beskriv lydkarakteristikk: i stedet for “synth”, si “myk pad med sakte attack, 80 BPM-følelse” for å styre musikalsk stemning.
Visuell → lyd-konsistens
Hvis du oppgir et referansebilde eller startbilde, nevne hvor lyden skal komme fra (f.eks. “Ambience: dempet by fra venstre, nærmere kamera; forbikjørende bil bør panorere L→R”). Dette gir mer plausible stereosignaler og opplevd kildelokalisering.
Iterasjonsflyt
- Generer et kort klipp (4–8 s) og evaluer lydsynk.
- Hvis du trenger lengre narrativ, bruk Scene Extension for å utvide klippet samtidig som siste sekund bevares som kontinuitetsfrø.
- For karakterkonsistens (stemmefarge, aksent), bruk referansebilder og gjenta stemmebeskrivelser mellom klipp. Vurder å bruke korte gjentatte tekstlige “stemmeanker”-linjer (f.eks. “ALICE — myk midt-atlantisk aksent”) for å holde stemmen stabil.
Notater om etterarbeid
Veo gir deg en start-MP4 med innebygd lyd. For avansert miksing (flerkanalsstems, separate dialog-/musikkstems) må du fortsatt kanskje ekstrahere og recomposere lyd i en DAW — Veo er primært for integrert generering i én fil. Tredjeparts arbeidsflyter kombinerer ofte Veo for basisgenerering og DAW-redigeringer for distribusjonsklare mikser.
Eksempelprompter (klipp-og-lim-klare)
1 — Naturlig lydlandskap + effekt + kort dialog
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — Foley-tung actionbeat
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — Filmatisk atmosfære + karakterstemme
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— Stram dialog + SFX (kort klipp, eksplisitt timing)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — Ambience-først-scene (stemning, mindre streng SFX)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — Flertalersamtale (forskjøvet)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Hvordan sammenlignes lyden i Veo 3.1 med lyden i Sora 2?
Begge Veo 3.1 og OpenAIs Sora 2 støtter synkronisert lydutgang knyttet til generert video. De er posisjonert som flaggskipsmodeller for mediagenerering fra sine respektive leverandører og vektlegger realistisk audio-video-koherens. Begge publiserer API-er.
Nøkkelforskjeller
- Modellfokus og lengde: Veo 3.1 vektlegger kontrollerbarhet med funksjoner som første/siste bilde, Scene Extension for lengre sekvenser og eksplisitt referansebilde-kondisjonering for å bevare karakter- og lydkontinuitet på tvers av flere opptak. Sora 2 fremstilles som en flaggskipsmodell som genererer video med synkronisert lyd; Sora 2 Pro fremhever høy trofasthet og justerte avveininger mellom kvalitet og kost (Sora 2 Pro-nivå for høyere trofasthet). Veo 3.1 fremhever eksplisitt Scene Extension og flerprompt-sekvenser.
- Plattformintegrasjon: Veo 3.1 er integrert i hele Googles Gemini-økosystem (Gemini-app, Flow, Gemini API, Vertex AI), mens Sora 2 presenteres som OpenAIs plattformmodell med API-endepunkter og en Sora-app for iOS; pris- og endepunktstrukturer varierer (Sora 2-dokumenter viser prising per sekund). Velg basert på din eksisterende skydrift og etterlevelsesbehov.
- Finmaskede videokontroller: Veo 3.1 fremhever flere spesifikke kreative kontroller (Ingredients to Video, Scene Extension, First/Last Frame) som reduserer iterasjonstid for narrative arbeidsflyter. Sora 2 fokuserer på synkronisert lyd og fysisk nøyaktighet i bevegelse; begge tilbyr kontroller, men deres idiomer og SDK-er er ulike.
Praktiske implikasjoner for lydtunge prosjekter
Hvis du prioriterer høyoppløselig én-shot-video med synkronisert lyd og en enkel prismodell per sekund → Sora 2 er en sterk konkurrent; test begge på dine målaktiva og budsjetter.
Hvis du trenger lang, kontinuerlig fortelling med konsistente lydmotiver på tvers av opptak → Veo 3.1s Scene Extension og referansebilde-kondisjonering gjør den attraktiv.
Endelig vurdering: Når bør du bruke Veo 3.1 (lydfokuserte anbefalinger)
Bruk Veo 3.1 når du trenger kontrollerte flerskuddssekvenser med konsistente karakterer og integrert lyd som støtter narrativ kontinuitet. Veo 3.1s tydelige styrker er Scene Extension, kontroll av første/siste bilde og referansebilde-kondisjonering — som alle gjør den utmerket for serielt eller episodisk kortforminnhold med lydkontinuitet.
Utviklere kan få tilgang til Veo 3.1 og Sora 2 via CometAPI. For å komme i gang, utforsk modellegenskapene til CometAPI i Playground og se API-guiden for detaljerte instruksjoner. Før tilgang, må du forsikre deg om at du er logget inn på CometAPI og har mottatt API-nøkkelen. CometAPI tilbyr en pris som er langt lavere enn den offisielle prisen for å hjelpe deg å integrere.
Klar til å starte?→ Gratis prøve av Veo 3.1!
