Veo 3.1 genererer indbygget synkroniseret lyd sammen med videoen, når du kalder Gemini-/Vertex-(Veo)-endpoints — du styrer lyden via tekstprompten (lydcues, dialogreplikker, SFX, ambience), og det samme genereringsjob returnerer en MP4, du kan downloade. Hvis du foretrækker et samlet, forenet API, der samler mange udbydere, tilbyder CometAPI også adgang til Veo 3.1 (du kalder CometAPI med din Comet-nøgle og anmoder om veo3.1/veo3.1-pro). Lanceringen er positioneret som en direkte konkurrent til andre mediemodeller (for eksempel OpenAI’s Sora 2) med forbedringer fokuseret på lydrealisme, narrativ kontrol og kontinuitet på tværs af flere shots.
Hvad er Veo 3.1?
Veo 3.1 er Googles nyeste iteration i Veo-familien af tekst- og billede→video-modeller. Sammenlignet med tidligere Veo-udgivelser fremhæver Veo 3.1 specifikt indbygget lydgenerering — hvilket betyder, at modellen producerer synkroniseret dialog, atmosfære, lydeffekter og musikalske cues som en del af videooutputtet i stedet for at kræve en separat tekst-til-tale- eller postproduktionsproces. Den bringer også nye narrative kontroller (referencebilleder, overgange mellem første og sidste billede samt sceneudvidelse) med henblik på at gøre multi-shot-historier mere sammenhængende.
Hvorfor det er vigtigt: Lyd er måden, seere aflæser rum, følelser, timing og kausalitet. Indbygget lydgenerering (dialog der matcher læbebevægelser, SFX timet til synlige hændelser og baggrundsatmosfærer, der matcher scenens geografi) reducerer manuelt arbejde for at få et klip til at føles “virkeligt” og lader skabere iterere hurtigere på historie og stemning.
Kan Veo 3.1 producere lyd — og hvilke typer lyd kan den lave?
Hvordan produceres lyden i modellen?
Veo 3.1 behandler lyd som en integreret outputmodalitet i videogenereringskæden. I stedet for at sende videobilleder til en separat TTS- eller Foley-motor modellerer Veo’s genereringsproces lyd- og visuelle strømme samlet, så timing, akustiske cues og visuelle hændelser er koherente. Denne fælles modellering muliggør, at samtaler, ambient-lydbilleder og synkroniserede SFX naturligt flugter med det genererede billede — “richer native audio” og synkroniseret lydgenerering fremhæves som hovedforbedringer i 3.1.
Hvorfor lydfunktionen er vigtig
Historisk har mange tekst-til-video-systemer produceret stum video og overladt lyden til en senere pipeline. Veo 3.1 ændrer dette ved at producere lyd i samme genereringspas — hvilket reducerer manuelt mixearbejde, giver strammere lip-sync ved korte replikker og lader prompts styre kausale lydbegivenheder (fx “et glas smadrer, mens kameraet panorerer til venstre”). Det har væsentlig betydning for produktionstempo, iterativt design og kreativ prototyping.
Hvilke typer lyd kan Veo 3.1 skabe?
- Dialog/tale — dialog mellem flere talere med timing, der svarer til læber og handlinger.
- Ambience/atmosfære — miljølyd (vind, trafik, rummets grundstøj), der passer til scenens geografi.
- Lydeffekter (SFX) — slag, impacts, døre, fodtrin osv., timet til visuelle hændelser.
- Musikalske cues — korte musikmotiver eller stemningsunderlægning, der matcher scenens tempo.
Disse lydtyper genereres indbygget og styres primært af promptens indhold frem for separate lydparametre.
Tekniske begrænsninger og længde
Ud af boksen er Veo 3.1 udviklet til kortere klip i høj kvalitet (8 sekunders high-quality output i nogle forløb), men modellen understøtter også sceneudvidelse og genereringsbroer (første→sidste billede, udvid fra sidste sekund), som muliggør sekvenser på mange klip, der varer fra snesevis af sekunder til et minut eller mere, når de sammenklippes via Scene Extension.
Sådan genererer du lyd med Veo 3.1 (direkte via Google Gemini / Vertex)
Trin 1: Forudsætninger
- Google-konto med adgang til Gemini API / Vertex AI og en gyldig API-nøgle/legitimationsoplysninger (Veo 3.1 er i betalt preview for mange adgangsveje).
- Google
genai-/Gemini-klient eller REST-endpoint opsat i dit miljø (eller Vertex-klient, hvis du foretrækker Cloud Console).
Trin 2: Vælg den rigtige model og adgang
Brug veo-3.1-generate-preview (eller veo-3.1-fast, hvor hastighed/omkostning prioriteres). Disse modelstrenge optræder i Googles eksempler for preview-adgang. Du skal have en betalt Gemini API-/Google AI-nøgle (eller adgang via AI Studio / Vertex AI).
Trin 3: Python-eksempel — Gemini genai-klient (anbefalet, copy/paste)
Dette eksempel viser formen på et programmatisk kald (Python, google.genai-klient). Det demonstrerer, hvordan man giver en tekstprompt med lydinstruktioner.
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
Noter: Den returnerede fil er typisk en MP4, der indeholder det genererede lydspor. Nøglen til lydstyring ovenfor er beskrivende lydinstruktioner indlejret i prompten. Veo 3.1 reagerer på lydinstruktioner i naturligt sprog for at generere synkroniserede lydspor.
Trin 3 — Brug af referencebilleder og “Ingredients to video”
For at holde karakterudseende og akustiske cues konsistente kan du angive op til tre referencebilleder, som Veo bruger til at bevare visuel stil og kontinuitet. Det samme genereringskald understøtter reference_images=[...]. Dette anbefales, når du forventer konsistente stemmer eller tilbagevendende lyde til en karakter (fx knirken fra en tilbagevendende dør).
Trin 4 — Udvidelse af scener (Scene Extension) med lydkontinuitet
Veo 3.1 understøtter “sceneudvidelse”, hvor nye klip genereres ud fra det sidste sekund af et tidligere klip for at skabe længere sekvenser — og lyden udvides på en måde, der bevarer kontinuitet (baggrundsatmosfære, igangværende musik osv.). Brug parameteren video=video_to_extend i generate_videos-kaldet.
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Trin 5 — Bro mellem første og sidste frame (med lyd)
Hvis du vil have en glidende overgang mellem to frames (fx morfning fra dagslys til skumring), angiv image=first_frame og last_frame=last_frame og inkluder lydretning i prompten. Veo genererer overgangsframes plus lyd, der afspejler den visuelle progression. Veo returnerer typisk ét samlet lydspor inde i MP4-filen.
Hvordan bruger du lydværktøjerne i Veo 3.1?
1) Hvad CometAPI gør, og hvorfor du bør bruge det
CometAPI giver dig et samlet, OpenAI-lignende REST-endpoint til at få adgang til mange modeller (inklusive Googles Veo). Dette er nyttigt, hvis du ønsker et enkelt integrationspunkt (fakturering, kvoter, SDK-paritet) og ikke vil administrere flere leverandørnøgler. Comet dokumenterer, at Veo 3.1 tilbydes blandt deres videomodeller.
2) Grundlæggende flow for at kalde Veo 3.1 via CometAPI
- Opret en konto hos CometAPI og generér en API-nøgle.
- Bekræft den præcise modelidentifikator i Comets katalog ("Veo 3.1"/"veo3.1-pro").
- Brug CometAPI’s OpenAI-lignende endpoint (eller deres SDK), og sæt feltet
modeltil Veo-modellens navn. Comet vil rute din anmodning videre til Google på dine vegne.
Veo3.1 Async Generation, Dette API er implementeret gennem vores egenudviklede teknologi med følgende begrænsninger: Videolængden er fast på 8 sekunder og kan ikke tilpasses
Kontakt venligst teknisk support, hvis du støder på problemer
Eksempel på forespørgsel
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Hvad er best practices for lydbevidste prompts med Veo 3.1?
Promptdesign for god lyd (hvad skal med)
Brug strukturerede “lydspor” i prompten. Minimalt anbefalede blokke:
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
Nøgletips: mærk sporene, tilføj korte tidsankre (fx at 1.6s), beskriv følelsesmæssig levering og lydkarakter (fx “blød rumklang, langsom attack”), og hvis du har brug for stereopan, så annotér L / R eller L→R. Iteration er typisk — generér et kort klip (4–8 s), og udvid derefter.
Promptstruktur og tone
- Brug strukturerede spor: mærk blokke med “Ambience:”, “SFX:”, “Music:” og “Dialogue:”. Generatorer fungerer bedre med forudsigelige mønstre.
- Vær specifik om timing: korte tidsankre (fx “sfx: door slam at 1.6s”) hjælper med stram sync. Hvis præcis frame-nøjagtighed er afgørende, så iterér og finjustér.
- Beskriv lydkarakteristika: i stedet for “synth” sig “blød pad med langsom attack, 80 BPM-følelse” for at styre den musikalske stemning.
Visuel → lyd-konsistens
Hvis du angiver et referencebillede eller startframe, så nævn hvor lyden skal komme fra (fx “Ambience: dæmpet by fra venstre, tæt på kameraet; bilpassage skal panorere L→R”). Det giver mere plausible stereocues og opfattet kildelokalisering.
Iterationsworkflow
- Generér et kort klip (4–8 s), og evaluer lydsynk.
- Hvis du har brug for længere narrativ, brug Scene Extension for at forlænge klippet, mens det sidste sekund bevares som kontinuitetsfrø.
- For karakterkonsistens (stemmets klang, accent), brug referencebilleder og gentag stemmebeskrivelser mellem klip. Overvej at bruge korte, gentagne tekstlige “stemmeancre”-linjer (fx “ALICE — blød mid-Atlantic accent”) for at holde stemmen stabil.
Noter om postproduktion
Veo giver dig en start-MP4 med indlejret lyd. For avanceret mixing (multikanal-stems, separate dialog-/musikstems) kan du stadig få brug for at udtrække og recomponere lyden i en DAW — Veo er primært til integreret generering i én fil. Tredjeparts-workflows kombinerer ofte Veo til basisgenerering og DAW-redigeringer til distributionsklare mix.
Eksempelprompter (klar til copy-paste)
1 — Naturligt klingende ambience + effekt + kort dialog
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — Foley-tung actionbeat
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — Cinematisk ambience + karakterstemme
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— Tæt dialog + SFX (kort klip, eksplicit timing)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — Ambience-først scene (stemning, mindre stram SFX)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — Samtale med flere talere (iscenesat)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Hvordan sammenlignes Veo 3.1’s lyd med Sora 2’s lyd?
Begge — Veo 3.1 og OpenAI’s Sora 2 — understøtter synkroniseret lydoutput bundet til den genererede video. De er positioneret som flagskibsmodeller til mediegenerering fra deres respektive leverandører og lægger vægt på realistisk audio-video-koherens. Begge offentliggør API’er.
Væsentlige forskelle
- Modelfokus og længde: Veo 3.1 lægger vægt på styrbarhed med funktioner som første/sidste billede, Scene Extension for længere sekvenser og eksplicit conditioning med referencebilleder for at bevare karakter- og lydkontinuitet på tværs af flere shots. Sora 2 er indrammet som en flagskibsmodel, der genererer video med synkroniseret lyd; Sora 2 Pro fremhæver høj fidelitet og afstemte kompromiser mellem kvalitet og omkostning (Sora 2 Pro-niveau for højere fidelitet). Veo 3.1 fremhæver eksplicit Scene Extension og multi-prompt-sekvenser.
- Platformsintegration: Veo 3.1 er integreret i hele Googles Gemini-økosystem (Gemini-app, Flow, Gemini API, Vertex AI), mens Sora 2 præsenteres som OpenAI’s platformmodel med API-endpoints og en Sora-app til iOS; prissætning og endpoint-strukturer varierer (Sora 2-dokumenter viser prissætning pr. sekund). Vælg baseret på dit eksisterende cloud-setup og compliance-behov.
- Finkornede videokontroller: Veo 3.1 fremhæver flere konkrete kreative kontroller (Ingredients to Video, Scene Extension, First/Last Frame), som reducerer iterationstid for narrative workflows. Sora 2 fokuserer på synkroniseret lyd og fysisk nøjagtighed i bevægelse; begge tilbyder kontroller, men deres idiomer og SDK’er er forskellige.
Praktiske implikationer for lydtunge projekter
Hvis du prioriterer out-of-the-box high-fidelity single-shot-video med synkroniseret lyd og en simpel pr.-sekund-prissætning → Sora 2 er en stærk konkurrent; test begge på dine målaktiver og budgetter.
Hvis du har brug for lang, sammenhængende narrativ med konsistente lydmotiver på tværs af shots → Veo 3.1’s Scene Extension og conditioning med referencebilleder gør den attraktiv.
Endelig vurdering: Hvornår skal du bruge Veo 3.1 (lydfokuserede anbefalinger)
Brug Veo 3.1 når du har brug for kontrollerede multi-shot-sekvenser med konsistente karakterer og integreret lyd, der understøtter narrativ kontinuitet. Veo 3.1’s særskilte styrker er sceneudvidelse, kontrol med første/sidste billede og conditioning med referencebilleder — alt sammen gør den fremragende til serielt eller episodisk kortformindhold med lydkontinuitet.
Udviklere kan få adgang til Veo 3.1 og Sora 2 via CometAPI. For at komme i gang kan du udforske modelkapabiliteterne på CometAPI i Playground og konsultere API-guiden for detaljerede instruktioner. Før adgang, sørg for at du er logget ind på CometAPI og har fået din API-nøgle. CometAPI tilbyder en pris, der er langt lavere end den officielle pris for at hjælpe dig med integration.
Klar til at komme i gang?→ Gratis prøve af Veo 3.1!
