Veo 3.1 genererer nativt synkroniseret lyd sammen med videoen, når du kalder Gemini/Vertex (Veo)-endpoints — du styrer lyden via tekstprompten (lydcues, dialoglinjer, SFX, ambience), og den samme genereringsjob returnerer en MP4, du kan downloade. Hvis du foretrækker et samlet, ensartet API, der samler mange udbydere, tilbyder CometAPI også adgang til Veo 3.1 (du kalder CometAPI med din Comet-nøgle og anmoder om veo3.1/veo3.1-pro). Udgivelsen er positioneret som en direkte konkurrent til andre mediemodeller (for eksempel OpenAI’s Sora 2) med forbedringer centreret om lydrealisme, narrativ kontrol og kontinuitet på tværs af flere indstillinger.
Hvad er Veo 3.1?
Veo 3.1 er Googles seneste iteration i Veo-familien af tekst-og-billede→videomodeller. Sammenlignet med tidligere Veo-versioner fremhæver Veo 3.1 specifikt nativ lydgenerering — hvilket betyder, at modellen producerer synkroniseret dialog, ambience, lydeffekter og musikalske cues som en del af videooutputtet i stedet for at kræve et separat tekst-til-tale- eller efterproduktionsled. Den introducerer også nye narrative kontroller (referencebilleder, overgang mellem første og sidste frame samt sceneudvidelse) med det formål at gøre historier med flere indstillinger mere sammenhængende.
Hvorfor det betyder noget: Lyd er, hvordan seere fortolker rum, følelser, timing og kausalitet. Nativ lydgenerering (dialog, der matcher læbebevægelser, SFX timet til synlige begivenheder og baggrundsatmosfærer, der passer til scenens geografi) reducerer det manuelle arbejde, der kræves for at få et klip til at føles “ægte”, og gør det muligt for skabere hurtigere at iterere på historie og stemning.
Kan Veo 3.1 producere lyd — og hvilke typer lyd kan den lave?
Hvordan produceres lyd i modellen?
Veo 3.1 behandler lyd som en integreret outputmodalitet i videogenereringspipeline. I stedet for at sende videoframes til en separat TTS- eller Foley-motor modellerer Veos genereringsproces lyd- og visuelle strømme i fællesskab, så timing, akustiske cues og visuelle hændelser er sammenhængende. Denne fælles modellering er det, der muliggør elementer som samtaler, omgivelseslydlandskaber og synkroniserede SFX, der fremstår naturligt justeret med det genererede billedmateriale. “richer native audio” og synkroniseret lydgenerering fremhæves som overskriftsforbedringer i 3.1.
Hvorfor lydkapaciteten er vigtig
Historisk set producerede mange tekst-til-video-systemer lydløse videoer og lod lyd være et senere pipeline-led. Veo 3.1 ændrer det ved at producere lyd i samme genereringspas — hvilket reducerer manuelt mixarbejde, sikrer strammere læbesynk for korte replikker og lader prompts styre kausale lydbegivenheder (f.eks. “et glas knuses, når kameraet klipper til venstre”). Det har betydelige implikationer for produktionstempo, iterativt design og kreativ prototyping.
Hvilke typer lyd kan Veo 3.1 skabe?
- Dialog/tale — multispeaker-dialog med timing, der svarer til læber og handlinger.
- Omgivelseslydlandskaber — miljølyd (vind, trafik, rumtone), der passer til scenens geografi.
- Lydeffekter (SFX) — slag, stød, døre, fodtrin osv., timet til visuelle hændelser.
- Musikalske cues — korte musikmotiver eller stemningsunderlæg, der matcher scenens tempo.
Disse lydtyper genereres nativt og styres primært af promptens indhold frem for separate lydparametre.
Tekniske begrænsninger og længde
Ud af boksen er Veo 3.1 designet til høj-kvalitets korte klip (8 sekunders high-quality output i nogle flows), men modellen understøtter også “scene extension” og genereringsbroer (første→sidste frame, udvid fra den sidste sekund), der gør det muligt at lave sekvenser med flere klip, der varer tiere af sekunder op til et minut eller mere, når de sys sammen via Scene Extension.
Sådan genererer du lyd med Veo 3.1 (direkte, via Google Gemini / Vertex)
Trin 1: Forudsætninger
- Google-konto med adgang til Gemini API / Vertex AI og en gyldig API-nøgle/legitimationsoplysninger (Veo 3.1 er i betalt preview for mange adgangsveje).
- Google
genai/ Gemini-klient eller REST-endpoint sat op i dit miljø (eller Vertex-klient, hvis du foretrækker cloud-konsollen).
Trin 2: Vælg den rigtige model og adgang
Brug veo-3.1-generate-preview (eller veo-3.1-fast, hvor hastighed/omkostning er en prioritet). Disse modelstrenge optræder i Googles eksempler for preview-adgang. Du skal bruge en betalt Gemini API / Google AI-nøgle (eller adgang via AI Studio / Vertex AI).
Trin 3: Python-eksempel — Gemini genai-klient (anbefalet, kopier/indsæt)
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
Bemærkninger: Den returnerede fil er typisk en MP4, der inkluderer det genererede lydspor. Den centrale del for lydstyring ovenfor er beskrivende lydinstruktioner indlejret i prompten. Veo 3.1 reagerer på naturlige sprog-lydretninger og genererer synkroniserede lydspor.
Trin 3 — Brug af referencebilleder og “Ingredients to video”
For at bevare karakterers udseende og akustiske cues konsistente kan du sende op til tre referencebilleder, som Veo bruger til at bevare visuel stil og kontinuitet. Den samme genereringskald understøtter reference_images=[...]. Dette anbefales, når du forventer konsistente stemmer eller vante lyde for en karakter (f.eks. knirken fra en tilbagevendende dør).
Trin 4 — Udvidelse af scener (Scene extension) med lydkontinuitet
Veo 3.1 understøtter “scene extension”, hvor nye klip genereres ud fra den sidste sekund af et tidligere klip for at skabe længere sekvenser — og lyden udvides på en måde, der bevarer kontinuitet (baggrundsambience, igangværende musik osv.). Brug parameteren video=video_to_extend i generate_videos-kaldet.
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Trin 5 — Bro mellem første og sidste frame (med lyd)
Hvis du ønsker en glat overgang mellem to frames (f.eks. morfning fra en dagsoptagelse til en skumringsoptagelse), angiv image=first_frame og last_frame=last_frame og inkluder lydinstruktion i prompten. Veo genererer de overgangsframes plus lyd, der afspejler den visuelle progression. Veo returnerer typisk et enkelt miks-lydspor inde i MP4’en.
Hvordan bruger du lydværktøjerne i Veo 3.1?
1) Hvad CometAPI gør, og hvorfor bruge det
CometAPI giver dig et enkelt, OpenAI-stilet REST-endpoint til at få adgang til mange modeller (inklusive Googles Veo). Det er nyttigt, hvis du vil have ét integrationspunkt (fakturering, kvoter, SDK-paritet) og ikke vil administrere flere leverandørnøgler. Comet dokumenterer, at Veo 3.1 tilbydes blandt deres videomodeller.
2) Grundlæggende flow for at kalde Veo 3.1 via CometAPI
- Tilmeld dig hos CometAPI og opret en API-nøgle.
- Bekræft den nøjagtige modelidentifikator i Comets katalog ("Veo 3.1"/"veo3.1-pro").
- Brug CometAPI’s OpenAI-stilede endpoint (eller deres SDK) og sæt feltet
modeltil Veo-modellens navn. Comet vil sende din forespørgsel videre til Google på dine vegne.
Veo3.1 Async Generation, This API is implemented through our self-developed technology with the following limitations: Video duration is fixed at 8 seconds and cannot be customized
Please contact technical support if you encounter any issues
Eksempel på forespørgsel
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Hvad er best practices for lydbevidst prompting med Veo 3.1?
Promptdesign for god lyd (hvad der bør med)
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
Nøgletips: mærk sporene, tilføj korte tidsankre (f.eks. at 1.6s), beskriv følelsesmæssig levering og lydkarakter (f.eks. “soft reverb, slow attack”), og hvis du har brug for stereopanorering, annoter L / R eller L→R. Iteration er typisk — generér et kort klip (4–8 sek.), og udvid derefter.
Promptstruktur og tone
- Brug strukturerede spor: mærk “Ambience:”, “SFX:”, “Music:” og “Dialogue:” blokke. Generatorer fungerer bedre med forudsigelige mønstre.
- Vær specifik om timing: korte tidslige ankere (f.eks. “sfx: door slam at 1.6s”) hjælper med tæt synkronisering. Hvis nøjagtig frame-niveau-præcision er essentiel, iterér og finjustér.
- Beskriv lydkarakteristik: i stedet for “synth”, sig “soft pad with slow attack, 80 BPM feel” for at styre den musikalske stemning.
Visuel → lyd-konsistens
Hvis du angiver et referencebillede eller startframe, nævn hvor lyden skal komme fra (f.eks. “Ambience: dæmpet by fra venstre, tættere på kameraet; bilpassage bør panorere L→R”). Det giver mere plausible stereocues og oplevet kildelokalisering.
Iterationsworkflow
- Generér et kort klip (4–8 sek.) og evaluer lydsynk.
- Hvis du behøver længere narrativ, brug Scene Extension til at udvide klippet, mens den sidste sekund bevares som kontinuitetsfrø.
- For karakterkonsistens (stemmetimbre, accent), brug referencebilleder og gentag stemmebeskrivelser mellem klip. Overvej at bruge korte gentagne tekstlige “stemmeankre” (f.eks. “ALICE — blød mid-Atlantic accent”) for at holde stemmen stabil.
Noter om efterproduktion
Veo giver dig en start-MP4 med indlejret lyd. Til avanceret mixning (multikanals stems, separate dialog-/musikstems) kan du stadig have behov for at udtrække og komponere lyden i en DAW — Veo er primært til integreret enkeltfilsgenerering. Tredjeparts-workflows kombinerer ofte Veo til basisgenerering og DAW-edits for distributionskvalitetsmix.
Eksempelprompter (klar til kopiering/indsætning)
1 — Naturligt lydende ambience + effekt + kort dialog
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — Foley-tung actionbeat
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — Cinematisk ambience + karakterstemme
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— Tæt dialog + SFX (kort klip, eksplicit timing)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — Ambience-først scene (stemning, mindre stram SFX)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — Multispeaker-samtale (stagged)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Hvordan sammenlignes Veo 3.1’s lyd med Sora 2’s lyd?
Begge, Veo 3.1 og OpenAI’s Sora 2, understøtter synkroniseret lydoutput bundet til genereret video. De er positioneret som flagskibsmediegenereringsmodeller fra deres respektive leverandører og lægger vægt på realistisk lyd-video-koherens. Begge offentliggør API’er.
Nøgleforskelle
- Modellens fokus og længde: Veo 3.1 lægger vægt på kontrollerbarhed med funktioner som første/sidste frame, scene extension til længere sekvenser og eksplicit conditioning via referencebilleder for at bevare karakter- og lydkontinuitet på tværs af flere indstillinger. Sora 2 er framet som en flagskibsmodel, der genererer video med synkroniseret lyd; Sora 2 Pro lægger vægt på høj fidelitet og finjusterede afvejninger mellem kvalitet og omkostning (Sora 2 Pro-niveau for højere fidelitet). Veo 3.1 fremhæver specifikt scene extension og multi-prompt-sekvenser.
- Platformintegration: Veo 3.1 er integreret på tværs af Googles Gemini-økosystem (Gemini-app, Flow, Gemini API, Vertex AI), mens Sora 2 præsenteres som OpenAI’s platformmodel med API-endpoints og en Sora-app til iOS; priser og endpoint-strukturer er forskellige (Sora 2-dokumenter viser prisniveauer per sekund). Vælg baseret på din eksisterende cloud-footprint og compliance-behov.
- Finkornede videokontroller: Veo 3.1 fremhæver flere specifikke kreative kontroller (Ingredients to Video, Scene Extension, First/Last Frame), der reducerer iterationstid for narrative workflows. Sora 2 fokuserer på synkroniseret lyd og fysisk nøjagtighed i bevægelse; begge tilbyder kontroller, men deres idiomer og SDK’er er forskellige.
Praktiske implikationer for lydtunge projekter
Hvis du prioriterer out-of-the-box høj-fidelitet single-shot-video med synkroniseret lyd og en simpel pris pr. sekund → Sora 2 er en stærk konkurrent; test begge på dine målaktiver og budgetter.
Hvis du behøver lang, kontinuerlig narrativ med konsistente lydmotiver på tværs af indstillinger → Veo 3.1’s Scene Extension og conditioning via referencebilleder gør den attraktiv.
Endelig vurdering: Hvornår du skal bruge Veo 3.1 (lydcentrerede anbefalinger)
Brug Veo 3.1, når du behøver kontrollerede sekvenser med flere indstillinger, konsistente karakterer og integreret lyd, der understøtter narrativ kontinuitet. Veo 3.1’s særlige styrker er scene extension, kontrol over første/sidste frame og conditioning via referencebilleder — alt sammen gør den fremragende til seriel eller episodisk shortform-indhold med lydkontinuitet.
Udviklere kan få adgang til Veo 3.1 og Sora 2 via CometAPI. For at komme i gang, udforsk modelkapabiliteterne i CometAPI i Playground, og konsulter API-guiden for detaljerede instruktioner. Før du får adgang, skal du sikre, at du er logget ind på CometAPI og har fået din API-nøgle. CometAPI tilbyder en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.
Klar til at gå i gang?→ Free trial of Veo 3.1!
