Kort svar: Per oktober 2024 er Veo primært en videomodell som vanligvis leverer stille video uten innebygd lydspor. Hvis 3.1 tilbyr lyd, må du verifisere det i den offisielle dokumentasjonen; ellers legger du på tale, musikk og effekter i etterarbeid med eksterne lydverktøy. Profesjonell bruk (anbefalt arbeidsflyt): - Definer leveransespesifikasjoner: oppløsning, bildeformat, bildefrekvens, varighet, kodek og målplattform. - Utarbeid manus og referanser: tydelig brief, stilreferanser, storyboard/shotlist og konsise, entydige prompts (inkludér negative prompts ved behov). - Sikre reproduksjon: bruk seed/konstanter, loggfør alle parametere og behold metadata for sporbarhet. - Kontroller bevegelse og stil: juster kamerabevegelse, komposisjon, lys og estetikk; bruk masking/segmentering hvis tilgjengelig for presise endringer. - Iterer systematisk: versjonskontroll, navngivningskonvensjoner, A/B-varianter og godkjenningsporter. - Rettigheter og samsvar: avklar brukstillatelser, personvern/samtykke ved likheter, modellrestriksjoner og lisens for musikk/lyd. - Lydarbeid: produser VO/TTS, musikk og foley separat; miks til plattformkrav (f.eks. EBU R128 ca. −23 LUFS for kringkasting, ca. −14 LUFS for streaming) og lever M&E-spor for lokalisering. - Etterarbeid på bilde: fargegradering (Rec.709/2020), stabilisering, oppskalering, artefaktreduksjon og tekstskarphet. - Kvalitetssikring: sjekk flimmer, banding, kontinuitet og lesbarhet; test på målplattformer; legg til undertekster (SRT/WebVTT) og tilgjengelighetskrav. - Distribusjon og arkiv: eksporter i riktig format/bitrater, generer nøkkelbilder, lagre kildefiler, prompts, seeds og lisensdokumentasjon.

CometAPI
AnnaDec 26, 2025
Kort svar: Per oktober 2024 er Veo primært en videomodell som vanligvis leverer stille video uten innebygd lydspor. Hvis 3.1 tilbyr lyd, må du verifisere det i den offisielle dokumentasjonen; ellers legger du på tale, musikk og effekter i etterarbeid med eksterne lydverktøy.

Profesjonell bruk (anbefalt arbeidsflyt):
- Definer leveransespesifikasjoner: oppløsning, bildeformat, bildefrekvens, varighet, kodek og målplattform.
- Utarbeid manus og referanser: tydelig brief, stilreferanser, storyboard/shotlist og konsise, entydige prompts (inkludér negative prompts ved behov).
- Sikre reproduksjon: bruk seed/konstanter, loggfør alle parametere og behold metadata for sporbarhet.
- Kontroller bevegelse og stil: juster kamerabevegelse, komposisjon, lys og estetikk; bruk masking/segmentering hvis tilgjengelig for presise endringer.
- Iterer systematisk: versjonskontroll, navngivningskonvensjoner, A/B-varianter og godkjenningsporter.
- Rettigheter og samsvar: avklar brukstillatelser, personvern/samtykke ved likheter, modellrestriksjoner og lisens for musikk/lyd.
- Lydarbeid: produser VO/TTS, musikk og foley separat; miks til plattformkrav (f.eks. EBU R128 ca. −23 LUFS for kringkasting, ca. −14 LUFS for streaming) og lever M&E-spor for lokalisering.
- Etterarbeid på bilde: fargegradering (Rec.709/2020), stabilisering, oppskalering, artefaktreduksjon og tekstskarphet.
- Kvalitetssikring: sjekk flimmer, banding, kontinuitet og lesbarhet; test på målplattformer; legg til undertekster (SRT/WebVTT) og tilgjengelighetskrav.
- Distribusjon og arkiv: eksporter i riktig format/bitrater, generer nøkkelbilder, lagre kildefiler, prompts, seeds og lisensdokumentasjon.

Veo 3.1 genererer innebygd, synkronisert lyd sammen med videoen når du kaller Gemini/Vertex (Veo)-endepunktene — du styrer lyden via tekstprompten (lydsignaler, dialoglinjer, SFX, atmosfære), og samme genereringsjobb returnerer en MP4 du kan laste ned. Hvis du foretrekker ett samlet API som samler mange leverandører, tilbyr CometAPI også tilgang til Veo 3.1 (du kaller CometAPI med din Comet-nøkkel og ber om veo3.1/veo3.1-pro). Lanseringen er posisjonert som en direkte konkurrent til andre mediamodeller (for eksempel OpenAI’s Sora 2), med forbedringer fokusert på lydrealisme, narrativ kontroll og kontinuitet på tvers av flere opptak.

Hva er Veo 3.1?

Veo 3.1 er Googles nyeste iterasjon i Veo-familien av tekst- og bilde→video-modeller. Sammenlignet med tidligere Veo-utgaver fremhever Veo 3.1 spesielt innebygd lydgenerering — det vil si at modellen produserer synkronisert dialog, atmosfære, lydeffekter og musikalske signaler som en del av videoutdataene, i stedet for å kreve en separat tekst-til-tale- eller etterarbeidsprosess. Den bringer også nye narrative kontroller (referansebilder, overganger mellom første og siste bilde, og funksjoner for sceneutvidelse) som har som mål å gjøre flerskuddsfortellinger mer sammenhengende.

Hvorfor det er viktig: lyd er hvordan seere tolker rom, følelser, timing og kausalitet. Innebygd lydgenerering (dialog som samsvarer med leppebevegelser, SFX tidsfestet til synlige hendelser, og bakgrunnsatmosfærer som matcher scenens geografi) reduserer manuelt arbeid for å få et klipp til å føles “ekte” og lar skapere iterere raskere på historie og stemning.

Kan Veo 3.1 produsere lyd — og hvilke typer lyd kan den lage?

Hvordan produseres lyd inne i modellen?

Veo 3.1 behandler lyd som en integrert utdata-modalitet i video-genereringspipen. I stedet for å sende videorammer til en separat TTS- eller Foley-motor, modellerer Veos genereringsprosess lyd- og visuelle strømmer sammen slik at timing, akustiske signaler og visuelle hendelser er koherente. Den felles modelleringen er det som muliggjør at samtaleutvekslinger, omgivelseslydbilder og synkroniserte SFX fremstår naturlig justert med generert bilde. “rikere innebygd lyd” og synkronisert lydgenerering pekes ut som hovedforbedringer i 3.1.

Hvorfor lydkapabiliteten er en stor sak

Historisk har mange tekst-til-video-systemer produsert stille video og overlatt lyd til en senere prosess. Veo 3.1 endrer dette ved å produsere lyd i samme genereringspass — som reduserer manuelt miksarbeid, sikrer strammere leppekontakt for korte replikker, og lar prompts styre kausale lydbegivenheter (f.eks. “et glass knuser idet kameraet kutter til venstre”). Dette har betydelige implikasjoner for produksjonshastighet, iterativ design og kreativ prototyping.

Hvilke typer lyd kan Veo 3.1 skape?

  • Dialog / tale — flerspeaker-dialog med timing som samsvarer med lepper og handlinger.
  • Omgivelseslydbilder — miljølyd (vind, trafikk, romklang) som passer scenens geografi.
  • Lydeffekter (SFX) — treff, slag, dører, skritt osv., tidsfestet til visuelle hendelser.
  • Musikalske signaler — korte musikalske motiver eller stemningsunderlag som matcher scenens tempo.

Disse lydtypene genereres innebygd og styres primært av innholdet i prompten snarere enn av separate lydparametere.

Tekniske begrensninger og lengde

Rett ut av boksen er Veo 3.1 bygget for korte klipp av høy kvalitet (8-sekunders høy-kvalitetsutdata for noen flyter), men modellen støtter også sceneutvidelse og generasjonsbroer (første→siste bilde, utvid fra siste sekund) som muliggjør sekvenser på titalls sekunder opp til et minutt eller mer når de settes sammen via Scene Extension.

Hvordan generere lyd med Veo 3.1 (direkte, via Google Gemini / Vertex)

Trinn 1: Forutsetninger

  1. Google-konto med tilgang til Gemini API / Vertex AI og en gyldig API-nøkkel / legitimasjon (Veo 3.1 er i betalt forhåndsvisning for mange tilgangsveier).
  2. Google genai / Gemini-klient eller REST-endepunkt satt opp i miljøet ditt (eller Vertex-klient hvis du foretrekker Cloud Console).

Trinn 2: Velg riktig modell og tilgang

Bruk veo-3.1-generate-preview (eller veo-3.1-fast der fart/kostnad er prioritert). Disse modellstrengene vises i Googles eksempler for forhåndsvisningstilgang. Du trenger en betalt Gemini API / Google AI-nøkkel (eller tilgang via AI Studio / Vertex AI).


Trinn 3: Python-eksempel — Gemini genai-klient (anbefalt, kopier/lim inn)

Dette eksemplet viser formen på et programmessig kall (Python, google.genai-klient). Det demonstrerer hvordan man gir en tekstprompt som inneholder lydinstruksjoner.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Merk: Den returnerte filen er vanligvis en MP4 som inkluderer det genererte lydsporet. Nøkkelen til lydkontroll over er beskrivende lydinstruksjoner som er innebygd i prompten. Veo 3.1 responderer på naturlig språk-lydinstruksjoner for å generere synkroniserte lydspor.

Trinn 3 — Bruke referansebilder og “Ingredients to video”

For å holde karakterutseende og akustiske signaler konsistente, kan du sende opptil tre referansebilder som Veo bruker for å bevare visuell stil og kontinuitet. Den samme genereringskallet støtter reference_images=[...]. Dette anbefales når du forventer konsistente stemmer eller vante lyder for en karakter (f.eks. knirkingen fra en tilbakevendende dør).

Trinn 4 — Utvide scener (Scene extension) med lydkontinuitet

Veo 3.1 støtter “sceneutvidelse”, der nye klipp genereres ut fra siste sekund av et tidligere klipp for å skape lengre sekvenser — og lyden utvides på en måte som bevarer kontinuitet (bakgrunnsatmosfære, pågående musikk, osv.). Bruk video=video_to_extend-parameteren i generate_videos-kallet.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Trinn 5 — First & last frame-bridging (med lyd)

Hvis du vil ha en jevn overgang mellom to bilder (for eksempel å morfe et dagsopptak til et skumringsopptak), oppgi image=first_frame og last_frame=last_frame og inkluder lydinstruksjoner i prompten. Veo vil generere overgangsrammer pluss lyd som reflekterer den visuelle progresjonen. Veo returnerer vanligvis ett mikset lydspor inne i MP4-en.

Hvordan bruker du lydverktøyene i Veo 3.1 ?

1) Hva CometAPI gjør og hvorfor bruke det

CometAPI gir deg ett REST-endepunkt i OpenAI-stil for tilgang til mange modeller (inkludert Googles Veo). Dette er nyttig hvis du ønsker ett integrasjonspunkt (fakturering, kvoter, SDK-paritet) og ikke vil administrere flere leverandørnøkler. Comet dokumenterer at Veo 3.1 tilbys blant deres videomodeller.

2) Grunnleggende flyt for å kalle Veo 3.1 via CometAPI

  1. Registrer deg hos CometAPI og opprett en API-nøkkel.
  2. Bekreft den nøyaktige modellidentifikatoren i Comets katalog ("Veo 3.1"/"veo3.1-pro").
  3. Bruk CometAPIs endepunkt i OpenAI-stil (eller deres SDK) og sett model-feltet til Veo-modellnavnet. Comet vil rute forespørselen din til Google på dine vegne.

Veo3.1 Async Generation, Dette API-et er implementert gjennom vår egenutviklede teknologi med følgende begrensninger: Videovarighet er fastsatt til 8 sekunder og kan ikke tilpasses
Ta kontakt med teknisk støtte dersom du opplever problemer

Eksempel-forespørsel

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Hva er beste praksis for lydbevisst prompting med Veo 3.1?

Utforming av prompt for god lyd (hva bør inngå)

Bruk strukturerte “lydspor”-blokker i prompten. Minimalt anbefalte blokker:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Nøkkeltips: merk sporene, legg inn korte tidsankre (f.eks. at 1.6s), beskriv emosjonell levering og lydkarakter (f.eks. “soft reverb, slow attack”), og hvis du trenger stereopanning, annoter L / R eller L→R. Iterasjon er typisk — generer et kort klipp (4–8 s), og utvid deretter.

Prompt-struktur og tone

  • Bruk strukturerte spor: merk blokkene “Ambience:”, “SFX:”, “Music:” og “Dialogue:”. Generatorer fungerer bedre med forutsigbare mønstre.
  • Vær spesifikk om timing: korte tidsankre (f.eks. “sfx: door slam at 1.6s”) hjelper med tett synk. Hvis nøyaktig rammenivå-presisjon er essensiell, iterer og finjuster.
  • Beskriv lydkarakteristikk: i stedet for “synth”, si “soft pad med slow attack, 80 BPM-følelse” for å styre musikalsk stemning.

Visuell → lyd-konsistens

Hvis du gir et referansebilde eller startbilde, nevne hvor lyden skal stamme fra (f.eks. “Ambience: dempet by fra venstre, nærmere kamera; bilpassering bør panorere L→R”). Dette gir mer plausible stereosignaler og opplevd kildelokalisering.

Iterasjonsarbeidsflyt

  1. Generer et kort klipp (4–8 s) og evaluer lydsynk.
  2. Hvis du trenger lengre narrativ, bruk Scene Extension for å vokse klippet mens siste sekund bevares som kontinuitetsfrø.
  3. For karakterkonsistens (stemmeklang, aksent), bruk referansebilder og gjenta stemmebeskrivelser mellom klipp. Vurder å bruke korte gjentatte tekstlige “voice anchor”-linjer (f.eks. “ALICE — myk mid-atlantisk aksent”) for å holde stemmen stabil.

Notater om etterarbeid

Veo gir deg en start-MP4 med innebygd lyd. For avansert miksing (multikanalsstems, separate dialog-/musikkstems), må du fortsatt trekke ut og komponere lyden i en DAW — Veo er primært for integrert enkeltfilgenerering. Tredjeparts arbeidsflyter kombinerer ofte Veo for grunnleggende generering og DAW-redigeringer for miks av distribusjonskvalitet.

Eksempel-prompt (klar til kopier/lim inn)

1 — Naturlig omgivelseslyd + effekt + kort dialog

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — Foley-tung actionbeat

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — Cinematisk atmosfære + karakterstemme

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— Stram dialog + SFX (kort klipp, eksplisitt timing)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — Atmosfære-først scene (stemning, mindre strengt SFX)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — Flerspeaker-samtale (stagget)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


Hvordan sammenlignes lyden i Veo 3.1 med lyden i Sora 2?

Begge, Veo 3.1 og OpenAI’s Sora 2, støtter synkronisert lydutgang knyttet til generert video. De er posisjonert som flaggskips mediegenereringsmodeller fra sine respektive leverandører og vektlegger realistisk audio-video-koherens. Begge publiserer API-er.

Viktige forskjeller

  • Modelfokus og lengde: Veo 3.1 vektlegger kontrollerbarhet med funksjoner som første/siste bilde, sceneutvidelse for lengre sekvenser, og eksplisitt referansebilde-kondisjonering for å bevare karakter- og lydkontinuitet på tvers av flerskuddssekvenser. Sora 2 rammes inn som en flaggskipsmodell som genererer video med synkronisert lyd; Sora 2 Pro vektlegger høy fidelitet og justerte avveininger mellom kvalitet og kostnad (Sora 2 Pro-nivå for høyere fidelitet). Veo 3.1 peker eksplisitt på sceneutvidelse og multiprompt-sekvenser.
  • Plattformintegrasjon: Veo 3.1 er integrert i hele Googles Gemini-økosystem (Gemini-app, Flow, Gemini API, Vertex AI), mens Sora 2 presenteres som OpenAI’s plattformmodell med API-endepunkter og en Sora-app for iOS; prising og endepunktstrukturer skiller seg (Sora 2-dokumenter viser prisnivåer per sekund). Velg basert på din eksisterende skyplattform og samsvarsbehov.
  • Finkornede videokontroller: Veo 3.1 peker på flere spesifikke kreative kontroller (Ingredients to Video, Scene Extension, First/Last Frame) som reduserer iterasjonstid for narrative arbeidsflyter. Sora 2 fokuserer på synkronisert lyd og fysisk nøyaktighet i bevegelse; begge tilbyr kontroller, men deres idiomer og SDK-er er ulike.

Praktiske konsekvenser for lydtunge prosjekter

Hvis du prioriterer ferdig, høyfidelitets enkelskudd-video med synkronisert lyd og en enkel prising per sekund → Sora 2 er en sterk konkurrent; test begge mot dine målassets og budsjetter.

Hvis du trenger lang kontinuerlig narrativ med konsistente lydmotiver på tvers av shots → Veo 3.1s Scene Extension og referansebilde-kondisjonering gjør den attraktiv.

Endelig vurdering: Når du bør bruke Veo 3.1 (lydfokuserte anbefalinger)

Bruk Veo 3.1 når du trenger kontrollerte flerskuddssekvenser med konsistente karakterer, integrert lyd som støtter narrativ kontinuitet. Veo 3.1s tydelige styrker er sceneutvidelse, kontroll av første/siste bilde og referansebilde-kondisjonering — som alle gjør den utmerket for serielt eller episodisk kortforminnhold med lydkontinuitet.

Utviklere kan få tilgang til Veo 3.1 og Sora 2 via CometAPI. For å komme i gang, utforsk modellkapabilitetene til CometAPI i Playground og konsulter API-guiden for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og hentet API-nøkkelen. CometAPI tilbyr en pris som er langt lavere enn den offisielle prisen for å hjelpe deg å integrere.

Klar til å komme i gang?→ Gratis prøve av Veo 3.1!

Les mer

500+ modeller i ett API

Opptil 20 % rabatt