Slik bruker du Veo 3.1 API

Veo 3.1 er den nyeste iterasjonen i Googles Veo-familie av videogenereringsmodeller. Den gir rikere innebygd lyd, bedre narrativ og filmatisk kontroll, veiledning for flere bilder og nye redigeringsprimitiver (overganger mellom første og siste bilde, "ingredienser"/referansebilder og arbeidsflyter for sceneutvidelse). For utviklere er den raskeste måten å få tilgang til Veo 3.1 via API (for forbrukerrettede integrasjoner) og Vertex AI (for bedrifts- og skybaserte arbeidsbelastninger).

Hva er Veo 3.1 API-et, og hva er hovedfunksjonene?

Veo 3.1 er en tekst-og-bilde → videogenererende modell fra Google, utviklet for å produsere korte, høykvalitets, filmatiske klipp med innebygd generert lyd (dialog, omgivelsessignaler, lydeffekter). Utgivelsen fokuserer på å forbedre rask overholdelse, karakterkonsistens, lydgenerering og mer detaljerte redigeringskontroller (for eksempel: overganger mellom første og siste bilde og veiledning via opptil tre referansebilder).

Viktige funksjoner (i korte trekk)

Tekst → VideoGenerer videoer direkte fra fortellende spørsmål (inkludert dialog og lyd).
Bilde → Video: Transformer et bilde til en kort animert scene. ()
**Referansebilder («Ingredienser til video»)**Forsyning opptil 3 bilder (tegn, objekter, stiler) for å opprettholde visuell konsistens på tvers av resultater.
Første og siste rammegenereringLag overganger som bygger bro mellom to bilder (modellen genererer rammer som jevnt veksler mellom dem, med matchende lyd).
Arbeidsflyter for sceneutvidelseVerktøy for å utvide et eksisterende klipp ved å generere nye klipp knyttet til slutten av en tidligere video (merk: funksjoner og støtte varierer mellom Gemini API og Vertex forhåndsvisning – se delen «betingelser»).
Innebygd lyd og SFXModellen kan syntetisere tale, omgivelseslyd og synkroniserte effekter som samsvarer med de genererte bildene.

Hvordan bruker jeg Veo 3.1 API – hva er forutsetningene og betingelsene?

Hva trenger du før du kaller API-et?

Tilgang og faktureringVeo 3.1 er i betalt forhåndsversjon – sørg for at du har en API-nøkkel eller et Google Cloud-prosjekt med Vertex AI aktivert og fakturering konfigurert. Enkelte funksjoner og modellvarianter er regionsbegrenset i forhåndsversjonen.
Kvoter og forhåndsvisningsbegrensningerForhåndsvisningsmodeller har ofte grenser for forespørselshastighet per prosjekt (eksempler: 10 RPM for forhåndsvisningsvarianter) og grenser for videoer per forespørsel. Sjekk modellsiden i Vertex AI / Gemini-dokumentasjonen for nøyaktige tall for kontoen din.
Inndataressurser og formatDu kan generere fra tekstmeldinger, fra ett eller flere bilder, eller utvide en eksisterende Veo-generert video ved å referere til URI-en. For arbeidsflyter fra bilde til video, oppgi bilder i de støttede formatene (URL-er eller byte avhengig av endepunktet).
Sikkerhet og opprinnelseGenerert innhold må overholde Googles innholdsretningslinjer. Vannmerker eller bruksflagg kan vises i forhåndsvisningen. Vær forberedt på å håndtere opprinnelses- og innholdsmodereringstrinn i applikasjonen din.

Hvilke autentiseringsmetoder støttes?

API-nøkkelFor Gemini-hostede endepunkter eller nøkkelen til tredjeparts API-plattformen. Jeg anbefaler CometAPI, CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere Veo 3.1 API (veo3.1-pro; veo3.1)
Google Cloud-legitimasjon / ADCFor Vertex AI, bruk standard applikasjonslegitimasjon (tjenestekonto / gcloud-autentisering) eller en API-nøkkel knyttet til Google Cloud-prosjektet ditt.

Hva er Veo 3.1 API-endepunktene, og hvilke parametere er viktigst?

Kort svar: Du vil enten ringe CometAPI API endepunkt for videogenerering (for CometAPI-hostet tilgang, v1/chat/completionsBegge bruker en JSON-forespørselstekst som beskriver modell, ledetekst(er) og en video/output konfigurasjon; større videojobber returneres som langvarige operasjoner.

Vanlige endepunkter (eksempler):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

Typiske forespørselsparametere (logisk oppdeling)

modell — modellidentifikator som skal målrettes (veo3.1-pro; veo3.1-navn oppført i modellreferanse).
spørsmål / inndata — menneskelig tekst som beskriver scenen; kan inkludere flere instruksjoner eller instruksjoner for flere bilder avhengig av modellens kapasitet. Bruk strukturerte instruksjoner for å kontrollere kamerabevegelser, klokkeslett, humør og lydsignaler.
bildereferanser — 1–3 bilde-URI-er eller base64-bilder for å veilede objekter/tegn/stiler (Veo 3.1 støtter flere bildereferanser).
video — brukes når strekker en tidligere Veo-utdata (send den første video-URI-en). Noen funksjoner fungerer bare på Veo-genererte videoer.
varighet / fps / oppløsning / sideforhold – velg mellom støttede lengder og formater (forhåndsvisningsmodeller viser støttede varigheter og bildefrekvenser – f.eks. 4, 6, 8 sekunder i noen forhåndsvisningsdokumenter; utvidelser kan tillate lengre utganger i Flow/Studio).

Hva er avanserte bruksmønstre og teknikker?

1) Oppretthold karakterkonsistens med referansebilder

Lever opptil tre referansebilder (ansikter/positurer/kostyme) for å opprettholde utseendet til en karakter på tvers av flere genererte bilder. Typisk flyt:

Last opp eller innebygd kodering av referansebildene dine.
Send dem inn config.reference_images når man genererer hvert skudd.
Bruk de samme bildene for påfølgende generasjonskall (eller kombiner med frøverdier) for å maksimere visuell konsistens.

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) Overganger mellom første og siste bilde (bildesyntese)

Bruk image (første bilde) + config.last_frame å instruere Veo til å syntetisere mellombevegelsen. Dette er ideelt for filmatiske overganger – det produserer naturlig visuell interpolasjon og synkronisert lyd.

Gi en første ramme (image) Og en siste ramme (lastFrame) og Veo 3.1 vil interpolere bevegelsen mellom dem for å produsere en jevn overgang (med valgfri lyd). cURL (REST) eksempel — første + siste bilder:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) Sceneutvidelse (kjede flere generasjoner)

Det finnes to mønstre:

**API/Flow-tilnærming (forhåndsvisningsfunksjoner)**Du sender en eksisterende video (et returnert videoobjekt eller en URI) som video=video_to_extend for å lage et oppfølgingsklipp som er konsistent med den forrige scenen. Bruk operasjonsresponsen til å fange opp video.uri og legg det inn i neste samtale for å utvide fortellingen. Merk: tilgjengelighet og oppførsel kan variere fra plattform til plattform, så valider på plattformen du velger.
Vertex-skymønsterVertex sin forhåndsvisningsmodell har strengere dokumentlistede grenser (f.eks. returnerer gjeldende forhåndsvisning bare segmenter på 4/6/8 sekunder), så for å produsere minuttlange utdata må du kjede flere forespørsler og sette dem sammen i applikasjonen din eller bruke motorens offisielle sceneutvidelsesverktøy der det er tilgjengelig. Sjekk Vertex sin «Veo 3.1 forhåndsvisning»-side for gjeldende støttematrise.

ta en tidligere Veo-generert videoen og forleng den fremover (legg til sekunder) samtidig som stil og kontinuitet bevares. API-et krever at inputen er en Veo-generert video (utvidelser av vilkårlige MP4-filer støttes kanskje ikke). Du kan forlenge med 7 sekunders hopp opp til dokumenterte grenser (Veo-forhåndsvisningsgrenser gjelder):

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) Lyd- og dialogkontroll

Veo 3.1 genererer innebygd lyd (tale og effekter) fra ledetekster. Triks:

Sett inn eventuelle talte replikker i prompten din (sett dialogen i anførselstegn) for å oppmuntre til realistisk leppesynkronisering.
Legg til lydbeskrivelser («myke fottrinn fra venstre til høyre», «dempet tordencrescendo») for å forme sangeffekter og stemning.
Bruk frøverdier til å reprodusere det samme audiovisuelle/visuelle resultatet på tvers av testkjøringer.

5) Deterministiske utganger for testing (frø)

Hvis du trenger repeterbare resultater for CI- eller A/B-testing, oppgi en seed parameter (uint32). Endring av prompt- eller referansebildene vil fortsatt endre resultatet; seed garanterer repeterbarhet bare når alt annet er likt.

6) Kostnads- og ytelsesoptimaliseringer

Færre, større jobber i batch: Der det er tillatt, angi sampleCount å produsere flere kandidatvideoer i én forespørsel (1–4) for å redusere oppsettkostnader. ()
Bufre referansebilder og gjenbruk frø for reproduserbarhet, slik at du unngår å laste opp store binærfiler på nytt.
Bruk Cloud Storage-utganger (Vertex) for store utdatastørrelser for å unngå å returnere rå byte i forespørselsteksten.

7) Flertrinnsrørledninger med andre Gemini-modeller

En nyttig prosess: bruk en stillbildegenerator (f.eks. Gemini-bildemodell) for å lage ressurser → send de beste bildene som image + referenceImages til Veo 3.1 → iterer lyd-/dialogmeldinger med tekstmodellen for generert fortelling. Gemini-dokumentasjonen viser eksplisitt eksempler som kjeder sammen bildegenerering og Veo-kall.

Praktiske tips, treff og beste praksis

Bruk frø når du ønsker deterministiske, repeterbare utganger mellom kjøringer (samme prompt + samme referanser + samme frø → samme generasjon).
Hold referansebildene konsistenteSamme beskjæring, samme ansiktsvinkel, konsistente klær/bakgrunn hjelper modellen med å beholde identitet og stil. Bruk de samme tre bildene på tvers av bilder for å bevare kontinuitet.
Foretrekk GCS URI-er for produksjonLagring av bilder og utdata i Cloud Storage unngår størrelsesgrenser for base64-overføringer og forenkler kjedekobling/utvidelse.
Beskriv eksplisitt overganger og lyd: For første/siste overganger, legg til kamerabevegelse, tempo og SFX-/stemmesignaler i ledeteksten for bedre synkronisert lyd.
Test korte løkker først: iterer med korte varigheter (4–8 sekunder) mens du finjusterer prompter, frø og referansebilder, og kjede deretter utvidelser for lengre scener.
Bekreft nøyaktige feltnavnSDK-er kan bruke reference_images (slange_etui), referenceImages (camelCase), eller nestet image gjenstander med content / gcsUriSjekk SDK-dokumentasjonen eller Vertex-modellskjemaet for de nøyaktige egenskapsnavnene i versjonen du bruker.

Hva koster Veo 3.1, og hvordan faktureres det?

Veo 3.1 er fakturert per sekund av generert video, og Google eksponerer flere varianter (for eksempel standard og Rask) med forskjellige priser per sekund. De publiserte utviklerprisene viser eksempler på betalte priser på 0.40 dollar / sekund for Veo 3.1 Standard og 0.15 dollar per sekund for Veo 3.1 FastGemini-prissiden viser også at du bare blir belastet når en video er generert (mislykkede forsøk blir kanskje ikke fakturert).

Veo 3.1 API Prissetting i CometAPI


veo3.1	0.4000
veo3.1-pro	2.0000

Konklusjon – hvorfor Veo 3.1 er viktig for utviklere akkurat nå

Veo 3.1 er et klart trinnvis sprang for AI-videogenerering: rikere innebygd lyd, veiledning for referansebilder og nye redigeringsprimitiver gjør det til et sterkere alternativ for historiefortelling, forhåndsvisualisering og kreative apper. Modellens eksakte funksjoner varierer noe mellom endepunkter og forhåndsvisningsbygg (for eksempel versjonsforskjellen mellom CometAPI og Gemini) – så test og valider modellvarianten du har tenkt å bruke. Eksemplene i denne veiledningen gir et praktisk utgangspunkt for prototyping og produksjon.

Hvordan få tilgang Veo 3.1 API API

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Utviklere har tilgang Veo 3.1 API gjennom Comet API, den nyeste modellversjonen er alltid oppdatert med den offisielle nettsiden. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Klar til å dra? → Registrer deg for CometAPI i dag !

Hvis du vil vite flere tips, guider og nyheter om AI, følg oss på VK, X og Discord!