Een video maken met de audiotool van Sora-2

Sora 2 — OpenAI’s tweedegeneratie tekst-naar-video-model — heeft niet alleen de visuele realiteit vooruitgestuwd: het behandelt audio als een volwaardig onderdeel. Voor makers, marketeers, docenten en indie-filmmakers die korte, emotioneel aansprekende AI-video’s willen, reduceert Sora 2 wat vroeger een meerstaps audio-/videopijplijn was tot één promptgestuurde workflow.

Wat is audio in Sora 2?

Audio in Sora 2 is geïntegreerd met de videogeneratie in plaats van een achteraf toegevoegde component te zijn. In plaats van eerst video te genereren en daar vervolgens apart geproduceerde voice-overs, muziek en geluidseffecten overheen te leggen, produceert Sora 2 gesynchroniseerde dialogen, omgevingsgeluid en effecten die al bij het prompten worden gedefinieerd en uitgelijnd op de actie in beeld (lippen, objectbeweging, fysieke impactmomenten). Die geïntegreerde aanpak is een van de belangrijkste vernieuwingen die OpenAI bij de lancering van Sora 2 aankondigde: het model simuleert beeld en audio in samenhang om realisme en verhaalsamenhang te verbeteren.

Waarom dat ertoe doet: voorheen maakten makers eerst het beeld en zochten, monteerden en timeden ze het geluid apart. Sora 2 wil die stappen samenbrengen zodat de audio vanaf de eerste render de scenedynamiek volgt — wat het realisme verbetert en montagetijd bespaart.

Welke vormen van audio genereert Sora 2?

Praktisch gezien kan Sora 2 meerdere audiolagen genereren:

Gesynchroniseerde dialogen — spraak die overeenkomt met lipbeweging en timing van personages in beeld.
Geluidseffecten (SFX) — fysiek geloofwaardige geluiden (voetstappen, dichtslaande deuren, objectbotsingen) gekoppeld aan gebeurtenissen.
Ambient- en omgevingsaudio — roomtone, geroezemoes, weer (regen, wind) die voor immersie zorgen.
Muzikale cues — korte muzikale accenten of achtergrondloops ter ondersteuning van de sfeer (opmerking: licentie- en stijlbeperkingen kunnen van toepassing zijn).
Gelaagde mix — Sora 2 kan een eenvoudige mix van deze elementen produceren; voor complexe mixing kun je stems exporteren en verfijnen in een DAW.

3 kernfuncties voor audio die ertoe doen

Hieronder staan de drie audiomogelijkheden met grote impact die mijn workflow veranderden toen ik Sora 2 begon te testen (en die je zou moeten meewegen bij het kiezen van een AI-videotool).

1) Gesynchroniseerde spraak en lip-sync

Wat het doet: genereert spraak die in de tijd is uitgelijnd met gegenereerde gezichten of geanimeerde mondvormen. Dit is geen lip-sync als afzonderlijk postproces; het is ingebakken in de generatie, zodat timing en prosodie bij het beeld passen.

Waarom het belangrijk is: het bespaart uren handmatig synchroniseren en maakt korte narratieve of dialooggestuurde stukken mogelijk zonder acteurs op te nemen. Toepassingen: productmicro-advertenties, instructieclips, socialmedia-cameo’s en snelle prototyping van scènes die steunen op punchlines in dialogen.

2) Contextuele, fysisch-consistente geluidseffecten

Wat het doet: produceert SFX gekoppeld aan de fysica in beeld: een kopje tikt tegen een tafel wanneer de scène laat zien dat het beweegt, voetstappen hebben passende galm voor de omgeving, deuren kraken met de juiste timing.

Waarom het belangrijk is: dit voegt immersie en emotionele cues toe (een plotselinge dreun kan verrassen, subtiele roomtone laat een scène groter aanvoelen). Voor branding en advertenties vermindert fysiek consistente SFX het onwerkelijke gevoel van synthetische content en verhoogt de gepercipieerde productiewaarde.

3) Consistentie over meerdere shots met audiocontinuïteit

Wat het doet: bij het genereren van een sequentie van shots of het aan elkaar plakken van clips, probeert Sora 2 consistente audio-eigenschappen te behouden (dezelfde galm, hetzelfde stemtimbre voor terugkerende personages, consistente omgevingsruis).

Waarom het belangrijk is: narratieve samenhang over cuts is essentieel, zelfs voor kortvormverhalen. Voorheen moesten makers EQ en roomtone handmatig matchen over clips; nu probeert de tool continuïteit te behouden, wat het montageproces versnelt en de afwerktijd verkort.

Hoe krijg ik toegang tot Sora 2?

Sora 2 is op twee hoofdmanieren beschikbaar:

De Sora-app / webapp — OpenAI kondigde Sora 2 aan samen met een Sora-app waarmee gebruikers direct video’s kunnen maken zonder te coderen. De beschikbaarheid wordt gefaseerd per regio en via appstores/open access-vensters; recente berichtgeving toont tijdelijke bredere toegang in sommige landen (VS, Canada, Japan, Zuid-Korea), maar met kanttekeningen en quota.
De OpenAI Video API (modelnaam sora-2 of sora-2-pro) — ontwikkelaars kunnen de Video Generation API aanroepen met sora-2 of sora-2-pro; de platformdocumentatie vermeldt toegestane parameters (prompt, seconds, size, input references). sora-2 is gepositioneerd voor snelheid en iteratie, terwijl sora-2-pro mikt op hogere fideliteit en complexere scènes. Als je al een OpenAI-account en API-toegang hebt, laat de documentatie zien hoe je verzoeken structureert.

CometAPI biedt dezelfde Sora 2 API-callinterface en endpoints, en de API-prijs is goedkoper dan die van OpenAI.

Voorbeeld: een video met gesynchroniseerde audio genereren via curl (minimaal)

De v1/videos-endpoint accepteert model=sora-2 (of sora-2-pro). Hier is een eenvoudig voorbeeld met de gedocumenteerde multipart/form-data-stijl:

curl https://api.cometapi.com/v1/videos \  -H "Authorization: Bearer $OPENAI_API_KEY" \  -F "model=sora-2" \  -F "prompt=A calico cat playing a piano on stage. Audio: single speaker narrator says 'At last, the show begins'. Add applause and piano sustain after the final chord." \  -F "seconds=8" \  -F "size=1280x720"

Deze aanvraag maakt een videojob die, zodra voltooid, een MP4 oplevert met een ingebakken audiotrack (de API retourneert een job-id en een download-URL zodra deze gereed is).

Prijs van Sora 2 API via CometAPI

Sora-2	Per seconde:$0.08
Sora-2-pro	Per seconde:$0.24

Hoe gebruik je de audiotools van Sora 2?

Deze sectie is een praktische walkthrough: van prompts tot API-calls en edit-workflows.

Een snelle workflow voor het maken van een video met audio

Definieer je creatieve briefing. Bepaal de scène, personages, dialogen, sfeer en of je muziek of alleen diegetisch geluid wilt.
Schrijf een prompt die audiocues bevat. Geef expliciet aan wie spreekt, hoe ze spreken (toon, tempo) en welke SFX of ambiance je wilt.
Genereer een korte clip (10–30 seconden). Sora 2 is getuned voor korte, cinematografische clips; langere narratieve sequenties zijn mogelijk via stitching/meerschot-workflows maar vergen mogelijk iteratie.
Controleer de audiovisuele synchronisatie. Als de lip-sync of het geluid niet goed is, verfijn de prompt (toon, timing) en genereer opnieuw.
Exporteer stems of de gemixte track. Als ondersteund door de UI/API, exporteer audiostems (dialoog, SFX, ambient) voor precieze mixing. Exporteer anders de gemixte clip en verfijn extern.

Beslis of je “one-step” video+audio wilt of een afzonderlijk audioasset

Sora 2 blinkt uit wanneer je één stap wilt: prompt → video (inclusief audio). Gebruik daarvoor de video-endpoint (v1/videos). Als je fijne controle wilt over stemtimbre, prosodie, of je van plan bent de stemaudio in meerdere video’s te hergebruiken, kun je spraak afzonderlijk genereren met de /v1/audio/speech-endpoint en vervolgens ofwel:

Sora vragen om een gegenereerde video te remixen of te bewerken om die geüploade audio op te nemen (waar ondersteund), of
de afzonderlijke audio als vervangende laag gebruiken in een traditionele NLE (Final Cut, Premiere) nadat je beide assets hebt gedownload. De platformdocumentatie vermeldt zowel de video- als de speech-endpoints als kernbouwstenen.

Prompt engineering: instrueer het model expliciet over audio

Beschouw audio als een verplicht onderdeel van de scènebeschrijving. Zet audio-instructies in dezelfde prompt die je gebruikt om beweging en visuals te beschrijven. Voorbeeldstructuur:

Scènebeschrijving (visueel): kort, high-level verhaalmomenten.
Audio-instructies (expliciet): aantal sprekers, aantekeningen over toon, en sounddesign-cues.
Mix-hints (optioneel): “dialoog op de voorgrond, ambience op de achtergrond, cameraperspectief.”

Voorbeeldprompt voor een clip van 12 seconden (kopieer en pas aan):

A rainy evening on a narrow city alley. A woman in a red coat hurries across the wet cobblestones toward a flickering neon sign.Audio: Two speakers. Speaker A (woman) breathes slightly, hurried; Speaker B (offscreen street vendor) calls out once. Add steady rain on roof, distant car, and a clattering of an empty can when she kicks it. Dialogue: Speaker A: "I'm late. I can't believe I missed it."Speaker B (muffled, one line): "You better run!"Style: cinematic, short depth of field, close-up when she speaks; audio synced to lip movement, naturalistic reverb.

Zet de audiocues na de visuele beschrijving in de prompt; die volgorde levert in de praktijk vaak helderdere resultaten op omdat het model geluid aan beschreven gebeurtenissen koppelt.

Voorbeeld: de officiële SDK (Node.js) gebruiken om een video te maken

import OpenAI from "openai";const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });const video = await openai.videos.create({  model: "sora-2",  prompt: `A friendly robot waters plants on a balcony at sunrise. Audio: soft morning birds, one speaker voiceover says "Good morning, little world." Include distant city ambience. Style: gentle, warm.`,  seconds: "8",  size: "1280x720"});// Poll job status, then download result when completed (see docs).console.log("Video job created:", video.id);

Een aparte voice-over genereren met `/v1/audio/speech` (optionele geavanceerde stap)

Als je een consistente vertellersstem nodig hebt of stemmen wilt auditeren, genereer dan spraak apart en bewaar die als asset:

curl https://api.openai.com/v1/audio/speech \  -H "Authorization: Bearer $OPENAI_API_KEY" \  -H "Content-Type: application/json" \  -d '{    "model":"gpt-speech-1",    "voice":"alloy",    "input":"Welcome to our product demo. Today we show fast AI video generation."  }' --output narration.mp3

Je kunt narration.mp3 vervolgens importeren in je videobewerker of (waar ondersteund) uploaden als inputreferentie voor een remix-flow.

Opmerking: de primaire videoworkflow van Sora 2 genereert audio voor je; afzonderlijke spraak is voor use-cases die een specifieke stem of extern hergebruik vereisen.

Remixen en gerichte edits

Sora 2 ondersteunt remixsemantiek: je kunt een videojob maken en vervolgens gerichte edits indienen (bijv. achtergrond wijzigen, een scène verlengen) via een remix- of edit-endpoint. Instrueer bij het remixen het model ook over audiowijzigingen: “vervang muziek door spaarzame piano; houd de dialoog identiek maar verplaats een zin naar 2,5 s.” Deze edits zijn ideaal voor iteratieve workflows waarin je strakke controle over timing wilt zonder de scène vanaf nul op te bouwen.

Wat zijn best practices en tips voor probleemoplossing?

Best practices

Begin kort: render 4–8-seconden-clips om snel te itereren; langere clips vragen meer rekenkracht en zijn lastiger om op te itereren.
Wees expliciet met timecodes: [SFX: door_close @00:01] werkt veel beter dan “voeg een dichtvallende deur toe.”
Scheid visuele en audio-instructies duidelijk: zet camera- en visuele instructies op andere regels dan audio-instructies zodat het model ze helder kan parsen.
Gebruik referentie-audio voor kenmerkende geluiden: als een personage of merk een kenmerkende stem of jingle heeft, upload een korte sample en verwijs naar het ID.
Mix na het renderen als je precieze controle nodig hebt: als Sora 2 je 90% op weg helpt, exporteer de audiostems en rond af in een DAW voor mastering.

Problemen oplossen: veelvoorkomende issues

Lip-sync niet goed: maak je dialoogcues preciezer (expliciete start-/eindtijden) en vereenvoudig achtergrondgeluid; sterke ambiance kan dialoogtiming maskeren of wegduwen.
Gedempt of te veel galm in audio: neem “dry”- versus “room”-instructies op in je prompt (bijv. “droge stem, minimale galm”).
SFX te luid of weggedrukt: vraag om relatieve balances zoals “SFX: soft door_close” of “dialoog 3 dB harder dan de ambience.”
Ongewenste artefacten: probeer opnieuw te renderen met een iets andere promptformulering; het model produceert soms schonere audio bij alternatieve bewoording.

Praktische creatieve recepten (3 korte recepten die je kunt kopiëren)

Prompt:

7s, studio product shot: small espresso machine on counter. Visual: slow 3/4 pan in. Dialogue: "Perfect crema, every time." Voice: confident, friendly, male, medium tempo. SFX: steam release at 0:04, small metallic click at 0:06. Ambient: low cafe murmur.

Waarom het werkt: een korte vocale hook + een branded SFX (stoom) creëert een onmiddellijke zintuiglijke associatie. Gebruik de gemixte export om je merkjingle desnoods in post toe te voegen.

Recept B — Instructiesnippet (10 s): snelle how-to met stapaudio

Prompt:

10s, overhead kitchen shot. Visual: hands sprinkle salt into a bowl, then whisk. Audio: step narration (female, calm): "One pinch of sea salt." SFX: salt sprinkle sound at start, whisking texture under narration. Ambient: quiet kitchen.

Waarom het werkt: door diegetische SFX (zout, garde) te combineren met instructieve voice-over wordt de inhoud makkelijker te volgen en te hergebruiken over kanalen heen.

Recept C — Spanningsmoment (6 s): cinematografische sting + omgevingsgeluid

Prompt:

6s, alleway at dusk. Visual: quick low-angle shot of a bicyclist’s tire skidding. Audio: sudden metallic screech at 00:02 synced to skid, heartbeat-like low bass underlay, distant thunder. No dialogue.

Waarom het werkt: korte spanningsmomenten leunen op scherpe SFX en laagfrequente cues om emotie te triggeren; de fysisch-bewuste SFX van Sora 2 kan dat effect snel tot stand brengen.

Wanneer Sora 2 niet alleen te gebruiken

Langvormige narratieve productie met complexe dialogen en multiscenemixen profiteert nog steeds van menselijke acteurs en geavanceerd geluidsontwerp.
Strikt juridische/compliance-contexten (bewijs, juridische procedures) — synthetische media is geen vervanging voor geauthenticeerde opnames.

Tot slot

De geïntegreerde audiomogelijkheden van Sora 2 veranderen de typische videocreërende workflow door gesynchroniseerde dialogen, omgevingsgeluid en referentiegestuurde stempersonalisatie tot volwaardige generatie-uitvoer te maken in plaats van postproductie-add-ons. Voor makers en ontwikkelaars komen de beste resultaten voort uit zorgvuldige planning (denken in lagen voor audio), heldere prompts met timecodes en iteratie met korte testrenders.

Om te beginnen, verken de mogelijkheden van de Sora-2-modellen(Sora, Sora2-pro) in de Playground en raadpleeg de API-gids voor gedetailleerde instructies. Zorg er vóór de toegang voor dat je bent ingelogd bij CometAPI en de API-sleutel hebt verkregen. CometAPI biedt een prijs die veel lager is dan de officiële prijs om je te helpen integreren.

Klaar om te starten?→ Gratis proef van sora-2-modellen !

Wat is audio in Sora 2?

Welke vormen van audio genereert Sora 2?

3 kernfuncties voor audio die ertoe doen

1) Gesynchroniseerde spraak en lip-sync

2) Contextuele, fysisch-consistente geluidseffecten

3) Consistentie over meerdere shots met audiocontinuïteit

Hoe krijg ik toegang tot Sora 2?

Voorbeeld: een video met gesynchroniseerde audio genereren via curl (minimaal)

Prijs van Sora 2 API via CometAPI

Hoe gebruik je de audiotools van Sora 2?

Een snelle workflow voor het maken van een video met audio

Beslis of je “one-step” video+audio wilt of een afzonderlijk audioasset

Prompt engineering: instrueer het model expliciet over audio

Voorbeeld: de officiële SDK (Node.js) gebruiken om een video te maken

Een aparte voice-over genereren met `/v1/audio/speech` (optionele geavanceerde stap)

Remixen en gerichte edits

Wat zijn best practices en tips voor probleemoplossing?

Best practices

Problemen oplossen: veelvoorkomende issues

Praktische creatieve recepten (3 korte recepten die je kunt kopiëren)

Recept B — Instructiesnippet (10 s): snelle how-to met stapaudio

Recept C — Spanningsmoment (6 s): cinematografische sting + omgevingsgeluid

Wanneer Sora 2 niet alleen te gebruiken

Tot slot

Klaar om de AI-ontwikkelingskosten met 20% te verlagen?

Lees Meer

Een video maken met de audiotool van Sora-2

Wat is audio in Sora 2?

Welke vormen van audio genereert Sora 2?

3 kernfuncties voor audio die ertoe doen

1) Gesynchroniseerde spraak en lip-sync

2) Contextuele, fysisch-consistente geluidseffecten

3) Consistentie over meerdere shots met audiocontinuïteit

Hoe krijg ik toegang tot Sora 2?

Voorbeeld: een video met gesynchroniseerde audio genereren via curl (minimaal)

Prijs van Sora 2 API via CometAPI

Hoe gebruik je de audiotools van Sora 2?

Een snelle workflow voor het maken van een video met audio

Beslis of je “one-step” video+audio wilt of een afzonderlijk audioasset

Prompt engineering: instrueer het model expliciet over audio

Voorbeeld: de officiële SDK (Node.js) gebruiken om een video te maken

Een aparte voice-over genereren met /v1/audio/speech (optionele geavanceerde stap)

Remixen en gerichte edits

Wat zijn best practices en tips voor probleemoplossing?

Best practices

Problemen oplossen: veelvoorkomende issues

Praktische creatieve recepten (3 korte recepten die je kunt kopiëren)

Recept A — Social micro-ad (7–12 s): productonthulling + zin dialoog

Recept B — Instructiesnippet (10 s): snelle how-to met stapaudio

Recept C — Spanningsmoment (6 s): cinematografische sting + omgevingsgeluid

Wanneer Sora 2 niet alleen te gebruiken

Tot slot

Klaar om de AI-ontwikkelingskosten met 20% te verlagen?

Lees Meer

Een aparte voice-over genereren met `/v1/audio/speech` (optionele geavanceerde stap)