Hoe maak je een video met de audiotool van Sora-2?

CometAPI
AnnaDec 14, 2025
Hoe maak je een video met de audiotool van Sora-2?

Sora 2 — het tekstop-naar-video-model van de tweede generatie van OpenAI — heeft niet alleen de visuele realisme vooruitgestuwd: het behandelt audio als een volwaardig onderdeel. Voor makers, marketeers, docenten en indie-filmmakers die korte, emotioneel aansprekende AI-video's willen, reduceert Sora 2 wat vroeger een meerstaps audio-/videopijplijn was tot één, via prompts aan te sturen workflow.

Wat is audio in Sora 2?

Audio in Sora 2 is geïntegreerd met videogeneratie in plaats van een bijzaak te zijn. In plaats van eerst video te genereren en vervolgens apart geproduceerde voice-overs, muziek en geluidseffecten eroverheen te leggen, produceert Sora 2 gesynchroniseerde dialogen, omgevingsgeluid en effecten die op prompt-tijd worden geautoriseerd en afgestemd op de actie op het scherm (lippen, objectbeweging, fysieke impacts). Die geïntegreerde aanpak is een van de belangrijkste innovaties die OpenAI heeft aangekondigd bij de lancering van Sora 2: het model simuleert zowel visuele als audio-elementen in samenhang om realisme en verhalende coherentie te verbeteren.

Waarom dat belangrijk is: eerder genereerden makers visuele content en werden audio-elementen vervolgens apart ingekocht, bewerkt en getimed. Sora 2 wil die stappen samenbrengen zodat de audio al vanaf de eerste render bij de scènedynamiek past — wat het realisme verbetert en tijd in de montage bespaart.

Welke vormen van audio genereert Sora 2?

Sora 2 kan in praktische termen meerdere audiolagen genereren:

  • Gesynchroniseerde dialogen — spraak die overeenkomt met lipbeweging en timing van personages in beeld.
  • Geluidseffecten (SFX) — fysiek plausibele geluiden (voetstappen, dichtslaande deuren, impacts van objecten) gekoppeld aan gebeurtenissen.
  • Ambient en omgevingsaudio — roomtone, gemurmel van een menigte, weer (regen, wind) dat voor immersie zorgt.
  • Muzikale cues — korte muzikale stingers of achtergrondloops ter ondersteuning van de sfeer (let op: licentie- en stijlbeperkingen kunnen van toepassing zijn).
  • Gelaagde mix — Sora 2 kan een eenvoudige mix van deze elementen produceren; voor complexe mixing kun je stems exporteren en verfijnen in een DAW.

3 cruciale audiomogelijkheden die ertoe doen

Hieronder staan de drie audiomogelijkheden met hoge impact die mijn workflow veranderden toen ik Sora 2 begon te testen (en die je zou moeten evalueren bij het kiezen van een AI-videotool).

1) Gesynchroniseerde spraak en lip-synchronisatie

Wat het doet: Genereert spraak die temporeel is afgestemd op gegenereerde gezichten of geanimeerde mondvormen. Dit is geen lip-sync als aparte nabewerking; het is ingebakken in de generatiestap zodat timing en prosodie overeenkomen met de visuals.

Waarom het belangrijk is: Het bespaart uren handmatige synchronisatie en maakt korte narratieve of dialooggebaseerde stukken mogelijk zonder acteurs op te nemen. Use-cases: product micro-ads, instructieve clips, social media-cameo’s en snelle prototyping van scènes die leunen op punchlines in dialogen.

2) Contextuele, fysisch-consistente geluidseffecten

Wat het doet: Produceert SFX gekoppeld aan fysica in beeld: een kopje tikt tegen een tafel wanneer de scène laat zien dat het beweegt, voetstappen hebben passende nagalm voor de omgeving, deuren kraken met correcte timing.

Waarom het belangrijk is: Dit voegt immersie en emotionele cues toe (een plotselinge dreun kan doen schrikken, subtiele roomtone maakt een scène groter). Voor branding en advertenties reduceert fysiek consistente SFX het onheimelijke gevoel van synthetische content en verhoogt het de gepercipieerde productiewaarde.

3) Consistentie over meerdere shots met audiocontinuïteit

Wat het doet: Bij het genereren van een sequentie van shots of het samenvoegen van clips probeert Sora 2 consistente audio-eigenschappen te behouden (dezelfde nagalm, dezelfde stemtimbre voor terugkerende personages, consistente omgevingsruis).

Waarom het belangrijk is: Narratieve coherentie over cuts is essentieel, zelfs voor kortere storytelling. Eerder moesten makers handmatig EQ en roomtone over clips matchen; nu probeert de tool continuïteit te behouden, wat de montage versnelt en de afwerkingstijd reduceert.

Hoe krijg ik toegang tot Sora 2?

Sora 2 is op twee manieren beschikbaar:

  1. De Sora-app / webapp — OpenAI kondigde Sora 2 aan samen met een Sora-app waarmee gebruikers direct video’s kunnen maken zonder code te schrijven. Beschikbaarheid is gefaseerd per regio en via app stores/open-access vensters; recente berichtgeving toont tijdelijk bredere toegang in sommige landen (VS, Canada, Japan, Zuid-Korea), maar met kanttekeningen en quota.
  2. De OpenAI Video API (modelnaam sora-2 of sora-2-pro) — ontwikkelaars kunnen de Video generation API aanroepen met sora-2 of sora-2-pro; de platformdocumentatie vermeldt toegestane parameters (prompt, seconds, size, input references). sora-2 is gepositioneerd voor snelheid en iteratie, terwijl sora-2-pro zich richt op hogere fideliteit en complexere scènes. Als je al een OpenAI-account en API-toegang hebt, laten de docs zien hoe je verzoeken structureert.

CometAPI biedt dezelfde interface voor Sora 2 API-calls en endpoints, en de API-prijs is goedkoper dan die van OpenAI.

Voorbeeld: genereer een video met gesynchroniseerde audio via curl (minimaal)

The v1/videos endpoint accepts model=sora-2 (or sora-2-pro). Here’s a simple example using the documented multipart/form-data style:

curl https://api.cometapi.com/v1/videos \  -H "Authorization: Bearer $OPENAI_API_KEY" \  -F "model=sora-2" \  -F "prompt=A calico cat playing a piano on stage. Audio: single speaker narrator says 'At last, the show begins'. Add applause and piano sustain after the final chord." \  -F "seconds=8" \  -F "size=1280x720"

Deze aanvraag maakt een videojob die, wanneer voltooid, een MP4 oplevert met een ingevoegde audiotrack (de API retourneert een job-id en een download-URL wanneer gereed).

Prijs van Sora 2 API via CometAPI

Sora-2Per seconde:$0.08
Sora-2-proPer seconde:$0.24

Hoe gebruik je de audiotools van Sora 2?

Deze sectie is een praktische walkthrough: van prompts tot API-calls tot editing-workflows.

Een snelle workflow voor het maken van een video met audio

  1. Definieer je creatieve briefing. Bepaal de scène, personages, dialogen, sfeer en of je muziek wilt of alleen diegetisch geluid.
  2. Schrijf een prompt die audio-cues bevat. Geef expliciet aan wie spreekt, hoe ze spreken (toon, tempo) en welke SFX of ambiance je wilt.
  3. Genereer een korte clip (10–30 seconden). Sora 2 is afgestemd op korte, filmische clips; langere narratieve sequenties zijn mogelijk via workflows met meerdere shots/samenvoegen, maar kunnen iteratie nodig hebben.
  4. Beoordeel audiovisuele synchronisatie. Als lip-sync of geluid niet klopt, verfijn de prompt (toon, timing) en genereer opnieuw.
  5. Exporteer stems of een gemixte track. Indien ondersteund door de UI/API, exporteer audiostems (dialoog, SFX, ambient) voor precieze mixing. Exporteer anders de gemixte clip en verfijn extern.

Bepaal of je “one-step” video+audio wilt of een afzonderlijk audio-asset

Sora 2 blinkt uit wanneer je één stap wilt: prompt → video (inclusief audio). Gebruik daarvoor de video-endpoint (v1/videos). Als je fijne controle wilt over stemtimbre, prosodie, of je van plan bent de stemaudio te hergebruiken over meerdere video’s, kun je spraak apart genereren met de /v1/audio/speech-endpoint en vervolgens:

  • Sora vragen om een gegenereerde video te remixen of te bewerken om die geüploade audio op te nemen (waar ondersteund), of
  • de aparte audio gebruiken als vervangingslaag in een traditionele NLE (Final Cut, Premiere) na het downloaden van beide assets. De platformdocumentatie vermeldt zowel de video- als de speech-endpoints als kernbouwstenen.

Prompt-engineering: instrueer het model expliciet over audio

Behandel audio als een vereist onderdeel van de scènebeschrijving. Plaats audio-instructies in dezelfde prompt die je gebruikt om beweging en visuals te beschrijven. Voorbeeldstructuur:

  • Scènebeschrijving (visueel): korte, high-level story beats.
  • Audio-instructies (expliciet): aantal sprekers, kanttekeningen over toon, en sounddesign-cues.
  • Mix-hints (optioneel): “voorgronddialoog, achtergrondambiance, cameraperspectief.”

Voorbeeldprompt voor een clip van 12 seconden (kopieer & pas aan):

A rainy evening on a narrow city alley. A woman in a red coat hurries across the wet cobblestones toward a flickering neon sign.Audio: Two speakers. Speaker A (woman) breathes slightly, hurried; Speaker B (offscreen street vendor) calls out once. Add steady rain on roof, distant car, and a clattering of an empty can when she kicks it. Dialogue: Speaker A: "I'm late. I can't believe I missed it."Speaker B (muffled, one line): "You better run!"Style: cinematic, short depth of field, close-up when she speaks; audio synced to lip movement, naturalistic reverb.

Plaats de audiocues na de visuele cue in de prompt; die ordening levert in de praktijk vaak duidelijkere resultaten op omdat het model geluid aan beschreven gebeurtenissen koppelt.

Voorbeeld: gebruik de officiële SDK (Node.js) om een video te maken

import OpenAI from "openai";const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });​const video = await openai.videos.create({  model: "sora-2",  prompt: `A friendly robot waters plants on a balcony at sunrise. Audio: soft morning birds, one speaker voiceover says "Good morning, little world." Include distant city ambience. Style: gentle, warm.`,  seconds: "8",  size: "1280x720"});​// Poll job status, then download result when completed (see docs).console.log("Video job created:", video.id);

Genereer een aparte voice-over met /v1/audio/speech (optionele geavanceerde stap)

Als je een consistente vertellersstem nodig hebt of stemmen wilt uitproberen, genereer spraak apart en bewaar die als asset:

curl https://api.openai.com/v1/audio/speech \  -H "Authorization: Bearer $OPENAI_API_KEY" \  -H "Content-Type: application/json" \  -d '{    "model":"gpt-speech-1",    "voice":"alloy",    "input":"Welcome to our product demo. Today we show fast AI video generation."  }' --output narration.mp3

Je kunt narration.mp3 vervolgens importeren in je videobewerker of (waar ondersteund) uploaden als inputreferentie voor een remix-flow.

Opmerking: De primaire videoworkflow van Sora 2 genereert audio voor je; aparte spraak is voor gebruikssituaties die een specifieke stem of extern hergebruik nodig hebben.

Remixen en gerichte bewerkingen

Sora 2 ondersteunt remix-semantieken: je kunt een videojob maken en vervolgens gerichte bewerkingen indienen (bijv. achtergrond wijzigen, een scène verlengen) via een remix- of edit-endpoint. Instrueer het model bij het remixen ook over audiowijzigingen: “vervang muziek door spaarzame piano; behoud dialoog identiek maar verplaats een zin naar 2,5s.” Deze bewerkingen zijn ideaal voor iteratieve workflows waarbij je strakke controle over timing wilt zonder de scène vanaf nul op te bouwen.

Wat zijn best practices en tips voor probleemoplossing?

Best practices

  • Begin kort: render 4–8 seconden clips om snel te itereren; langere clips vergen meer compute en zijn lastiger om op te itereren.
  • Wees expliciet met timecodes: [SFX: door_close @00:01] presteert veel beter dan “voeg een deur dicht toe.”
  • Scheid visuele en audio-instructies duidelijk: plaats camera- en visuele instructies op andere regels dan audio-instructies zodat het model ze schoon kan parsen.
  • Gebruik referentie-audio voor kenmerkende sounds: als een personage of merk een kenmerkende stem of jingle heeft, upload een korte sample en verwijs naar het ID.
  • Mix na de render als je precieze controle nodig hebt: als Sora 2 je 90% op weg helpt, exporteer de audiostems en maak af in een DAW voor mastering.

Veelvoorkomende problemen oplossen

  • Lip-synchronisatie klopt niet: Maak je dialoogcues preciezer (expliciete start-/eindtijden) en vereenvoudig achtergrondgeluid; sterke ambiance kan timing van dialoog maskeren of wegduwen.
  • Gedempt of overdreven galmende audio: neem “dry” versus “room”-instructies op in je prompt (bijv. “droge stem, minimale nagalm”).
  • SFX te luid of ondergesneeuwd: vraag om relatieve verhoudingen zoals “SFX: zachte door_close” of “dialoog 3 dB luider dan ambiance.”
  • Ongewenste artefacten: probeer opnieuw te renderen met een iets andere promptformulering; het model produceert soms schonere audio bij alternatieve woordkeuze.

Praktische creatieve recepten (3 korte recepten om te kopiëren)

Recept A — Sociale micro-advertentie (7–12s): productonthulling + één regel dialoog

Prompt:

7s, studio product shot: small espresso machine on counter. Visual: slow 3/4 pan in. Dialogue: "Perfect crema, every time." Voice: confident, friendly, male, medium tempo. SFX: steam release at 0:04, small metallic click at 0:06. Ambient: low cafe murmur.

Waarom dit werkt: Een korte vocale hook + een branded SFX (stoom) creëert direct een zintuiglijke associatie. Gebruik de gemixte export om je merkjingle indien nodig in post toe te voegen.

Recept B — Instructieve snippet (10s): snelle how-to met stap-audio

Prompt:

10s, overhead kitchen shot. Visual: hands sprinkle salt into a bowl, then whisk. Audio: step narration (female, calm): "One pinch of sea salt." SFX: salt sprinkle sound at start, whisking texture under narration. Ambient: quiet kitchen.

Waarom dit werkt: Het combineren van diegetische SFX (zout, klopper) met instructieve voice-over maakt de content makkelijker te volgen en te hergebruiken over kanalen.

Recept C — Moment van spanning (6s): filmische sting + omgeving

Prompt:

6s, alleway at dusk. Visual: quick low-angle shot of a bicyclist’s tire skidding. Audio: sudden metallic screech at 00:02 synced to skid, heartbeat-like low bass underlay, distant thunder. No dialogue.

Waarom dit werkt: Korte spanningsmomenten leunen op scherpe SFX en laagfrequente cues om emotie te triggeren; de fysica-bewuste SFX van Sora 2 kan dat effect versnellen.

Wanneer je Sora 2 niet alleen moet gebruiken

  • Langvormige narratieve productie met complexe dialogen en mixes over meerdere scènes profiteert nog steeds van menselijke acteurs en geavanceerd sounddesign.
  • Strikte juridische/compliance-contexten (bewijs, juridische procedures) — synthetische media is geen vervanging voor geauthenticeerde opnames.

Tot slot

De geïntegreerde audiomogelijkheden van Sora 2 veranderen de typische videocreatie-workflow door gesynchroniseerde dialogen, omgevingsgeluid en referentiegebaseerde personalisatie van stemmen tot first-class generatie-uitvoer te maken in plaats van add-ons voor postproductie. Voor makers en ontwikkelaars komen de beste resultaten voort uit zorgvuldige planning (gelaagd audiodenken), duidelijke, met timecodes voorziene prompts, en iteratie met korte testrenders.

Om te beginnen: verken de mogelijkheden van Sora-2-modellen(Sora, Sora2-pro ) in de Playground en raadpleeg de API guide voor gedetailleerde instructies. Zorg er vóór toegang voor dat je bent ingelogd bij CometAPI en de API-sleutel hebt verkregen. CometAPI biedt een prijs die veel lager is dan de officiële prijs om je te helpen integreren.

Klaar om te gaan?→ Gratis proef van sora-2-modellen !

SHARE THIS BLOG

500+ modellen in één API

Tot 20% korting