Bagaimana cara membuat video menggunakan alat audio Sora-2?

CometAPI
AnnaDec 14, 2025
Bagaimana cara membuat video menggunakan alat audio Sora-2?

Sora 2 — model teks-ke-video generasi kedua dari OpenAI — tidak hanya mendorong realisme visual; ia memperlakukan audio sebagai komponen kelas satu. Bagi kreator, pemasar, pendidik, dan sineas indie yang menginginkan video AI pendek yang emosional dan menarik, Sora 2 meruntuhkan pipa kerja audio/video yang sebelumnya multi-langkah menjadi satu alur kerja yang dapat diprompt.

Apa itu audio di Sora 2?

Audio di Sora 2 terintegrasi dengan pembuatan video, bukan sekadar dipikirkan belakangan. Alih-alih membuat video terlebih dahulu lalu menumpuk voice-over, musik, dan efek suara yang diproduksi terpisah, Sora 2 menghasilkan dialog tersinkron, suara ambien, dan efek yang ditentukan saat prompt dan diselaraskan dengan aksi di layar (gerak bibir, gerak objek, benturan fisik). Pendekatan terintegrasi ini adalah salah satu kemajuan utama yang diumumkan OpenAI saat Sora 2 diluncurkan: model mensimulasikan visual dan audio secara bersamaan untuk meningkatkan realisme dan koherensi penceritaan.

Mengapa itu penting: sebelumnya kreator membuat visual lalu secara terpisah mencari, mengedit, dan menyelaraskan audio. Sora 2 bertujuan menggabungkan langkah-langkah tersebut agar audio cocok dengan dinamika adegan sejak render pertama — meningkatkan realisme dan menghemat waktu pengeditan.

Bentuk audio apa yang dihasilkan Sora 2?

Secara praktis, Sora 2 dapat menghasilkan beberapa lapisan audio:

  • Dialog tersinkron — ucapan yang cocok dengan gerak bibir dan waktu karakter di layar.
  • Efek suara (SFX) — suara yang secara fisik masuk akal (langkah kaki, pintu dibanting, benturan objek) yang terikat dengan kejadian.
  • Audio ambien dan lingkungan — dengung ruangan, gumaman kerumunan, cuaca (hujan, angin) yang menciptakan imersi.
  • Isyarat musik — stinger musik pendek atau loop latar untuk mendukung suasana (catatan: batasan lisensi dan gaya mungkin berlaku).
  • Campuran berlapis — Sora 2 dapat menghasilkan campuran sederhana dari elemen-elemen ini; untuk mixing kompleks Anda bisa mengekspor stem dan menyempurnakannya di DAW.

3 kemampuan audio kunci yang penting

Berikut tiga kemampuan audio berimpak tinggi yang mengubah alur kerja saya saat mulai menguji Sora 2 (dan yang sebaiknya Anda evaluasi saat memilih alat video AI).

1) Ucapan Tersinkron dan Lip-sync

Apa yang dilakukannya: Menghasilkan ucapan yang selaras secara temporal dengan wajah yang dihasilkan atau bentuk mulut yang dianimasikan. Ini bukan lip-sync sebagai proses pascaproduksi terpisah; ini terintegrasi dalam langkah generasi sehingga timing dan prozodi cocok dengan visual.

Mengapa itu penting: Menghemat berjam-jam sinkronisasi manual dan memungkinkan karya naratif pendek atau berbasis dialog tanpa merekam aktor. Kasus penggunaan: iklan mikro produk, klip instruksional, cameo media sosial, dan prototipe cepat adegan yang mengandalkan punchline dialogis.

2) Efek Suara Kontekstual yang Peka terhadap Fisika

Apa yang dilakukannya: Menghasilkan SFX yang terikat pada fisika di layar: sebuah cangkir berbunyi beradu di meja ketika adegan menampilkan pergerakannya, langkah kaki memiliki reverberasi yang sesuai dengan lingkungan, pintu berderit dengan timing yang benar.

Mengapa itu penting: Ini menambah imersi dan penanda emosional (dentuman tiba-tiba bisa mengejutkan, tone ruangan yang halus membuat adegan terasa lebih besar). Untuk branding dan iklan, SFX yang konsisten secara fisik mengurangi rasa aneh dari konten sintetis dan meningkatkan nilai produksi yang dirasakan.

3) Konsistensi Multi-shot dengan Kontinuitas Audio

Apa yang dilakukannya: Saat menghasilkan rangkaian shot atau menyambung klip, Sora 2 berupaya mempertahankan karakteristik audio yang konsisten (reverb yang sama, timbre suara yang sama untuk karakter berulang, kebisingan ambien yang konsisten).

Mengapa itu penting: Koherensi naratif antar potongan esensial bahkan untuk penceritaan bentuk pendek. Sebelumnya, kreator harus mencocokkan EQ dan tone ruangan antar klip secara manual; kini alat mencoba menjaga kontinuitas, yang mempercepat proses pengeditan dan mengurangi waktu pemolesan.

Bagaimana cara mengakses Sora 2?

Sora 2 tersedia dalam dua cara utama:

  1. Aplikasi Sora / aplikasi web — OpenAI mengumumkan Sora 2 bersamaan dengan aplikasi Sora yang memungkinkan pengguna membuat video langsung tanpa menulis kode. Ketersediaan ditahapkan per wilayah dan melalui toko aplikasi/jendela akses terbuka; laporan terbaru menunjukkan akses lebih luas sementara di beberapa negara (AS, Kanada, Jepang, Korea Selatan) namun dengan catatan dan kuota.
  2. OpenAI Video API (nama model sora-2 atau sora-2-pro) — pengembang dapat memanggil Video generation API dengan sora-2 atau sora-2-pro; dokumentasi platform mencantumkan parameter yang diizinkan (prompt, seconds, size, input references). sora-2 diposisikan untuk kecepatan dan iterasi, sementara sora-2-pro menargetkan fidelitas lebih tinggi dan adegan yang lebih kompleks. Jika Anda sudah memiliki akun OpenAI dan akses API, dokumen menunjukkan cara menyusun permintaan.

CometAPI menyediakan antarmuka pemanggilan API dan endpoint Sora 2 yang sama, dan harga API-nya lebih murah daripada milik OpenAI.

Contoh: menghasilkan video dengan audio tersinkron lewat curl (minimal)

Endpoint v1/videos menerima model=sora-2 (atau sora-2-pro). Berikut contoh sederhana menggunakan gaya multipart/form-data yang didokumentasikan:

curl https://api.cometapi.com/v1/videos \  -H "Authorization: Bearer $OPENAI_API_KEY" \  -F "model=sora-2" \  -F "prompt=A calico cat playing a piano on stage. Audio: single speaker narrator says 'At last, the show begins'. Add applause and piano sustain after the final chord." \  -F "seconds=8" \  -F "size=1280x720"

Permintaan ini membuat sebuah pekerjaan video yang, ketika selesai, menghasilkan sebuah MP4 dengan trek audio yang sudah tertanam (API mengembalikan id job dan URL unduhan saat siap).

Harga API Sora 2 melalui CometAPI

Sora-2Per detik:$0.08
Sora-2-proPer detik:$0.24

Bagaimana cara menggunakan alat audio Sora 2?

Bagian ini adalah panduan praktis: dari prompt hingga panggilan API hingga alur pengeditan.

Alur cepat untuk membuat video dengan audio

  1. Tentukan brief kreatif Anda. Putuskan adegan, karakter, dialog, suasana, dan apakah Anda menginginkan musik atau hanya suara diegetik.
  2. Tulis prompt yang menyertakan isyarat audio. Nyatakan secara eksplisit siapa yang berbicara, bagaimana mereka berbicara (nada, tempo), dan SFX atau ambiens apa yang Anda inginkan.
  3. Buat klip pendek (10–30 detik). Sora 2 disetel untuk klip sinematik pendek; rangkaian naratif yang lebih panjang dimungkinkan melalui alur multi-shot/penyambungan namun mungkin memerlukan iterasi.
  4. Tinjau sinkronisasi audio-visual. Jika lip-sync atau suaranya tidak tepat, perbaiki prompt (nada, timing) dan hasilkan ulang.
  5. Ekspor stem atau trek campuran. Jika didukung oleh UI/API, ekspor stem audio (dialog, SFX, ambien) untuk mixing presisi. Jika tidak, ekspor klip campuran dan sempurnakan secara eksternal.

Tentukan apakah Anda menginginkan video+audio “satu langkah” atau aset audio terpisah

Sora 2 unggul saat Anda menginginkan satu langkah: prompt → video (termasuk audio). Gunakan endpoint video (v1/videos) untuk itu. Jika Anda menginginkan kontrol halus atas timbre suara, prozodi, atau berencana menggunakan kembali audio suara di beberapa video, Anda dapat secara terpisah menghasilkan ucapan dengan endpoint /v1/audio/speech lalu:

  • minta Sora untuk me-remix atau mengedit video yang dihasilkan untuk menyertakan audio yang diunggah tersebut (jika didukung), atau
  • gunakan audio terpisah sebagai lapisan pengganti di NLE tradisional (Final Cut, Premiere) setelah mengunduh kedua aset. Dokumen platform mencantumkan kedua endpoint video dan speech sebagai blok bangunan inti.

Rekayasa prompt: instruksikan model tentang audio secara eksplisit

Perlakukan audio sebagai bagian wajib dari deskripsi adegan. Masukkan instruksi audio ke prompt yang sama yang Anda gunakan untuk menggambarkan gerak dan visual. Struktur contoh:

  • Deskripsi adegan (visual): beat cerita tingkat tinggi yang singkat.
  • Instruksi audio (eksplisit): jumlah pembicara, catatan samping tentang nada, dan isyarat desain suara.
  • Petunjuk mixing (opsional): “dialog di depan, ambiens di belakang, perspektif kamera.”

Contoh prompt untuk klip 12 detik (salin & adaptasi):

A rainy evening on a narrow city alley. A woman in a red coat hurries across the wet cobblestones toward a flickering neon sign.Audio: Two speakers. Speaker A (woman) breathes slightly, hurried; Speaker B (offscreen street vendor) calls out once. Add steady rain on roof, distant car, and a clattering of an empty can when she kicks it. Dialogue: Speaker A: "I'm late. I can't believe I missed it."Speaker B (muffled, one line): "You better run!"Style: cinematic, short depth of field, close-up when she speaks; audio synced to lip movement, naturalistic reverb.

Letakkan isyarat audio setelah isyarat visual di dalam prompt; pengurutan itu cenderung menghasilkan hasil yang lebih jelas dalam praktik karena model mengaitkan suara dengan peristiwa yang dideskripsikan.

Contoh: gunakan SDK resmi (Node.js) untuk membuat video

import OpenAI from "openai";const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });​const video = await openai.videos.create({  model: "sora-2",  prompt: `A friendly robot waters plants on a balcony at sunrise. Audio: soft morning birds, one speaker voiceover says "Good morning, little world." Include distant city ambience. Style: gentle, warm.`,  seconds: "8",  size: "1280x720"});​// Poll job status, then download result when completed (see docs).console.log("Video job created:", video.id);

Hasilkan narasi terpisah dengan /v1/audio/speech (langkah lanjutan opsional)

Jika Anda memerlukan suara narator yang konsisten atau ingin menguji beberapa suara, hasilkan ucapan secara terpisah dan simpan sebagai aset:

curl https://api.openai.com/v1/audio/speech \  -H "Authorization: Bearer $OPENAI_API_KEY" \  -H "Content-Type: application/json" \  -d '{    "model":"gpt-speech-1",    "voice":"alloy",    "input":"Welcome to our product demo. Today we show fast AI video generation."  }' --output narration.mp3

Anda kemudian dapat mengimpor narration.mp3 ke editor video Anda atau (jika didukung) mengunggahnya sebagai referensi input untuk alur remix.

Catatan: alur kerja video utama Sora 2 akan menghasilkan audio untuk Anda; ucapan terpisah ditujukan untuk kasus yang memerlukan suara tertentu atau penggunaan ulang eksternal.

Remix dan edit terarah

Sora 2 mendukung semantik remix: Anda dapat membuat sebuah pekerjaan video lalu mengajukan edit terarah (misalnya mengubah latar belakang, memperpanjang adegan) melalui endpoint remix atau edit. Saat melakukan remix, instruksikan model tentang perubahan audio juga: “ganti musik dengan piano yang jarang; pertahankan dialog identik tetapi pindahkan satu baris ke 2,5 dtk.” Edit ini paling cocok untuk alur iteratif ketika Anda menginginkan kontrol ketat atas timing tanpa membangun ulang adegan dari awal.

Apa praktik terbaik dan kiat pemecahan masalah?

Praktik terbaik

  • Mulai pendek: render klip 4–8 detik untuk iterasi cepat; klip lebih panjang memerlukan komputasi lebih dan lebih sulit diiterasi.
  • Jelaskan dengan timecode: [SFX: door_close @00:01] jauh lebih baik daripada “tolong tambahkan suara pintu tertutup.”
  • Pisahkan arahan visual dan audio dengan jelas: letakkan instruksi kamera dan visual pada baris berbeda dari instruksi audio agar model dapat memparsenya dengan bersih.
  • Gunakan audio referensi untuk suara khas: jika karakter atau merek memiliki suara khas atau jingle, unggah sampel pendek dan referensikan ID-nya.
  • Lakukan mixing pasca-render jika Anda memerlukan kontrol presisi: jika Sora 2 membawa Anda 90% jalan, ekspor stem audio dan selesaikan di DAW untuk mastering.

Pemecahan masalah umum

  • Lip-sync meleset: buat isyarat dialog Anda lebih presisi (waktu mulai/akhir eksplisit) dan sederhanakan kebisingan latar; ambiens yang kuat dapat menutupi atau mendorong timing dialog.
  • Audio mendem atau terlalu bergema: sertakan instruksi “dry” vs “room” dalam prompt Anda (misalnya, “suara dry, reverb minimal”).
  • SFX terlalu keras atau tenggelam: minta keseimbangan relatif seperti “SFX: soft door_close” atau “dialog 3dB lebih keras dari ambiens.”
  • Artefak yang tidak diinginkan: coba render ulang dengan perumusan prompt yang sedikit berbeda; terkadang model menghasilkan audio lebih bersih untuk susunan kata alternatif.

Resep kreatif praktis (3 resep pendek yang bisa Anda salin)

Resep A — Iklan mikro sosial (7–12s): pengungkapan produk + satu baris dialog

Prompt:

7s, studio product shot: small espresso machine on counter. Visual: slow 3/4 pan in. Dialogue: "Perfect crema, every time." Voice: confident, friendly, male, medium tempo. SFX: steam release at 0:04, small metallic click at 0:06. Ambient: low cafe murmur.

Mengapa berhasil: Hook vokal pendek + SFX bermerek (uap) menciptakan asosiasi sensorik yang segera. Gunakan ekspor campuran untuk menambahkan jingle merek Anda di tahap akhir jika diperlukan.

Resep B — Cuplikan instruksional (10s): cara cepat dengan audio langkah

Prompt:

10s, overhead kitchen shot. Visual: hands sprinkle salt into a bowl, then whisk. Audio: step narration (female, calm): "One pinch of sea salt." SFX: salt sprinkle sound at start, whisking texture under narration. Ambient: quiet kitchen.

Mengapa berhasil: Menggabungkan SFX diegetik (garam, pengocok) dengan suara instruksional membuat konten lebih mudah diikuti dan digunakan ulang lintas kanal.

Resep C — Momen ketegangan (6s): sting sinematik + lingkungan

Prompt:

6s, alleway at dusk. Visual: quick low-angle shot of a bicyclist’s tire skidding. Audio: sudden metallic screech at 00:02 synced to skid, heartbeat-like low bass underlay, distant thunder. No dialogue.

Mengapa berhasil: Momen ketegangan pendek bergantung pada SFX yang tajam dan isyarat frekuensi rendah untuk memicu emosi; SFX peka fisika milik Sora 2 dapat mempercepat efek tersebut.

Kapan tidak menggunakan Sora 2 saja

  • Produksi naratif longform dengan dialog kompleks dan campuran multi-adegan masih mendapatkan manfaat dari aktor manusia dan desain suara tingkat lanjut.
  • Konteks legal/kepatuhan yang ketat (barang bukti, proses hukum) — media sintetis bukan pengganti rekaman yang diautentikasi.

Penutup

Kemampuan audio terintegrasi Sora 2 mengubah alur kerja pembuatan video tipikal dengan menjadikan dialog tersinkron, suara lingkungan, dan personalisasi suara berbasis referensi sebagai keluaran generasi kelas satu, bukan tambahan pascaproduksi. Bagi kreator dan pengembang, hasil terbaik datang dari perencanaan yang cermat (pemikiran audio berlapis), prompt yang jelas dengan timecode, dan iterasi dengan render uji pendek.

Untuk memulai, jelajahi kapabilitas model Sora-2 (Sora, Sora2-pro) di Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah login ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda berintegrasi.

Ready to Go?→ Uji coba gratis model sora-2 !

Siap memangkas biaya pengembangan AI hingga 20%?

Mulai gratis dalam beberapa menit. Kredit uji coba gratis disertakan. Tidak perlu kartu kredit.

Baca Selengkapnya