- Singkatnya: belum. Setahu saya, keluaran standar Veo 3.1 adalah video tanpa audio. Anda perlu menambahkan musik, voice-over, dan efek suara di tahap pascaproduksi menggunakan alat terpisah. Jika ada demo pihak ketiga yang menampilkan audio, biasanya itu audio yang ditambahkan, bukan dihasilkan Veo. Cara menggunakan secara profesional: - Tetapkan brief yang jelas: tujuan, gaya visual, durasi, aspect ratio, fps, batasan merek, target platform. - Susun prompt terstruktur: [subjek] + [aksi] + [lingkungan] + [gerakan kamera] + [pencahayaan] + [palet/era] + [kualitas] + [batasan/hal yang dihindari]; sertakan referensi gambar/video dan seed untuk konsistensi. - Kontrol kontinuitas: gunakan storyboard/shot list, referensi karakter/kostum/props, dan konsistenkan framing antar shot. - Iterasi terarah: hasilkan beberapa variasi, beri nama versi dengan rapi, catat prompt/seed/parameter setiap percobaan. - Pascaproduksi: edit di NLE (cut, stabilisasi, denoise, retime), grading warna, upscaling bila perlu; tambahkan VO/TTS, musik berlisensi, dan SFX/foley di DAW; sinkronkan transisi dan beat. - Kepatuhan & hak: cek lisensi penggunaan komersial, kebijakan konten, izin wajah/lokasi, hindari peniruan artis hidup; pastikan hak musik/VO/SFX bersih. - QC sebelum rilis: periksa artefak (jitter, anatomi, teks), konsistensi kontinuitas, ketepatan merek; uji pemutaran di perangkat/kanal target. - Ekspor sesuai spesifikasi platform: resolusi, fps, bitrate, codec, loudness audio; siapkan versi dengan caption/subtitle untuk aksesibilitas. - Operasional: sistem penamaan aset, metadata (prompt/seed), kontrol versi, backup, dan jalur persetujuan internal.

CometAPI
AnnaDec 26, 2025
- Singkatnya: belum. Setahu saya, keluaran standar Veo 3.1 adalah video tanpa audio. Anda perlu menambahkan musik, voice-over, dan efek suara di tahap pascaproduksi menggunakan alat terpisah. Jika ada demo pihak ketiga yang menampilkan audio, biasanya itu audio yang ditambahkan, bukan dihasilkan Veo.

Cara menggunakan secara profesional:
- Tetapkan brief yang jelas: tujuan, gaya visual, durasi, aspect ratio, fps, batasan merek, target platform.
- Susun prompt terstruktur: [subjek] + [aksi] + [lingkungan] + [gerakan kamera] + [pencahayaan] + [palet/era] + [kualitas] + [batasan/hal yang dihindari]; sertakan referensi gambar/video dan seed untuk konsistensi.
- Kontrol kontinuitas: gunakan storyboard/shot list, referensi karakter/kostum/props, dan konsistenkan framing antar shot.
- Iterasi terarah: hasilkan beberapa variasi, beri nama versi dengan rapi, catat prompt/seed/parameter setiap percobaan.
- Pascaproduksi: edit di NLE (cut, stabilisasi, denoise, retime), grading warna, upscaling bila perlu; tambahkan VO/TTS, musik berlisensi, dan SFX/foley di DAW; sinkronkan transisi dan beat.
- Kepatuhan & hak: cek lisensi penggunaan komersial, kebijakan konten, izin wajah/lokasi, hindari peniruan artis hidup; pastikan hak musik/VO/SFX bersih.
- QC sebelum rilis: periksa artefak (jitter, anatomi, teks), konsistensi kontinuitas, ketepatan merek; uji pemutaran di perangkat/kanal target.
- Ekspor sesuai spesifikasi platform: resolusi, fps, bitrate, codec, loudness audio; siapkan versi dengan caption/subtitle untuk aksesibilitas.
- Operasional: sistem penamaan aset, metadata (prompt/seed), kontrol versi, backup, dan jalur persetujuan internal.

Veo 3.1 secara native menghasilkan audio tersinkron bersama video saat Anda memanggil endpoint Gemini/Vertex (Veo) — Anda mengendalikan audio melalui prompt teks (isyarat audio, dialog, SFX, ambience) dan job generasi yang sama mengembalikan sebuah MP4 yang dapat diunduh. Jika Anda lebih menyukai satu API terpadu yang menggabungkan banyak penyedia, CometAPI juga menawarkan akses ke Veo 3.1 (Anda memanggil CometAPI dengan kunci Comet Anda dan meminta veo3.1/veo3.1-pro). Rilis ini diposisikan sebagai pesaing langsung model media lain (misalnya Sora 2 dari OpenAI), dengan peningkatan yang berfokus pada realisme audio, kontrol naratif, dan kontinuitas multi-shot.

Apa itu Veo 3.1?

Veo 3.1 adalah iterasi terbaru Google dari keluarga model teks-dan-gambar→video Veo. Dibandingkan rilis Veo sebelumnya, Veo 3.1 secara khusus menonjolkan pembuatan audio native — artinya model menghasilkan dialog tersinkron, ambience, efek suara, dan isyarat musik sebagai bagian dari output video alih-alih memerlukan langkah text-to-speech terpisah atau pascaproduksi. Model ini juga menghadirkan kontrol naratif baru (gambar referensi, transisi bingkai pertama-dan-terakhir, dan fitur perluasan adegan) yang ditujukan untuk membuat cerita multi-shot lebih koheren.

Mengapa itu penting: audio adalah cara penonton menafsirkan ruang, emosi, timing, dan kausalitas. Pembuatan audio native (dialog yang selaras dengan gerak bibir, SFX yang ditata sesuai kejadian visual, dan atmosfer latar yang cocok dengan geografi adegan) mengurangi pekerjaan manual untuk membuat klip terasa “nyata” dan memungkinkan kreator beriterasi lebih cepat pada cerita dan suasana.

Apakah Veo 3.1 dapat menghasilkan audio — dan jenis audio apa yang dapat dibuat?

Bagaimana audio dihasilkan di dalam model?

Veo 3.1 memperlakukan audio sebagai modalitas output terintegrasi dalam pipeline pembuatan video. Alih-alih mengirim frame video ke mesin TTS atau Foley terpisah, proses generasi Veo memodelkan aliran audio dan visual secara bersama agar timing, isyarat akustik, dan kejadian visual tetap koheren. Pemodelan gabungan itulah yang memungkinkan percakapan, lanskap suara ambien, dan SFX tersinkron muncul selaras secara alami dengan imagery yang dihasilkan. “richer native audio” dan pembuatan suara tersinkron disebut sebagai peningkatan utama di 3.1.

Mengapa kapabilitas audio ini signifikan

Secara historis, banyak sistem text-to-video menghasilkan video bisu dan menyerahkan audio ke pipeline berikutnya. Veo 3.1 mengubah itu dengan menghasilkan audio dalam pass generasi yang sama — yang mengurangi upaya mixing manual, menegakkan sinkronisasi bibir yang lebih ketat untuk kalimat pendek, dan memungkinkan prompt mengendalikan peristiwa suara kausal (mis., “sebuah gelas pecah saat kamera bergerak ke kiri”). Ini memiliki implikasi besar untuk kecepatan produksi, desain iteratif, dan prototyping kreatif.

Jenis audio apa yang dapat dibuat Veo 3.1?

  • Dialog / tuturan — dialog multi-pembicara dengan timing yang sesuai bibir dan aksi.
  • Lanskap suara ambien — audio lingkungan (angin, lalu lintas, ambience ruangan) yang sesuai geografi adegan.
  • Efek suara (SFX) — hentakan, benturan, pintu, langkah kaki, dll., ditata sesuai kejadian visual.
  • Isyarat musik — motif musik pendek atau penegasan suasana yang cocok dengan tempo adegan.

Jenis-jenis audio ini dihasilkan secara native dan dipandu terutama oleh konten prompt, bukan parameter audio terpisah.

Batas teknis dan durasi

Secara default, Veo 3.1 direkayasa untuk klip pendek berkualitas tinggi (output berkualitas tinggi 8 detik untuk beberapa alur), namun model ini juga mendukung Scene Extension dan jembatan generasi (bingkai pertama→terakhir, memperluas dari detik terakhir) yang memungkinkan sekuens multi-klip berdurasi puluhan detik hingga satu menit atau lebih ketika dijahit melalui Scene Extension.

Cara menghasilkan audio dengan Veo 3.1 (langsung, via Google Gemini / Vertex)

Langkah 1: Prasyarat

  1. Akun Google dengan akses ke Gemini API / Vertex AI dan kunci API / kredensial yang valid (Veo 3.1 berada dalam paid preview untuk banyak jalur akses).
  2. Klien Google genai / Gemini atau endpoint REST yang telah disetel di lingkungan Anda (atau klien Vertex jika Anda lebih menyukai cloud console).

Langkah 2: Pilih model dan akses yang tepat

Gunakan veo-3.1-generate-preview (atau veo-3.1-fast bila prioritasnya kecepatan/biaya). String model ini muncul di contoh Google untuk akses pratinjau. Anda memerlukan kunci Gemini API / Google AI berbayar (atau akses melalui AI Studio / Vertex AI).


Langkah 3: Contoh Python — klien Gemini genai (direkomendasikan, salin/tempel)

Contoh ini menunjukkan bentuk pemanggilan terprogram (Python, klien google.genai). Ini mendemonstrasikan penyediaan prompt teks yang berisi instruksi audio.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Catatan: Berkas yang dikembalikan biasanya berupa MP4 yang menyertakan trek audio yang dihasilkan. Elemen kunci untuk kontrol audio di atas adalah instruksi audio deskriptif yang disematkan dalam prompt. Veo 3.1 merespons arahan audio dalam bahasa natural untuk menghasilkan trek audio tersinkron.

Langkah 3 — Menggunakan gambar referensi dan “Ingredients to video”

Untuk menjaga tampilan karakter dan isyarat akustik tetap konsisten, Anda dapat meneruskan hingga tiga gambar referensi yang digunakan Veo untuk mempertahankan gaya visual dan kontinuitas. Panggilan generasi yang sama mendukung reference_images=[...]. Ini direkomendasikan ketika Anda mengharapkan suara yang konsisten atau bunyi khas untuk suatu karakter (misalnya decit dari pintu yang berulang).

Langkah 4 — Memperluas adegan (Scene extension) dengan kontinuitas audio

Veo 3.1 mendukung “scene extension,” di mana klip baru dihasilkan dari detik terakhir klip sebelumnya untuk membuat sekuens lebih panjang — dan audio diperluas dengan cara yang mempertahankan kontinuitas (ambience latar, musik yang berjalan, dll.). Gunakan parameter video=video_to_extend dalam pemanggilan generate_videos.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Langkah 5 — Jembatan bingkai pertama & terakhir (dengan audio)

Jika Anda menginginkan transisi mulus antara dua bingkai (misalnya, memorfosis bidikan siang menjadi senja), sediakan image=first_frame dan last_frame=last_frame serta sertakan arahan audio di prompt. Veo akan menghasilkan bingkai transisi plus audio yang mencerminkan progresi visual. Veo biasanya mengembalikan satu trek audio campuran di dalam MP4.

Bagaimana cara menggunakan alat audio di Veo 3.1?

1) Apa yang dilakukan CometAPI dan mengapa menggunakannya

CometAPI memberi Anda satu endpoint REST bergaya OpenAI untuk mengakses banyak model (termasuk Veo dari Google). Ini berguna jika Anda menginginkan satu titik integrasi (penagihan, kuota, paritas SDK) dan tidak ingin mengelola banyak kunci vendor. Comet mendokumentasikan bahwa Veo 3.1 ditawarkan di antara model video mereka.

2) Alur dasar memanggil Veo 3.1 melalui CometAPI

  1. Daftar di CometAPI dan buat kunci API.
  2. Konfirmasi pengenal model yang tepat dalam katalog Comet ("Veo 3.1"/"veo3.1-pro").
  3. Gunakan endpoint bergaya OpenAI milik CometAPI (atau SDK mereka) dan setel field model ke nama model Veo. Comet akan meneruskan permintaan Anda ke Google atas nama Anda.

Veo3.1 Async Generation, API ini diimplementasikan melalui teknologi yang kami kembangkan sendiri dengan batasan berikut: Durasi video tetap 8 detik dan tidak dapat dikustomisasi
Silakan hubungi dukungan teknis jika Anda mengalami masalah

Contoh Permintaan

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Apa praktik terbaik untuk prompting yang peka audio dengan Veo 3.1?

Desain prompt untuk audio yang baik (apa yang perlu disertakan)

Gunakan “jalur audio” terstruktur dalam prompt. Blok minimum yang direkomendasikan:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Tips kunci: beri label jalur, tambahkan penanda waktu pendek (mis., at 1.6s), jelaskan delivery emosional & karakter suara (mis., “reverb lembut, serangan lambat”), dan jika Anda memerlukan panning stereo, anotasi L / R atau L→R. Iterasi adalah hal biasa — buat klip pendek (4–8 dtk), lalu perpanjang.

Struktur prompt dan nada

  • Gunakan jalur terstruktur: beri label blok “Ambience:”, “SFX:”, “Music:”, dan “Dialogue:”. Generator bekerja lebih baik dengan pola yang dapat diprediksi.
  • Spesifik soal timing: penanda waktu singkat (mis., “sfx: door slam at 1.6s”) membantu sinkronisasi ketat. Jika akurasi tingkat frame sangat penting, lakukan iterasi dan perbaikan.
  • Jelaskan karakter suara: alih-alih “synth”, katakan “soft pad dengan serangan lambat, nuansa 80 BPM” untuk mengarahkan mood musik.

Konsistensi visual → audio

Jika Anda menyediakan gambar referensi atau bingkai awal, sebutkan dari mana audio harus berasal (mis., “Ambience: kota teredam dari kiri, lebih dekat ke kamera; mobil lewat harus pan L→R”). Ini menghasilkan isyarat stereo yang lebih masuk akal dan lokalisasi sumber yang lebih terasa.

Alur iterasi

  1. Hasilkan klip pendek (4–8 dtk) dan evaluasi sinkronisasi audio.
  2. Jika Anda memerlukan narasi lebih panjang, gunakan Scene Extension untuk menumbuhkan klip sambil mempertahankan detik terakhir sebagai benih kontinuitas.
  3. Untuk konsistensi karakter (timbre suara, aksen), gunakan gambar referensi dan ulangi deskriptor suara antarklip. Pertimbangkan penggunaan “jangkar suara” tekstual singkat yang diulang (mis., “ALICE — aksen Mid-Atlantic lembut”) untuk menjaga suara stabil.

Catatan pascaproduksi

Veo memberi Anda MP4 awal dengan audio tersemat. Untuk mixing tingkat lanjut (stem multisaluran, stem dialog/musik terpisah), Anda mungkin tetap perlu mengekstrak dan menyusun ulang audio di DAW — Veo terutama untuk generasi berkas tunggal terintegrasi. Alur pihak ketiga sering menggabungkan Veo untuk generasi dasar dan pengeditan DAW untuk miks berkualitas distribusi.

Contoh prompt (siap salin-tempel)

1 — Ambien alami + efek + dialog pendek

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

2 — Beat aksi kaya Foley

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

3 — Ambience sinematik + suara karakter

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

4— Dialog ketat + SFX (klip pendek, timing eksplisit)

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

5 — Adegan berfokus ambience (mood, SFX tidak ketat)

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

6 — Percakapan multi-pembicara (stagged)

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


Bagaimana audio Veo 3.1 dibandingkan audio Sora 2?

Keduanya — Veo 3.1 dan Sora 2 dari OpenAI — mendukung output audio tersinkron yang terkait dengan video yang dihasilkan. Keduanya diposisikan sebagai model generasi media andalan dari vendor masing-masing dan menekankan koherensi audio-video yang realistis. Keduanya menerbitkan API.

Perbedaan utama

  • Fokus model & durasi: Veo 3.1 menekankan keterkendalian dengan fitur seperti bingkai pertama/terakhir, Scene Extension untuk sekuens lebih panjang, dan pengkondisian gambar referensi untuk menjaga karakter serta kontinuitas audio di seluruh sekuens multi-shot. Sora 2 dibingkai sebagai model andalan yang menghasilkan video dengan audio tersinkron; Sora 2 Pro menekankan fidelitas tinggi dan kompromi yang disetel antara kualitas dan biaya (tier Sora 2 Pro untuk fidelitas lebih tinggi). Veo 3.1 secara eksplisit menyoroti Scene Extension dan sekuens multi-prompt.
  • Integrasi platform: Veo 3.1 terintegrasi di ekosistem Gemini Google (aplikasi Gemini, Flow, Gemini API, Vertex AI) sedangkan Sora 2 disajikan sebagai model platform OpenAI dengan endpoint API dan aplikasi Sora untuk iOS; struktur harga dan endpoint berbeda (dokumen Sora 2 menunjukkan tier harga per detik). Pilih berdasarkan jejak cloud dan kebutuhan kepatuhan Anda.
  • Kontrol video yang lebih rinci: Veo 3.1 menonjolkan sejumlah kontrol kreatif spesifik (“Ingredients to Video”, Scene Extension, First/Last Frame) yang mengurangi waktu iterasi untuk alur naratif. Sora 2 berfokus pada audio tersinkron dan akurasi fisik dalam gerakan; keduanya menyediakan kontrol, tetapi idiom dan SDK mereka berbeda.

Implikasi praktis untuk proyek yang berat audio

Jika Anda memprioritaskan video single-shot fidelitas tinggi siap pakai dengan audio tersinkron dan model harga per detik yang sederhana → Sora 2 adalah pesaing kuat; uji keduanya pada aset dan anggaran target Anda.

Jika Anda memerlukan narasi panjang yang berkelanjutan dengan motif audio konsisten lintas bidikan → Scene Extension dan pengkondisian gambar referensi milik Veo 3.1 menjadikannya atraktif.

Penilaian akhir: Kapan menggunakan Veo 3.1 (rekomendasi berfokus audio)

Gunakan Veo 3.1 ketika Anda memerlukan sekuens multi-shot terkontrol dengan karakter yang konsisten, audio terintegrasi yang mendukung kontinuitas naratif. Keunggulan khas Veo 3.1 adalah Scene Extension, kontrol bingkai pertama/terakhir, dan pengkondisian gambar referensi — yang semuanya menjadikannya sangat baik untuk konten bentuk pendek berseri atau episodik dengan kontinuitas audio.

Developer dapat mengakses Veo 3.1 dan Sora 2 melalui CometAPI. Untuk memulai, jelajahi kapabilitas model di CometAPI pada Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.

Siap mulai?→ Uji coba gratis Veo 3.1!

Akses Model Terbaik dengan Biaya Rendah

Baca Selengkapnya