Apakah Veo 3.1 mendukung audio? Bagaimana cara menggunakannya secara profesional?

CometAPI
AnnaDec 26, 2025
Apakah Veo 3.1 mendukung audio? Bagaimana cara menggunakannya secara profesional?

Veo 3.1 secara native menghasilkan audio tersinkron bersama video saat Anda memanggil endpoint Gemini/Vertex (Veo) — Anda mengontrol audio melalui prompt teks (isyarat audio, baris dialog, SFX, suasana latar) dan pekerjaan generasi yang sama mengembalikan MP4 yang dapat diunduh. Jika Anda lebih suka satu API terpadu yang membundel banyak penyedia, CometAPI juga menawarkan akses ke Veo 3.1 (Anda memanggil CometAPI dengan kunci Comet Anda dan meminta veo3.1/veo3.1-pro). Rilis ini diposisikan sebagai pesaing langsung model media lain (misalnya Sora 2 dari OpenAI), dengan peningkatan berfokus pada realisme audio, kontrol naratif, dan kontinuitas multi-shot.

Apa itu Veo 3.1?

Veo 3.1 adalah iterasi terbaru Google dari keluarga model teks-dan-gambar→video Veo. Dibandingkan rilis Veo sebelumnya, Veo 3.1 secara khusus menyoroti generasi audio native — artinya model menghasilkan dialog tersinkron, suasana latar, efek suara, dan isyarat musik sebagai bagian dari output video alih-alih memerlukan langkah text-to-speech atau pascaproduksi terpisah. Model ini juga menghadirkan kontrol naratif baru (gambar referensi, transisi frame pertama-dan-terakhir, serta fitur perpanjangan adegan) yang ditujukan untuk membuat cerita multi-shot lebih koheren.

Mengapa hal itu penting: audio adalah cara penonton menafsirkan ruang, emosi, timing, dan kausalitas. Generasi audio native (dialog yang selaras dengan gerak bibir, SFX yang ditata waktunya dengan peristiwa visual, dan atmosfer latar belakang yang sesuai dengan geografi adegan) mengurangi kerja manual yang diperlukan agar klip terasa “nyata” dan memungkinkan kreator beriterasi lebih cepat pada cerita dan suasana.

Apakah Veo 3.1 dapat menghasilkan audio — dan jenis audio apa yang dapat dibuat?

Bagaimana audio dihasilkan di dalam model?

Veo 3.1 memperlakukan audio sebagai modalitas output terintegrasi dari pipeline generasi video. Alih-alih mengirim frame video ke mesin TTS atau Foley terpisah, proses generasi Veo memodelkan aliran audio dan visual secara bersama agar timing, isyarat akustik, dan peristiwa visual koheren. Pemodelan bersama inilah yang memungkinkan hal-hal seperti percakapan, lanskap suara ambien, dan SFX tersinkron tampak selaras secara alami dengan gambar yang dihasilkan. “richer native audio” dan generasi suara tersinkron disebut sebagai peningkatan utama di 3.1.

Mengapa kemampuan audio merupakan hal penting

Secara historis, banyak sistem teks-ke-video menghasilkan video tanpa audio dan menyerahkan audio ke pipeline berikutnya. Veo 3.1 mengubah itu dengan menghasilkan audio dalam pass generasi yang sama — yang mengurangi upaya mixing manual, menegakkan sinkron bibir yang lebih ketat untuk baris pendek, dan memungkinkan prompt mengontrol peristiwa suara kausal (misalnya, “gelas pecah saat kamera bergerak ke kiri”). Hal ini memiliki implikasi signifikan bagi kecepatan produksi, desain iteratif, dan prototyping kreatif.

Jenis audio apa yang dapat dibuat oleh Veo 3.1?

  • Dialog / ucapan — dialog multi-pembicara dengan waktu yang sesuai dengan gerak bibir dan aksi.
  • Lansekap suara ambien — audio lingkungan (angin, lalu lintas, tone ruangan) yang sesuai dengan geografi adegan.
  • Efek suara (SFX) — pukulan, benturan, pintu, langkah kaki, dll., ditata waktunya dengan peristiwa visual.
  • Isyarat musik — motif musik pendek atau penekanan suasana yang sesuai dengan tempo adegan.

Jenis audio ini dihasilkan secara native dan dipandu terutama oleh konten prompt alih-alih parameter audio terpisah.

Batas teknis dan durasi

Secara default, Veo 3.1 direkayasa untuk klip pendek berkualitas tinggi (output berkualitas tinggi 8 detik untuk beberapa alur), tetapi model juga mendukung perpanjangan adegan dan jembatan generasi (frame pertama→terakhir, perpanjangan dari detik terakhir) yang memungkinkan rangkaian multi-klip berdurasi puluhan detik hingga satu menit atau lebih saat dirangkai melalui Scene Extension.

Cara menghasilkan audio dengan Veo 3.1 (langsung, melalui Google Gemini / Vertex)

Langkah 1: Prasyarat

  1. Akun Google dengan akses ke Gemini API / Vertex AI dan API key / kredensial yang valid (Veo 3.1 berada dalam pratinjau berbayar untuk banyak jalur akses).
  2. Klien Google genai / Gemini atau endpoint REST yang dikonfigurasi di lingkungan Anda (atau klien Vertex jika Anda memilih konsol cloud).

Langkah 2: Pilih model dan akses yang tepat

Gunakan veo-3.1-generate-preview (atau veo-3.1-fast jika prioritas Anda adalah kecepatan/biaya). String model ini muncul dalam contoh Google untuk akses pratinjau. Anda membutuhkan Gemini API / Google AI key berbayar (atau akses melalui AI Studio / Vertex AI).


Langkah 3: Contoh Python — klien Gemini genai (disarankan, copy/paste)

Contoh ini menunjukkan bentuk pemanggilan terprogram (Python, klien google.genai). Ini mendemonstrasikan pemberian prompt teks yang berisi instruksi audio.

# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
  ALICE (soft, tired): "I didn't think we'd still be here."
  BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        duration_seconds=8,
        aspect_ratio="16:9",
        resolution="1080p",
        number_of_videos=1
    ),
)

# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
    print("processing...")
    time.sleep(2)
operation = operation.poll()
result = operation.response  # check SDK docs for exact structure
video_url = result.generated_videos[0].video  # URL or base64 depending on SDK
print("Download result:", video_url)

Catatan: File yang dikembalikan biasanya berupa MP4 yang menyertakan track audio yang dihasilkan. Elemen kunci untuk kontrol audio di atas adalah instruksi audio deskriptif yang disisipkan dalam prompt. Veo 3.1 merespons arahan audio berbahasa natural untuk menghasilkan track audio tersinkron.

Langkah 3 — Menggunakan gambar referensi dan “Ingredients to video”

Untuk menjaga penampilan karakter dan isyarat akustik tetap konsisten, Anda dapat menyertakan hingga tiga gambar referensi yang digunakan Veo untuk mempertahankan gaya visual dan kontinuitas. Pemanggilan generasi yang sama mendukung reference_images=[...]. Ini direkomendasikan ketika Anda mengharapkan konsistensi suara atau bunyi khas bagi karakter (misalnya, derit pintu yang berulang).

Langkah 4 — Memperpanjang adegan (Scene extension) dengan kontinuitas audio

Veo 3.1 mendukung “scene extension”, di mana klip baru dihasilkan dari detik terakhir klip sebelumnya untuk membuat rangkaian lebih panjang — dan audio diperpanjang dengan cara yang mempertahankan kontinuitas (suasana latar, musik yang sedang berlangsung, dll.). Gunakan parameter video=video_to_extend dalam pemanggilan generate_videos.

# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
    video=previous_clip_resource,
    config=types.GenerateVideosConfig(duration_seconds=10),
)

Langkah 5 — Penjembatan frame pertama & terakhir (dengan audio)

Jika Anda menginginkan transisi mulus antara dua frame (misalnya, memorfosis bidikan siang menjadi senja), berikan image=first_frame dan last_frame=last_frame serta sertakan arahan audio dalam prompt. Veo akan menghasilkan frame transisi plus audio yang mencerminkan progresi visual. Veo biasanya mengembalikan satu track audio campuran di dalam MP4.

Bagaimana menggunakan alat audio di Veo 3.1?

1) Apa yang dilakukan CometAPI dan mengapa menggunakannya

CometAPI memberi Anda satu endpoint REST bergaya OpenAI untuk mengakses banyak model (termasuk Veo dari Google). Ini berguna jika Anda menginginkan satu titik integrasi (penagihan, kuota, kesetaraan SDK) dan tidak ingin mengelola banyak kunci vendor. Comet mendokumentasikan bahwa Veo 3.1 ditawarkan di antara model video mereka.

2) Alur dasar memanggil Veo 3.1 melalui CometAPI

  1. Daftar di CometAPI dan buat API key.
  2. Konfirmasi pengenal model yang tepat di katalog Comet ("Veo 3.1"/"veo3.1-pro").
  3. Gunakan endpoint bergaya OpenAI milik CometAPI (atau SDK mereka) dan tetapkan field model ke nama model Veo. Comet akan meneruskan permintaan Anda ke Google atas nama Anda.

Veo3.1 Async Generation, API ini diimplementasikan melalui teknologi yang dikembangkan sendiri dengan batasan berikut: Durasi video tetap 8 detik dan tidak dapat dikustomisasi
Silakan hubungi dukungan teknis jika Anda mengalami masalah

Contoh Permintaan

curl -X POST https://api.cometapi.com/v1/videos \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -F "model=veo3.1" \
  -F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
  -F "size=16x9" \
  -F "input_reference=@first_frame.png" \
  -F "input_reference=@last_frame.png"

Apa praktik terbaik untuk prompting yang sadar audio dengan Veo 3.1?

Desain prompt untuk audio yang baik (apa yang perlu disertakan)

Gunakan “jalur audio” terstruktur dalam prompt. Blok minimal yang direkomendasikan:

Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
  ALICE (soft, weary): "I didn't think we'd make it."
  BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX

Tips kunci: beri label jalur, tambahkan jangkar waktu pendek (misalnya, at 1.6s), jelaskan penyampaian emosional & karakter suara (misalnya, “reverb lembut, serangan lambat”), dan jika Anda membutuhkan panning stereo anotasikan L / R atau L→R. Iterasi adalah hal biasa — buat klip pendek (4–8 detik), kemudian perpanjang.

Struktur dan nada prompt

  • Gunakan jalur terstruktur: beri label blok “Ambience:”, “SFX:”, “Music:”, dan “Dialogue:”. Generator bekerja lebih baik dengan pola yang dapat diprediksi.
  • Jelaskan timing secara spesifik: jangkar temporal pendek (misalnya, “sfx: door slam at 1.6s”) membantu sinkronisasi yang ketat. Jika akurasi level frame sangat penting, beriterasilah dan haluskan.
  • Jelaskan karakter suara: alih-alih “synth”, katakan “pad lembut dengan serangan lambat, nuansa 80 BPM” untuk mengarahkan suasana musik.

Konsistensi visual → audio

Jika Anda memberikan gambar referensi atau frame awal, sebutkan dari mana audio harus berasal (misalnya, “Ambience: kota teredam dari kiri, lebih dekat ke kamera; mobil lewat harus pan L→R”). Ini menghasilkan isyarat stereo yang lebih masuk akal dan lokalisasi sumber yang dirasakan.

Alur iterasi

  1. Hasilkan klip pendek (4–8 detik) dan evaluasi sinkronisasi audio.
  2. Jika Anda membutuhkan narasi lebih panjang, gunakan Scene Extension untuk memperpanjang klip sambil mempertahankan detik terakhir sebagai benih kontinuitas.
  3. Untuk konsistensi karakter (timbre suara, aksen), gunakan gambar referensi dan ulangi deskriptor suara antar klip. Pertimbangkan penggunaan garis “jangkar suara” singkat yang diulang (misalnya, “ALICE — aksen mid-Atlantic lembut”) untuk menjaga suara tetap stabil.

Catatan pascaproduksi

Veo memberi Anda MP4 awal dengan audio tersemat. Untuk mixing tingkat lanjut (stem multisaluran, stem dialog/musik terpisah), Anda mungkin masih perlu mengekstrak dan menyusun ulang audio di DAW — Veo terutama untuk generasi file tunggal terintegrasi. Alur pihak ketiga sering mengombinasikan Veo untuk generasi dasar dan penyuntingan DAW untuk mix berkualitas distribusi.

Contoh prompt (siap copy-paste)

Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.

Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.

Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.

"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."

"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."

"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."


Bagaimana audio Veo 3.1 dibandingkan dengan audio Sora 2?

Keduanya, Veo 3.1 dan Sora 2 dari OpenAI, mendukung output audio tersinkron yang terikat pada video yang dihasilkan. Mereka diposisikan sebagai model media andalan dari vendor masing-masing dan menekankan koherensi audio-video yang realistis. Keduanya menerbitkan API.

Perbedaan utama

  • Fokus model & durasi: Veo 3.1 menekankan kemampuan kontrol dengan fitur seperti frame pertama/terakhir, Scene Extension untuk rangkaian lebih panjang, dan pengkondisian gambar referensi untuk mempertahankan karakter dan kontinuitas audio di seluruh rangkaian multi-shot. Sora 2 dibingkai sebagai model andalan yang menghasilkan video dengan audio tersinkron; Sora 2 Pro menekankan fidelitas tinggi dan kompromi yang disetel antara kualitas dan biaya (tier Sora 2 Pro untuk fidelitas lebih tinggi). Veo 3.1 secara eksplisit menyoroti Scene Extension dan rangkaian multi-prompt.
  • Integrasi platform: Veo 3.1 terintegrasi di seluruh ekosistem Gemini milik Google (aplikasi Gemini, Flow, Gemini API, Vertex AI) sedangkan Sora 2 dipresentasikan sebagai model platform milik OpenAI dengan endpoint API dan aplikasi Sora untuk iOS; struktur harga dan endpoint berbeda (dokumen Sora 2 menunjukkan tier harga per detik). Pilih berdasarkan jejak cloud yang ada dan kebutuhan kepatuhan Anda.
  • Kontrol video terperinci: Veo 3.1 menyebutkan beberapa kontrol kreatif spesifik (Ingredients to Video, Scene Extension, First/Last Frame) yang mengurangi waktu iterasi untuk alur naratif. Sora 2 berfokus pada audio tersinkron dan akurasi fisik dalam gerak; keduanya menyediakan kontrol, tetapi idiom dan SDK mereka berbeda.

Implikasi praktis untuk proyek yang berat pada audio

Jika Anda memprioritaskan video single-shot berkualitas tinggi dengan audio tersinkron out-of-the-box dan model harga per detik yang sederhana → Sora 2 adalah pesaing kuat; uji keduanya pada aset dan anggaran target Anda.

Jika Anda membutuhkan narasi kontinu yang panjang dengan motif audio konsisten di seluruh rangkaian → Scene Extension dan pengkondisian gambar referensi Veo 3.1 membuatnya menarik.

Penilaian akhir: Kapan menggunakan Veo 3.1 (rekomendasi berpusat pada audio)

Gunakan Veo 3.1 saat Anda membutuhkan rangkaian multi-shot terkontrol dengan karakter konsisten, audio terintegrasi yang mendukung kontinuitas naratif. Kekuatan khas Veo 3.1 adalah Scene Extension, kontrol frame pertama/terakhir, dan pengkondisian gambar referensi — yang semuanya membuatnya sangat baik untuk konten pendek berseri atau episodik dengan kontinuitas audio.

Pengembang dapat mengakses Veo 3.1 dan Sora 2 melalui CometAPI. Untuk memulai, jelajahi kapabilitas model di CometAPI dalam Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh API key. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda berintegrasi.

Siap mulai?→ Uji coba gratis Veo 3.1!

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%