Veo 3.1 secara natif menjana audio terselaras bersama video apabila anda memanggil endpoint Gemini/Vertex (Veo) — anda mengawal audio melalui prompt teks (isyarat audio, baris dialog, SFX, ambiens), dan tugasan penjanaan yang sama mengembalikan fail MP4 untuk dimuat turun. Jika anda mengutamakan satu API bersatu yang menghimpunkan ramai penyedia, CometAPI turut menawarkan akses kepada Veo 3.1 (anda memanggil CometAPI dengan kunci Comet anda dan meminta veo3.1/veo3.1-pro). Keluaran ini diposisikan sebagai pesaing langsung kepada model media lain (contohnya Sora 2 oleh OpenAI), dengan penambahbaikan yang menumpukan pada realisme audio, kawalan naratif dan kesinambungan berbilang babak.
Apakah Veo 3.1?
Veo 3.1 ialah iterasi terkini Google dalam keluarga model teks-dan-imej→video Veo. Berbanding keluaran Veo sebelumnya, Veo 3.1 menonjolkan penjanaan audio natif — bermakna model menghasilkan dialog terselaras, ambiens, kesan bunyi dan isyarat muzik sebagai sebahagian daripada output video tanpa memerlukan langkah penukaran teks ke pertuturan atau pascaproduksi yang berasingan. Ia juga membawa kawalan naratif baharu (imej rujukan, peralihan bingkai pertama dan terakhir, serta ciri peluasan babak) yang bertujuan menjadikan cerita berbilang babak lebih koheren.
Mengapa ini penting: audio ialah cara penonton mentafsir ruang, emosi, pemasaan dan sebab-akibat. Penjanaan audio natif (dialog yang seiring dengan pergerakan bibir, SFX yang disegerakkan dengan peristiwa visual, dan suasana latar yang sepadan dengan geografi adegan) mengurangkan kerja manual untuk menjadikan klip terasa “sebenar” dan membolehkan pencipta mengulangi percubaan cerita dan suasana dengan lebih pantas.
Bolehkah Veo 3.1 menghasilkan audio — dan apakah jenis audio yang boleh dihasilkannya?
Bagaimanakah audio dihasilkan dalam model?
Veo 3.1 menganggap audio sebagai mod output bersepadu dalam saluran penjanaan video. Daripada menghantar bingkai video ke enjin TTS atau Foley yang berasingan, proses penjanaan Veo memodelkan aliran audio dan visual secara bersama supaya pemasaan, isyarat akustik dan peristiwa visual adalah koheren. Pemodelan bersama inilah yang membolehkan pertukaran perbualan, lanskap bunyi ambien dan SFX terselaras kelihatan sejajar secara semula jadi dengan imejan yang dijanakan; “audio natif yang lebih kaya” dan penjanaan bunyi terselaras merupakan penambahbaikan utama dalam 3.1.
Mengapa keupayaan audio ini penting
Secara sejarah, banyak sistem teks-ke-video menghasilkan video tanpa bunyi dan menyerahkan audio kepada saluran kemudian. Veo 3.1 mengubahnya dengan menghasilkan audio dalam laluan penjanaan yang sama — ini mengurangkan usaha pencampuran manual, memperketat penselarasan bibir untuk baris pendek, dan membolehkan prompt mengawal peristiwa bunyi kausal (cth., “gelas pecah ketika kamera memotong ke kiri”). Ini memberi implikasi besar kepada kelajuan produksi, reka bentuk berulang, dan prototaip kreatif.
Apakah jenis audio yang boleh dihasilkan oleh Veo 3.1?
- Dialog / pertuturan — dialog berbilang penutur dengan pemasaan yang sepadan dengan pergerakan bibir dan tindakan.
- Lanskap bunyi ambien — audio persekitaran (angin, trafik, tona ruang) yang sesuai dengan geografi adegan.
- Kesan bunyi (SFX) — hentaman, impak, pintu, derap langkah, dsb., yang disegerakkan dengan peristiwa visual.
- Isyarat muzik — motif muzik pendek atau garisan suasana yang sepadan dengan rentak adegan.
Jenis audio ini dijana secara natif dan dipandu terutamanya oleh kandungan prompt berbanding parameter audio yang berasingan.
Had teknikal dan tempoh
Secara lalai, Veo 3.1 direka untuk klip pendek berkualiti tinggi (output 8 saat berkualiti tinggi bagi sesetengah aliran), namun model ini juga menyokong peluasan babak dan jambatan penjanaan (bingkai pertama→terakhir, sambung daripada saat terakhir) yang membolehkan jujukan berbilang klip berdurasi puluhan saat sehingga seminit atau lebih apabila disambung melalui Scene Extension.
Cara menjana audio dengan Veo 3.1 (terus, melalui Google Gemini / Vertex)
Langkah 1: Prasyarat
- Akaun Google dengan akses kepada Gemini API / Vertex AI serta kunci API / kelayakan yang sah (Veo 3.1 berada dalam pratonton berbayar bagi banyak laluan akses).
- Klien Google
genai/ Gemini atau endpoint REST dikonfigurasikan dalam persekitaran anda (atau klien Vertex jika anda mengutamakan konsol awan).
Langkah 2: Pilih model dan akses yang betul
Gunakan veo-3.1-generate-preview (atau veo-3.1-fast apabila kelajuan/kos menjadi keutamaan). Rentetan model ini muncul dalam contoh Google untuk akses pratonton. Anda memerlukan kunci Gemini API / Google AI berbayar (atau akses melalui AI Studio / Vertex AI).
Langkah 3: Contoh Python — klien Gemini genai (disyorkan, salin/tampal)
Contoh ini menunjukkan bentuk panggilan berpengaturcaraan (Python, klien google.genai). Ia menunjukkan cara menyediakan prompt teks yang mengandungi arahan audio.
# pip install google-genai (follow official SDK install)
from google import genai
from google.genai import types
import time
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
prompt = """
Scene: Rainy downtown street, night. Neon reflections on wet pavement.
Ambience: continuous distant rain and passing cars.
SFX: bus brakes and hiss at 2.3s; umbrella snap at 0.6s.
Music: subtle synth pad enters at 0.5s (slow attack).
Dialogue:
ALICE (soft, tired): "I didn't think we'd still be here."
BOB (sighing): "Neither did I. Let's go."
Visual: medium close-up on ALICE, camera dolly forward.
"""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
duration_seconds=8,
aspect_ratio="16:9",
resolution="1080p",
number_of_videos=1
),
)
# Poll until done (SDK returns an operation object you can poll)
while not operation.done():
print("processing...")
time.sleep(2)
operation = operation.poll()
result = operation.response # check SDK docs for exact structure
video_url = result.generated_videos[0].video # URL or base64 depending on SDK
print("Download result:", video_url)
Nota: Fail yang dikembalikan lazimnya ialah MP4 yang merangkumi trek audio terjana. Elemen utama untuk kawalan audio di atas ialah arahan audio deskriptif yang disisipkan dalam prompt. Veo 3.1 bertindak balas terhadap arahan audio berbahasa semula jadi untuk menjana trek audio terselaras.
Langkah 3 — Menggunakan imej rujukan dan “Ingredients to video”
Untuk mengekalkan rupa watak dan isyarat akustik yang konsisten, anda boleh menghantar sehingga tiga imej rujukan yang digunakan oleh Veo untuk mengekalkan gaya visual dan kesinambungan. Panggilan penjanaan yang sama menyokong reference_images=[...]. Ini disyorkan apabila anda mengharapkan suara yang konsisten atau bunyi kebiasaan bagi watak (cth., bunyi pintu yang berulang berkeriut).
Langkah 4 — Melanjutkan babak (Scene extension) dengan kesinambungan audio
Veo 3.1 menyokong “scene extension”, di mana klip baharu dijana daripada saat terakhir klip terdahulu untuk mencipta jujukan yang lebih panjang — dan audio dilanjutkan dengan cara yang mengekalkan kesinambungan (ambiens latar, muzik berterusan, dsb.). Gunakan parameter video=video_to_extend dalam panggilan generate_videos.
# Pseudocode: extend a previous clip while preserving audio continuity
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Continue the scene: morning light brightens, seagulls move closer; audio: swell builds into light strings",
video=previous_clip_resource,
config=types.GenerateVideosConfig(duration_seconds=10),
)
Langkah 5 — Perantaraan bingkai pertama & terakhir (dengan audio)
Jika anda mahukan peralihan yang lancar antara dua bingkai (contohnya, morf daripada rakaman siang kepada senja), sediakan image=first_frame dan last_frame=last_frame serta sertakan arahan audio dalam prompt. Veo akan menjana bingkai peralihan bersama audio yang mencerminkan perkembangan visual. Veo lazimnya mengembalikan satu trek audio bercampur di dalam MP4.
Bagaimanakah menggunakan alat audio dalam Veo 3.1 ?
1) Apakah yang dilakukan CometAPI dan mengapa menggunakannya
CometAPI memberikan anda satu endpoint REST gaya OpenAI untuk mengakses banyak model (termasuk Veo milik Google). Ini berguna jika anda mahukan satu titik integrasi (pengebilan, kuota, pariti SDK) dan tidak mahu mengurus pelbagai kunci vendor. Comet mendokumentasikan bahawa Veo 3.1 ditawarkan antara model video mereka.
2) Aliran asas untuk memanggil Veo 3.1 melalui CometAPI
- Daftar di CometAPI dan cipta kunci API.
- Sahkan pengecam model yang tepat dalam katalog Comet ("Veo 3.1"/"veo3.1-pro").
- Gunakan endpoint gaya OpenAI CometAPI (atau SDK mereka) dan tetapkan medan
modelkepada nama model Veo. Comet akan merutekan permintaan anda kepada Google bagi pihak anda.
Veo3.1 Async Generation, API ini dilaksanakan melalui teknologi yang kami bangunkan sendiri dengan had berikut: Tempoh video ditetapkan pada 8 saat dan tidak boleh disesuaikan
Sila hubungi sokongan teknikal jika anda menghadapi sebarang isu
Contoh Permintaan
curl -X POST https://api.cometapi.com/v1/videos \
-H "Authorization: Bearer $COMETAPI_KEY" \
-F "model=veo3.1" \
-F "prompt=A whimsical flying elephant soaring over a vibrant candy-colored cityscape" \
-F "size=16x9" \
-F "input_reference=@first_frame.png" \
-F "input_reference=@last_frame.png"
Apakah amalan terbaik untuk prompt yang peka audio dengan Veo 3.1?
Reka bentuk prompt untuk audio yang baik (apa yang perlu disertakan)
Gunakan “lorong audio” berstruktur dalam prompt. Blok minimum yang disyorkan:
Scene: short description (location, lighting, camera)
Ambience: e.g. "distant rain, muffled traffic"
SFX: "door slam at 1.6s; footsteps L→R starting 0.8s"
Music: "soft piano pad, slow attack, enters at 0.5s"
Dialogue:
ALICE (soft, weary): "I didn't think we'd make it."
BOB (pause, then): "We did."
Action: camera moves, character actions to sync SFX
Petua utama: labelkan lorong, tambah penanda masa ringkas (cth., at 1.6s), huraikan penyampaian emosi & watak bunyi (cth., “reverb lembut, serangan perlahan”), dan jika anda perlukan panning stereo, anotasi L / R atau L→R. Iterasi adalah kebiasaan — jana klip pendek (4–8s), kemudian lanjutkan.
Struktur dan nada prompt
- Gunakan lorong berstruktur: label blok “Ambience:”, “SFX:”, “Music:”, dan “Dialogue:”. Penjana berfungsi lebih baik dengan corak yang boleh diramal.
- Berikan spesifikasi masa: penanda temporal ringkas (cth., “sfx: door slam at 1.6s”) membantu dengan penselarasan ketat. Jika ketepatan per bingkai sangat penting, lakukan iterasi dan penapisan.
- Huraikan ciri bunyi: daripada “synth”, sebut “pad lembut dengan serangan perlahan, rasa 80 BPM” untuk mendorong suasana muzik.
Konsistensi visual → audio
Jika anda menyediakan imej rujukan atau bingkai mula, sebutkan dari mana audio perlu berasal (cth., “Ambience: bunyi bandar teredam dari kiri, lebih dekat dengan kamera; kereta lalu patut pan L→R”). Ini menghasilkan isyarat stereo yang lebih munasabah dan penyetempatan sumber yang lebih meyakinkan.
Aliran kerja iterasi
- Jana klip pendek (4–8s) dan nilai kepersisan sync audio.
- Jika anda perlukan naratif lebih panjang, gunakan Scene Extension untuk mengembangkan klip sambil mengekalkan saat terakhir sebagai benih kesinambungan.
- Untuk konsistensi watak (timbre suara, loghat), gunakan imej rujukan dan ulang deskriptor suara antara klip. Pertimbangkan menggunakan baris “sauh suara” ringkas yang diulang (cth., “ALICE — loghat mid-Atlantic lembut”) untuk mengekalkan suara yang stabil.
Nota pascaproduksi
Veo memberi anda MP4 permulaan dengan audio terbenam. Untuk pencampuran lanjutan (stems berbilang saluran, stems dialog/muzik berasingan), anda mungkin masih perlu mengekstrak dan menyusun semula audio dalam DAW — Veo terutamanya untuk penjanaan bersepadu berfail tunggal. Aliran kerja pihak ketiga sering menggabungkan Veo untuk penjanaan asas dan penyuntingan DAW untuk campuran berkualiti pengedaran.
Contoh prompt (sedia salin-tampal)
1 — Ambien semula jadi + kesan + dialog pendek
Prompt: Wide shot of an empty diner at 6:00 AM. Audio: humming refrigerator, distant traffic, a single coffee cup clink. Soft acoustic guitar underlay. Dialogue (woman, tired): "Morning's never been this quiet." Sync the clink with the camera pan at 2.5s.
2 — Aksi berat Foley
Prompt: Medium close-up of a courier running through a marketplace. Audio: hurried footsteps on cobblestones, cloth brushing, vendors shouting faintly in background. At 0.8s add a metallic jingle from keys. Fast, rhythmic percussive music fades in at 3s.
3 — Ambien sinematik + suara watak
Prompt: Interior study lit by candlelight. Audio: crackling fireplace, turning pages, soft string quartet in the background. Dialogue (old man): "Some stories carry their own warmth." Keep the string motif subtle and warm.
4— Dialog ketat + SFX (klip pendek, pemasaan jelas)
"Prompt: Interior: cluttered bookstore at 7pm. Camera pans right to a man dropping a book.
Audio instructions:
- Ambience: quiet bookstore with rain hitting the windows.
- Dialogue: Speaker A (soft): 'Lo siento...' at 1.2s. Speaker B (firm): 'No te preocupes.' at 2.1s.
- SFX: Book thud at 1.15s. Rain intensity increases at 3.5s.
Style: intimate, cinematic. Lip sync and SFX must match timings."
5 — Babak berasaskan ambien (suasana, SFX kurang ketat)
"Prompt: A seaside boardwalk at sunset. Create a dreamy soundscape with gulls, distant music from a radio, and rolling waves. No spoken lines. Prefer a slow, swelling musical bed under the ambience. Style: nostalgic documentary."
6 — Perbualan berbilang penutur (berperingkat)
"Prompt: Two people in a busy market, speaking in English and occasionally in Japanese — short lines. Tag speakers clearly. Include periodic vendor shouts (market ambience) and a passing motorcycle SFX at 2.4s."
Bagaimanakah audio Veo 3.1 dibandingkan dengan audio Sora 2?
Kedua-duanya Veo 3.1 dan Sora 2 oleh OpenAI menyokong output audio terselaras yang terikat kepada video terjana. Mereka diposisikan sebagai model penjanaan media utama daripada vendor masing-masing dan menekankan koheren audio-video realistik. Kedua-duanya menerbitkan API.
Perbezaan utama
- Fokus model & panjang: Veo 3.1 menekankan keboleh kawal dengan ciri seperti bingkai pertama/terakhir, peluasan babak untuk jujukan lebih panjang, dan pengkondisian imej rujukan untuk mengekalkan kesinambungan watak dan audio merentas berbilang babak. Sora 2 dibingkaikan sebagai model utama yang menjana video dengan audio terselaras; Sora 2 Pro menekankan fideliti tinggi dan imbangan talaan antara kualiti dan kos (tier Sora 2 Pro untuk fideliti lebih tinggi). Veo 3.1 secara eksplisit menyerlahkan peluasan babak dan jujukan berbilang prompt.
- Integrasi platform: Veo 3.1 diintegrasikan merentasi ekosistem Gemini Google (aplikasi Gemini, Flow, Gemini API, Vertex AI) manakala Sora 2 dipersembahkan sebagai model platform OpenAI dengan endpoint API dan aplikasi Sora untuk iOS; struktur harga dan endpoint berbeza (dokumen Sora 2 menunjukkan harga per saat bertingkat). Pilih berdasarkan jejak awan sedia ada dan keperluan pematuhan anda.
- Kawalan video terperinci: Veo 3.1 mengetengahkan beberapa kawalan kreatif khusus (Ingredients to Video, Scene Extension, First/Last Frame) yang mengurangkan masa iterasi untuk aliran kerja naratif. Sora 2 memfokuskan audio terselaras dan ketepatan fizikal dalam pergerakan; kedua-duanya menyediakan kawalan, tetapi idiom dan SDK mereka berbeza.
Implikasi praktikal untuk projek berat audio
Jika anda mengutamakan video satu babak fideliti tinggi dengan audio terselaras dan model harga per saat yang ringkas → Sora 2 ialah pesaing kukuh; uji kedua-duanya pada aset dan bajet sasaran anda.
Jika anda perlukan naratif berterusan yang panjang dengan motif audio konsisten merentas babak → Scene Extension dan pengkondisian imej rujukan Veo 3.1 menjadikannya menarik.
Penilaian akhir: Bila hendak menggunakan Veo 3.1 (cadangan berpusatkan audio)
Gunakan Veo 3.1 apabila anda memerlukan jujukan berbilang babak yang terkawal dengan watak konsisten serta audio bersepadu yang menyokong kesinambungan naratif. Kekuatan ketara Veo 3.1 ialah peluasan babak, kawalan bingkai pertama/terakhir dan pengkondisian imej rujukan — yang menjadikannya unggul untuk kandungan bentuk pendek bersiri atau berepisod dengan kesinambungan audio.
Pembangun boleh mengakses Veo 3.1 dan Sora 2 melalui CometAPI. Untuk bermula, terokai keupayaan model CometAPI dalam Playground dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga rasmi untuk membantu anda mengintegrasikan.
Sedia untuk bermula?→ Percubaan percuma Veo 3.1!
