Spesifikasi Teknis Veo 3.1
| Item | Veo 3.1 (spesifikasi publik) |
|---|---|
| Official model ID | veo-3.1-generate-001 |
| Provider | Google DeepMind / Google Cloud |
| Model type | Generasi teks-ke-video dan gambar-ke-video |
| Input types | Prompt teks, input gambar, panduan frame pertama + frame terakhir |
| Output type | Video yang dihasilkan AI |
| Supported resolutions | 720p dan 1080p, 4K |
| Supported aspect ratios | 16:9 dan 9:16 |
| Supported framerate | 24 FPS |
| Video duration | Klip 4s, 6s, atau 8s (tergantung mode) |
| Prompt language | Inggris |
| Videos per request | Hingga 4 |
| API rate limit | Hingga 50 permintaan/menit/proyek |
| Supported deployment | Vertex AI, integrasi ekosistem Gemini, Flow |
| Unsupported features (official docs) | Kuota bersama dinamis, beberapa alur kerja gambar referensi, perpanjangan video native dalam alur API standar |
Apa itu Veo 3.1?
Veo 3.1 adalah keluarga model video generatif flagship dari Google yang berfokus pada sintesis video berkualitas sinematik, kepatuhan prompt yang lebih kuat, konsistensi adegan yang lebih baik, dan alur kerja pembuatan video multimodal. Model ini melampaui generasi teks-ke-video standar dengan mendukung generasi berbasis panduan gambar dan alur kerja penceritaan yang dikendalikan oleh frame. Dukungan resmi mencakup teks-ke-video, gambar-ke-video, penulisan ulang prompt, dan alur kerja generasi First/Last Frame.
Fitur inti
Veo 3.1 berfokus pada fitur pembuatan konten yang praktis:
- Generasi audio native (dialog, suara ambient, SFX) terintegrasi dalam output. Veo 3.1 menghasilkan audio native (dialog + ambience + SFX) yang selaras dengan timeline visual; model ini bertujuan menjaga sinkron bibir dan keselarasan audio–visual untuk dialog dan isyarat adegan.
- Output lebih panjang (dukungan hingga ~60 detik / 1080p dibanding klip sangat pendek Veo 3, 8s), serta rangkaian multi-shot multi-prompt untuk kesinambungan naratif.
- Scene Extension dan mode First/Last Frame yang memperluas atau menginterpolasi cuplikan di antara frame kunci.
- Penyisipan objek dan (segera) penghapusan objek serta primitif pengeditan di dalam Flow.
Setiap butir di atas dirancang untuk mengurangi pekerjaan VFX manual: audio dan kontinuitas adegan kini menjadi output utama, bukan sekadar pemikiran belakangan.
Rincian teknis (perilaku model & input)
Keluarga & varian model: Veo termasuk dalam keluarga Veo-3 milik Google; ID model pratinjau biasanya veo3.1-pro; veo3.1 (dok. CometAPI). Model ini menerima prompt teks, referensi gambar (frame tunggal atau rangkaian), serta tata letak multi-prompt terstruktur untuk generasi multi-shot.
Resolusi & durasi: Dokumentasi pratinjau menjelaskan output pada 720p/1080p dengan opsi durasi lebih panjang (hingga ~60s dalam pengaturan pratinjau tertentu) dan fidelitas lebih tinggi dibanding varian Veo sebelumnya.
Rasio aspek: 16:9 (didukung) dan 9:16 (didukung kecuali pada beberapa alur gambar referensi).
Bahasa prompt: Inggris (pratinjau).
Batas API: batas pratinjau tipikal mencakup maks 10 permintaan API/menit per proyek, maks 4 video per permintaan, dan panjang video yang dapat dipilih di antara 4, 6, atau 8 detik (alur gambar referensi mendukung 8s).
Kinerja benchmark
Evaluasi internal Google dan ringkasan publik melaporkan preferensi yang kuat terhadap output Veo 3.1 pada perbandingan penilai manusia untuk metrik seperti keselarasan teks, kualitas visual, dan koherensi audio–visual (tugas teks→video dan gambar→video).
Veo 3.1 meraih hasil terdepan pada perbandingan internal oleh penilai manusia di sejumlah sumbu objektif — preferensi keseluruhan, keselarasan prompt (teks→video dan gambar→video), kualitas visual, keselarasan audio–video, dan “fisika yang tampak realistis” pada dataset benchmark seperti MovieGenBench dan VBench.
Keterbatasan & pertimbangan keamanan
Keterbatasan:
- Artefak & inkonsistensi: meski ada peningkatan, pencahayaan tertentu, fisika yang sangat rinci, dan oklusi kompleks masih dapat menghasilkan artefak; konsistensi gambar→video (terutama pada durasi panjang) meningkat tetapi belum sempurna.
- Risiko misinformasi/deepfake: audio yang lebih kaya + penyisipan/penghapusan objek meningkatkan risiko penyalahgunaan (audio palsu realistis dan klip yang diperpanjang). Google mencatat langkah mitigasi (kebijakan, pengaman), dan peluncuran Veo sebelumnya merujuk watermarking/SynthID untuk membantu ketertelusuran; namun pengaman teknis tidak menghilangkan risiko penyalahgunaan.
- Keterbatasan biaya & throughput: video beresolusi tinggi dan berdurasi panjang mahal secara komputasi dan saat ini dibatasi dalam pratinjau berbayar—harapkan latensi dan biaya lebih tinggi dibanding model gambar. Postingan komunitas dan thread forum Google membahas jendela ketersediaan dan strategi fallback.
Kontrol keamanan: Veo 3.1 memiliki kebijakan konten terintegrasi, pensinyalan watermarking/SynthID pada rilis Veo sebelumnya, dan kontrol akses pratinjau; pelanggan disarankan mengikuti kebijakan platform dan menerapkan tinjauan manusia untuk output berisiko tinggi.
Kasus penggunaan praktis
- Prototyping cepat untuk kreator: storyboard → klip multi-shot dan animatik dengan dialog native untuk tinjauan kreatif awal.
- Pemasaran & konten bentuk pendek: spot produk 15–60s, klip sosial, dan teaser konsep di mana kecepatan lebih penting daripada fotorealisme sempurna.
- Adaptasi gambar→video: mengubah ilustrasi, karakter, atau dua frame menjadi transisi mulus atau adegan animasi melalui First/Last Frame dan Scene Extension.
- Augmentasi tooling: terintegrasi ke Flow untuk pengeditan iteratif (penyisipan/penghapusan objek, preset pencahayaan) yang mengurangi tahapan VFX manual.
Perbandingan dengan model terkemuka lainnya
Veo 3.1 vs Veo 3 (pendahulu): Veo 3.1 berfokus pada kepatuhan prompt yang ditingkatkan, kualitas audio, dan konsistensi multi-shot — peningkatan bertahap namun berdampak, yang bertujuan mengurangi artefak dan meningkatkan kemampuan pengeditan.
Veo 3.1 vs OpenAI Sora 2: kompromi yang dilaporkan di media: Veo 3.1 menekankan kendali narasi bentuk panjang, audio terintegrasi, dan integrasi pengeditan Flow; Sora 2 (saat dibandingkan di media) berfokus pada kekuatan berbeda (kecepatan, pipeline pengeditan berbeda). TechRadar dan media lain menempatkan Veo 3.1 sebagai pesaing terarah Google untuk Sora 2 dalam dukungan naratif dan video lebih panjang. Pengujian perbandingan independen tetap terbatas.
| Kapabilitas | Veo 3.1 | Sora 2 | Runway Gen-4 / Gen-4.5 |
|---|---|---|---|
| Output vertikal native | Ya | Dukungan alur kerja terbatas | Ya |
| Gambar-ke-video | Ya | Ya | Ya |
| Fokus integrasi audio | Kuat | Sedang | Sedang |
| Kondisioning frame | Ya | Ya | Parsial |
| Optimisasi video sosial | Kuat | Sedang | Kuat |
| Integrasi ekosistem API | Ekosistem Google | Ekosistem OpenAI | Ekosistem alat kreator |
Bagaimana cara menggunakan API Veo 3.1 dengan CometAPI?
- Buat kunci API CometAPI
- Pilih
veo-3.1-generate-001sebagai endpoint model - Kirim prompt atau input gambar melalui API pembuatan video
- Pantau hasil dan ambil video yang dihasilkan
- Iterasikan prompt untuk pergerakan kamera, kontinuitas adegan, dan peningkatan konsistensi