Can Veo 3.1 API generate videos from images as well as text prompts?

Ya. Veo 3.1 mendukung alur kerja teks-ke-video dan gambar-ke-video, memungkinkan kreator memulai dari prompt, gambar, atau alur kerja panduan frame.

When should I use Veo 3.1 instead of Sora 2?

Pilih Veo 3.1 ketika sinkronisasi audio, alur kerja yang dipandu gambar, pembuatan konten vertikal, atau integrasi ekosistem dengan alat Google merupakan prioritas utama.

Can Veo 3.1 create vertical videos for TikTok or Shorts?

Ya. Veo 3.1 mendukung rasio aspek 9:16 bawaan.

What should I do if Veo 3.1 generation fails or produces poor results?

Kurangi kompleksitas prompt, sederhanakan instruksi kamera, dan lakukan iterasi pada prompt.

Is Veo 3.1 suitable for commercial marketing videos and ads?

Ya. Ini sangat cocok untuk konten bermerek, video produk, dan kampanye media sosial.

Is there a free trial for Veo 3.1 API in CometAPI?

Pengguna baru akan menerima kunci gratis, dan harga API tetap sebesar 20% dari harga resmi.

API Veo 3.1 Terjangkau | image-to-video

Spesifikasi Teknis Veo 3.1

Item	Veo 3.1 (spesifikasi publik)
Official model ID	veo-3.1-generate-001
Provider	Google DeepMind / Google Cloud
Model type	Generasi teks-ke-video dan gambar-ke-video
Input types	Prompt teks, input gambar, panduan frame pertama + frame terakhir
Output type	Video yang dihasilkan AI
Supported resolutions	720p dan 1080p, 4K
Supported aspect ratios	16:9 dan 9:16
Supported framerate	24 FPS
Video duration	Klip 4s, 6s, atau 8s (tergantung mode)
Prompt language	Inggris
Videos per request	Hingga 4
API rate limit	Hingga 50 permintaan/menit/proyek
Supported deployment	Vertex AI, integrasi ekosistem Gemini, Flow
Unsupported features (official docs)	Kuota bersama dinamis, beberapa alur kerja gambar referensi, perpanjangan video native dalam alur API standar

Apa itu Veo 3.1?

Veo 3.1 adalah keluarga model video generatif flagship dari Google yang berfokus pada sintesis video berkualitas sinematik, kepatuhan prompt yang lebih kuat, konsistensi adegan yang lebih baik, dan alur kerja pembuatan video multimodal. Model ini melampaui generasi teks-ke-video standar dengan mendukung generasi berbasis panduan gambar dan alur kerja penceritaan yang dikendalikan oleh frame. Dukungan resmi mencakup teks-ke-video, gambar-ke-video, penulisan ulang prompt, dan alur kerja generasi First/Last Frame.

Fitur inti

Veo 3.1 berfokus pada fitur pembuatan konten yang praktis:

Generasi audio native (dialog, suara ambient, SFX) terintegrasi dalam output. Veo 3.1 menghasilkan audio native (dialog + ambience + SFX) yang selaras dengan timeline visual; model ini bertujuan menjaga sinkron bibir dan keselarasan audio–visual untuk dialog dan isyarat adegan.
Output lebih panjang (dukungan hingga ~60 detik / 1080p dibanding klip sangat pendek Veo 3, 8s), serta rangkaian multi-shot multi-prompt untuk kesinambungan naratif.
Scene Extension dan mode First/Last Frame yang memperluas atau menginterpolasi cuplikan di antara frame kunci.
Penyisipan objek dan (segera) penghapusan objek serta primitif pengeditan di dalam Flow.

Setiap butir di atas dirancang untuk mengurangi pekerjaan VFX manual: audio dan kontinuitas adegan kini menjadi output utama, bukan sekadar pemikiran belakangan.

Rincian teknis (perilaku model & input)

Keluarga & varian model: Veo termasuk dalam keluarga Veo-3 milik Google; ID model pratinjau biasanya veo3.1-pro; veo3.1 (dok. CometAPI). Model ini menerima prompt teks, referensi gambar (frame tunggal atau rangkaian), serta tata letak multi-prompt terstruktur untuk generasi multi-shot.

Resolusi & durasi: Dokumentasi pratinjau menjelaskan output pada 720p/1080p dengan opsi durasi lebih panjang (hingga ~60s dalam pengaturan pratinjau tertentu) dan fidelitas lebih tinggi dibanding varian Veo sebelumnya.

Rasio aspek: 16:9 (didukung) dan 9:16 (didukung kecuali pada beberapa alur gambar referensi).

Bahasa prompt: Inggris (pratinjau).

Batas API: batas pratinjau tipikal mencakup maks 10 permintaan API/menit per proyek, maks 4 video per permintaan, dan panjang video yang dapat dipilih di antara 4, 6, atau 8 detik (alur gambar referensi mendukung 8s).

Kinerja benchmark

Evaluasi internal Google dan ringkasan publik melaporkan preferensi yang kuat terhadap output Veo 3.1 pada perbandingan penilai manusia untuk metrik seperti keselarasan teks, kualitas visual, dan koherensi audio–visual (tugas teks→video dan gambar→video).

Veo 3.1 meraih hasil terdepan pada perbandingan internal oleh penilai manusia di sejumlah sumbu objektif — preferensi keseluruhan, keselarasan prompt (teks→video dan gambar→video), kualitas visual, keselarasan audio–video, dan “fisika yang tampak realistis” pada dataset benchmark seperti MovieGenBench dan VBench.

Keterbatasan & pertimbangan keamanan

Keterbatasan:

Artefak & inkonsistensi: meski ada peningkatan, pencahayaan tertentu, fisika yang sangat rinci, dan oklusi kompleks masih dapat menghasilkan artefak; konsistensi gambar→video (terutama pada durasi panjang) meningkat tetapi belum sempurna.
Risiko misinformasi/deepfake: audio yang lebih kaya + penyisipan/penghapusan objek meningkatkan risiko penyalahgunaan (audio palsu realistis dan klip yang diperpanjang). Google mencatat langkah mitigasi (kebijakan, pengaman), dan peluncuran Veo sebelumnya merujuk watermarking/SynthID untuk membantu ketertelusuran; namun pengaman teknis tidak menghilangkan risiko penyalahgunaan.
Keterbatasan biaya & throughput: video beresolusi tinggi dan berdurasi panjang mahal secara komputasi dan saat ini dibatasi dalam pratinjau berbayar—harapkan latensi dan biaya lebih tinggi dibanding model gambar. Postingan komunitas dan thread forum Google membahas jendela ketersediaan dan strategi fallback.

Kontrol keamanan: Veo 3.1 memiliki kebijakan konten terintegrasi, pensinyalan watermarking/SynthID pada rilis Veo sebelumnya, dan kontrol akses pratinjau; pelanggan disarankan mengikuti kebijakan platform dan menerapkan tinjauan manusia untuk output berisiko tinggi.

Kasus penggunaan praktis

Prototyping cepat untuk kreator: storyboard → klip multi-shot dan animatik dengan dialog native untuk tinjauan kreatif awal.
Pemasaran & konten bentuk pendek: spot produk 15–60s, klip sosial, dan teaser konsep di mana kecepatan lebih penting daripada fotorealisme sempurna.
Adaptasi gambar→video: mengubah ilustrasi, karakter, atau dua frame menjadi transisi mulus atau adegan animasi melalui First/Last Frame dan Scene Extension.
Augmentasi tooling: terintegrasi ke Flow untuk pengeditan iteratif (penyisipan/penghapusan objek, preset pencahayaan) yang mengurangi tahapan VFX manual.

Perbandingan dengan model terkemuka lainnya

Veo 3.1 vs Veo 3 (pendahulu): Veo 3.1 berfokus pada kepatuhan prompt yang ditingkatkan, kualitas audio, dan konsistensi multi-shot — peningkatan bertahap namun berdampak, yang bertujuan mengurangi artefak dan meningkatkan kemampuan pengeditan.

Veo 3.1 vs OpenAI Sora 2: kompromi yang dilaporkan di media: Veo 3.1 menekankan kendali narasi bentuk panjang, audio terintegrasi, dan integrasi pengeditan Flow; Sora 2 (saat dibandingkan di media) berfokus pada kekuatan berbeda (kecepatan, pipeline pengeditan berbeda). TechRadar dan media lain menempatkan Veo 3.1 sebagai pesaing terarah Google untuk Sora 2 dalam dukungan naratif dan video lebih panjang. Pengujian perbandingan independen tetap terbatas.

Kapabilitas	Veo 3.1	Sora 2	Runway Gen-4 / Gen-4.5
Output vertikal native	Ya	Dukungan alur kerja terbatas	Ya
Gambar-ke-video	Ya	Ya	Ya
Fokus integrasi audio	Kuat	Sedang	Sedang
Kondisioning frame	Ya	Ya	Parsial
Optimisasi video sosial	Kuat	Sedang	Kuat
Integrasi ekosistem API	Ekosistem Google	Ekosistem OpenAI	Ekosistem alat kreator

Bagaimana cara menggunakan API Veo 3.1 dengan CometAPI?

Buat kunci API CometAPI
Pilih veo-3.1-generate-001 sebagai endpoint model
Kirim prompt atau input gambar melalui API pembuatan video
Pantau hasil dan ambil video yang dihasilkan
Iterasikan prompt untuk pergerakan kamera, kontinuitas adegan, dan peningkatan konsistensi

Harga untuk Veo 3.1

Jelajahi harga kompetitif untuk Veo 3.1, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana Veo 3.1 dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.

Veo Video Generation Pricing

Pricing (Per Second)

Model	720p	1080p	4K
`veo3`	$0.32	$0.32	$0.48
`veo3-fast`	$0.08	$0.096	$0.24
`veo3.1`	$0.32	$0.32	$0.48
`veo3.1-fast`	$0.08	$0.096	$0.24

💡 Billed per second. Total cost = price per second × video duration (seconds).

Kode contoh dan API untuk Veo 3.1

Akses kode sampel komprehensif dan sumber daya API untuk Veo 3.1 guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh Veo 3.1 dalam proyek Anda.

Python
JavaScript
Curl

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("
Step 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("
Step 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Curl Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Versi Veo 3.1

Alasan Veo 3.1 memiliki beberapa _snapshot_ mungkin mencakup faktor-faktor potensial seperti variasi keluaran setelah pembaruan yang memerlukan _snapshot_ lama untuk konsistensi, memberikan masa transisi bagi pengembang untuk beradaptasi dan bermigrasi, serta _snapshot_ berbeda yang sesuai dengan _endpoint_ global atau regional untuk mengoptimalkan pengalaman pengguna. Untuk perbedaan detail antar versi, silakan merujuk ke dokumentasi resmi.

ID model	Deskripsi	Ketersediaan	Permintaan
veo3.1-all	Teknologi yang digunakan tidak resmi dan generasinya tidak stabil, dll.	✅	Obrolan format
veo3.1	Direkomendasikan, merujuk ke model terbaru	✅	Pembuatan Asinkron