Can Veo 3.1 API generate videos from images as well as text prompts?

Ya. Veo 3.1 menyokong kedua-dua aliran kerja teks-ke-video dan imej-ke-video, membolehkan pencipta bermula daripada arahan, imej atau aliran kerja panduan bingkai.

When should I use Veo 3.1 instead of Sora 2?

Pilih Veo 3.1 apabila penyegerakan audio, aliran kerja berpandukan imej, penciptaan kandungan menegak atau penyepaduan ekosistem dengan alat Google paling penting.

Can Veo 3.1 create vertical videos for TikTok or Shorts?

Ya. Veo 3.1 menyokong nisbah bidang asli 9:16.

What should I do if Veo 3.1 generation fails or produces poor results?

Kurangkan kerumitan arahan, ringkaskan arahan kamera, dan ulangi arahan.

Is Veo 3.1 suitable for commercial marketing videos and ads?

Ya. Ia sangat sesuai untuk kandungan berjenama, video produk dan kempen media sosial.

Is there a free trial for Veo 3.1 API in CometAPI?

Pengguna baharu akan menerima kunci percuma, dan harga API akan kekal 20% daripada harga rasmi.

API Veo 3.1 Berpatutan | image-to-video

Spesifikasi Teknikal Veo 3.1

Item	Veo 3.1 (spesifikasi awam)
Official model ID	veo-3.1-generate-001
Provider	Google DeepMind / Google Cloud
Model type	Penjanaan teks-ke-video dan imej-ke-video
Input types	Prompt teks, input imej, panduan bingkai pertama + bingkai terakhir
Output type	Video dijana AI
Supported resolutions	720p dan 1080p, 4K
Supported aspect ratios	16:9 dan 9:16
Supported framerate	24 FPS
Video duration	Klip 4s, 6s, atau 8s (bergantung mod)
Prompt language	Bahasa Inggeris
Videos per request	Sehingga 4
API rate limit	Sehingga 50 permintaan/minit/projek
Supported deployment	Vertex AI, penyepaduan ekosistem Gemini, Flow
Unsupported features (official docs)	Kuota dikongsi dinamik, sesetengah aliran kerja imej rujukan, sambungan video asli dalam aliran API standard

Apakah Veo 3.1?

Veo 3.1 ialah keluarga model video generatif utama Google yang memfokus pada sintesis video berkualiti sinematik, pematuhan prompt yang lebih kukuh, konsistensi babak yang lebih baik, dan aliran kerja penciptaan video multimodal. Ia melangkaui penjanaan teks-ke-video standard dengan menyokong penjanaan berpandukan imej dan aliran kerja penceritaan terkawal bingkai. Sokongan rasmi merangkumi teks-ke-video, imej-ke-video, penulisan semula prompt, serta aliran kerja penjanaan bingkai pertama/terakhir.

Ciri teras

Veo 3.1 memfokus pada ciri penciptaan kandungan yang praktikal:

Penjanaan audio asli (dialog, bunyi ambien, SFX) yang diintegrasikan dalam output. Veo 3.1 menjana audio asli (dialog + ambien + SFX) yang sejajar dengan garis masa visual; model ini bertujuan memelihara keserentakan bibir dan penjajaran audio–visual untuk dialog dan petunjuk babak.
Output lebih panjang (sokongan sehingga ~60 saat / 1080p berbanding klip yang sangat pendek pada Veo 3, 8s), serta jujukan berbilang prompt berbilang shot untuk kesinambungan naratif.
Mod Scene Extension dan First/Last Frame yang memanjangkan atau menginterpolasi rakaman antara bingkai kunci.
Penyisipan objek dan (akan datang) penyingkiran objek serta primitif penyuntingan dalam Flow.

Setiap perkara di atas direka untuk mengurangkan kerja VFX manual: audio dan kesinambungan babak kini menjadi output kelas pertama, bukan lagi perkara susulan.

Butiran teknikal (tingkah laku model & input)

Model family & variants: Veo tergolong dalam keluarga Veo-3 Google; ID model pratonton lazimnya veo3.1-pro; veo3.1 (dokumen CometAPI). Ia menerima prompt teks, rujukan imej (bingkai tunggal atau jujukan), dan susun atur berbilang prompt berstruktur untuk penjanaan berbilang shot.

Resolusi & durasi: Dokumentasi pratonton menerangkan output pada 720p/1080p dengan pilihan durasi lebih panjang (sehingga ~60 saat dalam tetapan pratonton tertentu) dan fideliti lebih tinggi berbanding varian Veo terdahulu.

Nisbah aspek: 16:9 (disokong) dan 9:16 (disokong kecuali dalam sesetengah aliran kerja imej rujukan).

Bahasa prompt: Bahasa Inggeris (pratonton).

Had API: had pratonton lazim termasuk maksimum 10 permintaan API/min bagi setiap projek, maksimum 4 video per permintaan, dan panjang video boleh dipilih antara 4, 6, atau 8 saat (aliran kerja imej rujukan menyokong 8s).

Prestasi penanda aras

Penilaian dalaman Google dan ringkasan awam melaporkan keutamaan yang kuat terhadap output Veo 3.1 dalam perbandingan penilai manusia pada metrik seperti penjajaran teks, kualiti visual, dan koherens audio–visual (tugasan teks→video dan imej→video).

Veo 3.1 mencapai state-of-the-art dalam perbandingan penilai manusia dalaman merentasi beberapa paksi objektif — keutamaan keseluruhan, penjajaran prompt (teks→video dan imej→video), kualiti visual, penjajaran audio-video, dan “fizik yang kelihatan realistik” pada set data penanda aras seperti MovieGenBench dan VBench.

Batasan & pertimbangan keselamatan

Batasan:

Artifak & ketidakselarasan: walaupun ada penambahbaikan, pencahayaan tertentu, fizik berbutir halus, dan oklusi kompleks masih boleh menghasilkan artifak; konsistensi imej→video (terutamanya untuk durasi panjang) bertambah baik tetapi belum sempurna.
Risiko maklumat palsu/deepfake: audio yang lebih kaya + penyisipan/penyingkiran objek meningkatkan risiko penyalahgunaan (audio palsu realistik dan klip yang dipanjangkan). Google menyatakan mitigasi (dasar, perlindungan) dan pelancaran Veo yang terdahulu merujuk tanda air/SynthID untuk membantu asal usul; namun perlindungan teknikal tidak menghapuskan risiko penyalahgunaan.
Kekangan kos & throughput: video beresolusi tinggi dan panjang mahal dari segi pengiraan dan pada masa ini dihadkan dalam pratonton berbayar — jangkakan kependaman dan kos lebih tinggi berbanding model imej. Perkongsian komuniti dan benang forum Google membincangkan tetingkap ketersediaan dan strategi sandaran.

Safety controls: Veo3.1 mempunyai dasar kandungan bersepadu, pensinyalan tanda air/SynthID dalam keluaran Veo terdahulu, dan kawalan akses pratonton; pelanggan dinasihatkan mematuhi dasar platform dan melaksanakan semakan manusia bagi output berisiko tinggi.

Kes penggunaan praktikal

Prototip pantas untuk kreatif: papan cerita → klip berbilang shot dan animatik dengan dialog asli untuk semakan kreatif awal.
Pemasaran & kandungan bentuk pendek: spot produk 15–60s, klip sosial, dan penggoda konsep di mana kelajuan lebih penting daripada fotorealisme sempurna.
Penyesuaian imej→video: menukarkan ilustrasi, watak, atau dua bingkai kepada peralihan lancar atau babak animasi melalui First/Last Frame dan Scene Extension.
Penambahan alat: disepadukan ke dalam Flow untuk suntingan berlelaran (penyisipan/penyingkiran objek, pratetap pencahayaan) yang mengurangkan kerja VFX manual.

Perbandingan dengan model terkemuka lain

Veo 3.1 vs Veo 3 (pendahulu): Veo 3.1 memfokus pada pematuhan prompt yang dipertingkat, kualiti audio, dan konsistensi berbilang shot — peningkatan bertahap tetapi berimpak yang bertujuan mengurangkan artifak dan memperbaik kebolehsuntingan.

Veo 3.1 vs OpenAI Sora 2: pertukaran kelebihan yang dilaporkan di media: Veo 3.1 menekankan kawalan naratif bentuk panjang, audio terintegrasi, dan integrasi penyuntingan Flow; Sora 2 (apabila dibandingkan di media) memfokus pada kekuatan berbeza (kelajuan, saluran penyuntingan berbeza). TechRadar dan saluran lain menggambarkan Veo 3.1 sebagai pesaing sasaran Google kepada Sora 2 untuk sokongan naratif dan video lebih panjang. Ujian perbandingan berdampingan bebas masih terhad.

Keupayaan	Veo 3.1	Sora 2	Runway Gen-4 / Gen-4.5
Output menegak asli	Ya	Sokongan aliran kerja terhad	Ya
Imej-ke-video	Ya	Ya	Ya
Fokus integrasi audio	Kuat	Sederhana	Sederhana
Pengkondisian bingkai	Ya	Ya	Sebahagian
Pengoptimuman video sosial	Kuat	Sederhana	Kuat
Integrasi ekosistem API	Ekosistem Google	Ekosistem OpenAI	Ekosistem alat pencipta

Bagaimanakah saya menggunakan API Veo 3.1 dengan CometAPI?

Cipta kunci API CometAPI
Pilih veo-3.1-generate-001 sebagai titik akhir model
Hantar prompt atau input imej melalui API penjanaan video
Kaji keputusan (poll) dan dapatkan video yang dijana
Ulang tambah baik prompt untuk pergerakan kamera, kesinambungan babak, dan penambahbaikan konsistensi

Harga untuk Veo 3.1

Terokai harga yang kompetitif untuk Veo 3.1, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana Veo 3.1 boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.

Veo Video Generation Pricing

Pricing (Per Second)

Model	720p	1080p	4K
`veo3`	$0.32	$0.32	$0.48
`veo3-fast`	$0.08	$0.096	$0.24
`veo3.1`	$0.32	$0.32	$0.48
`veo3.1-fast`	$0.08	$0.096	$0.24

💡 Billed per second. Total cost = price per second × video duration (seconds).

Kod contoh dan API untuk Veo 3.1

Akses kod sampel yang komprehensif dan sumber API untuk Veo 3.1 bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh Veo 3.1 dalam projek anda.

Python
JavaScript
Curl

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("
Step 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("
Step 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Curl Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Versi Veo 3.1

Sebab Veo 3.1 mempunyai berbilang snapshot mungkin merangkumi faktor berpotensi seperti variasi output selepas kemas kini yang memerlukan snapshot lama untuk konsistensi, menyediakan tempoh peralihan untuk penyesuaian dan migrasi kepada pembangun, serta snapshot berbeza yang sepadan dengan endpoint global atau serantau untuk mengoptimumkan pengalaman pengguna. Untuk perbezaan terperinci antara versi, sila rujuk dokumentasi rasmi.

ID model	penerangan	Ketersediaan	Permintaan
veo3.1-all	Teknologi yang digunakan adalah tidak rasmi dan penjanaannya tidak stabil, dsb.	✅	Chat format
veo3.1	Disyorkan, merujuk kepada model terkini	✅	Async Generation