Can Veo 3.1 API generate videos from images as well as text prompts?

Có. Veo 3.1 hỗ trợ cả quy trình làm việc chuyển văn bản thành video và chuyển hình ảnh thành video, cho phép người sáng tạo bắt đầu từ lời nhắc, hình ảnh hoặc các quy trình hướng dẫn theo khung hình.

When should I use Veo 3.1 instead of Sora 2?

Hãy chọn Veo 3.1 khi đồng bộ âm thanh, các quy trình làm việc được dẫn hướng bằng hình ảnh, tạo nội dung dọc, hoặc tích hợp với các công cụ của Google trong hệ sinh thái là quan trọng nhất.

Can Veo 3.1 create vertical videos for TikTok or Shorts?

Có. Veo 3.1 hỗ trợ tỉ lệ khung hình gốc 9:16.

What should I do if Veo 3.1 generation fails or produces poor results?

Giảm độ phức tạp của lời nhắc, đơn giản hóa chỉ dẫn máy quay và lặp lại, tinh chỉnh lời nhắc.

Is Veo 3.1 suitable for commercial marketing videos and ads?

Có. Rất phù hợp cho nội dung thương hiệu, video sản phẩm và các chiến dịch trên mạng xã hội.

Is there a free trial for Veo 3.1 API in CometAPI?

Người dùng mới sẽ nhận được một khóa miễn phí, và giá API vẫn sẽ bằng 20% giá chính thức.

API Veo 3.1 Giá Phải Chăng | image-to-video

Thông số kỹ thuật của Veo 3.1

Mục	Veo 3.1 (thông số công khai)
ID model chính thức	veo-3.1-generate-001
Nhà cung cấp	Google DeepMind / Google Cloud
Loại mô hình	Tạo video từ văn bản và từ ảnh
Loại đầu vào	Prompt văn bản, đầu vào hình ảnh, hướng dẫn khung đầu và khung cuối
Loại đầu ra	Video do AI tạo ra
Độ phân giải được hỗ trợ	720p và 1080p, 4K
Tỷ lệ khung hình được hỗ trợ	16:9 và 9:16
Tốc độ khung hình được hỗ trợ	24 FPS
Thời lượng video	Clip 4s, 6s, hoặc 8s (phụ thuộc chế độ)
Ngôn ngữ prompt	Tiếng Anh
Số video mỗi yêu cầu	Tối đa 4
Giới hạn tốc độ API	Tối đa 50 yêu cầu/phút/dự án
Hình thức triển khai được hỗ trợ	Vertex AI, tích hợp hệ sinh thái Gemini, Flow
Tính năng không được hỗ trợ (tài liệu chính thức)	Hạn ngạch chia sẻ động, một số quy trình tham chiếu hình ảnh, mở rộng video gốc trong luồng API tiêu chuẩn

Veo 3.1 là gì?

Veo 3.1 là dòng mô hình video sinh tạo chủ lực của Google, tập trung vào tổng hợp video chất lượng điện ảnh, bám sát prompt mạnh hơn, tính nhất quán cảnh tốt hơn và quy trình tạo video đa phương thức. Nó vượt ra ngoài tạo video từ văn bản tiêu chuẩn bằng cách hỗ trợ tạo theo hướng dẫn bằng hình ảnh và các quy trình kể chuyện được kiểm soát theo khung hình. Hỗ trợ chính thức bao gồm text-to-video, image-to-video, viết lại prompt, và quy trình tạo First/Last Frame.

Tính năng cốt lõi

Veo 3.1 tập trung vào các tính năng tạo nội dung thực tiễn:

Sinh âm thanh gốc (đối thoại, âm thanh môi trường, SFX) được tích hợp trong đầu ra. Veo 3.1 tạo âm thanh gốc (đối thoại + âm thanh môi trường + SFX) khớp với dòng thời gian hình ảnh; mô hình hướng tới việc giữ đồng bộ khẩu hình và căn chỉnh âm thanh–hình ảnh cho hội thoại và tín hiệu cảnh.
Đầu ra dài hơn (hỗ trợ tới ~60 giây / 1080p so với các clip rất ngắn của Veo 3, 8s), và các chuỗi nhiều cú máy với nhiều prompt để đảm bảo tính liên tục trong câu chuyện.
Chế độ Scene Extension và First/Last Frame cho phép mở rộng hoặc nội suy cảnh quay giữa các khung hình then chốt.
Chèn đối tượng và (sắp có) xóa đối tượng cùng các thao tác chỉnh sửa cơ bản bên trong Flow.

Mỗi điểm trên nhằm giảm khối lượng VFX thủ công: âm thanh và tính liên tục của cảnh giờ là đầu ra chính thay vì phần bổ sung muộn.

Chi tiết kỹ thuật (hành vi mô hình & đầu vào)

Dòng mô hình & biến thể: Veo thuộc họ Veo-3 của Google; ID mô hình bản xem trước thường là veo3.1-pro; veo3.1 (tài liệu CometAPI). Nó chấp nhận prompt văn bản, tham chiếu hình ảnh (khung đơn hoặc chuỗi), và bố cục nhiều prompt có cấu trúc cho việc tạo nhiều cú máy.

Độ phân giải & thời lượng: Tài liệu bản xem trước mô tả đầu ra ở 720p/1080p với tùy chọn thời lượng dài hơn (tối đa ~60s trong một số thiết lập bản xem trước) và độ trung thực cao hơn so với các biến thể Veo trước đó.

Tỷ lệ khung hình: 16:9 (được hỗ trợ) và 9:16 (được hỗ trợ, trừ một số luồng tham chiếu hình ảnh).

Ngôn ngữ prompt: Tiếng Anh (bản xem trước).

Giới hạn API: giới hạn điển hình của bản xem trước gồm tối đa 10 yêu cầu API/phút/mỗi dự án, tối đa 4 video mỗi yêu cầu, và độ dài video có thể chọn giữa 4, 6 hoặc 8 giây (các luồng tham chiếu hình ảnh hỗ trợ 8s).

Hiệu năng benchmark

Các đánh giá nội bộ và tóm tắt công khai của Google cho thấy mức độ ưa thích cao đối với đầu ra của Veo 3.1 trong so sánh do người đánh giá thực hiện theo các tiêu chí như căn chỉnh với văn bản, chất lượng hình ảnh, và độ gắn kết âm thanh–hình ảnh (nhiệm vụ text→video và image→video).

Veo 3.1 đạt kết quả tiên tiến nhất trong các so sánh nội bộ do người đánh giá thực hiện trên nhiều trục khách quan — mức ưa thích tổng thể, bám sát prompt (text→video và image→video), chất lượng hình ảnh, căn chỉnh âm thanh–video, và “vật lý thị giác thực tế” trên các bộ dữ liệu benchmark như MovieGenBench và VBench.

Hạn chế & cân nhắc an toàn

Hạn chế:

Tạo tác & thiếu nhất quán: dù đã cải thiện, một số điều kiện ánh sáng, vật lý chi tiết, và che khuất phức tạp vẫn có thể tạo ra tạo tác; tính nhất quán ảnh→video (đặc biệt ở thời lượng dài) đã cải thiện nhưng chưa hoàn hảo.
Rủi ro thông tin sai lệch / deepfake: âm thanh phong phú hơn + chèn/xóa đối tượng làm tăng nguy cơ lạm dụng (âm thanh giả chân thực và clip kéo dài). Google lưu ý các biện pháp giảm thiểu (chính sách, biện pháp bảo vệ) và các lần ra mắt Veo trước đó đề cập watermarking/SynthID để hỗ trợ truy xuất nguồn gốc; tuy nhiên, các biện pháp kỹ thuật không loại bỏ hoàn toàn rủi ro lạm dụng.
Hạn chế về chi phí & thông lượng: video độ phân giải cao, thời lượng dài tiêu tốn tài nguyên tính toán và hiện được giới hạn trong bản xem trước có trả phí — kỳ vọng độ trễ và chi phí cao hơn so với các mô hình ảnh. Các bài viết cộng đồng và chuỗi thảo luận trên diễn đàn Google bàn về khoảng thời gian khả dụng và chiến lược dự phòng.

Biện pháp an toàn: Veo 3.1 tích hợp chính sách nội dung, tín hiệu watermarking/SynthID từ các phiên bản Veo trước đó, và kiểm soát quyền truy cập bản xem trước; khuyến nghị khách hàng tuân thủ chính sách nền tảng và triển khai rà soát thủ công cho các đầu ra rủi ro cao.

Tình huống sử dụng thực tế

Dựng mẫu nhanh cho sáng tạo: storyboard → các clip nhiều cú máy và animatic với đối thoại gốc để phục vụ đánh giá sáng tạo sớm.
Marketing & nội dung dạng ngắn: spot sản phẩm 15–60s, clip mạng xã hội, và teaser ý tưởng nơi tốc độ quan trọng hơn tính siêu thực hoàn hảo.
Chuyển thể ảnh→video: biến minh họa, nhân vật, hoặc hai khung hình thành chuyển cảnh mượt mà hoặc cảnh động qua First/Last Frame và Scene Extension.
Tăng cường công cụ: tích hợp vào Flow cho quy trình chỉnh sửa lặp (chèn/xóa đối tượng, preset ánh sáng) giúp giảm các lượt VFX thủ công.

So sánh với các mô hình hàng đầu khác

Veo 3.1 vs Veo 3 (tiền nhiệm): Veo 3.1 tập trung vào bám sát prompt tốt hơn, chất lượng âm thanh, và tính nhất quán nhiều cú máy — những cải tiến gia tăng nhưng có tác động rõ rệt nhằm giảm tạo tác và cải thiện khả năng chỉnh sửa.

Veo 3.1 vs OpenAI Sora 2: theo báo chí, Veo 3.1 nhấn mạnh khả năng kiểm soát câu chuyện dạng dài, âm thanh tích hợp, và tích hợp chỉnh sửa với Flow; Sora 2 (khi được so sánh trên báo chí) tập trung vào các thế mạnh khác (tốc độ, quy trình chỉnh sửa khác biệt). TechRadar và các kênh khác coi Veo 3.1 là đối thủ mục tiêu của Google với Sora 2 về tường thuật và hỗ trợ video dài hơn. Các thử nghiệm so sánh song song độc lập vẫn còn hạn chế.

Khả năng	Veo 3.1	Sora 2	Runway Gen-4 / Gen-4.5
Đầu ra dọc gốc	Có	Hỗ trợ quy trình có giới hạn	Có
Từ ảnh sang video	Có	Có	Có
Tập trung tích hợp âm thanh	Mạnh	Vừa	Vừa
Điều kiện hóa theo khung hình	Có	Có	Một phần
Tối ưu cho video mạng xã hội	Mạnh	Vừa	Mạnh
Tích hợp hệ sinh thái API	Hệ sinh thái Google	Hệ sinh thái OpenAI	Hệ sinh thái công cụ sáng tạo

Tôi sử dụng API Veo 3.1 với CometAPI như thế nào?

Tạo khóa API CometAPI
Chọn veo-3.1-generate-001 làm endpoint mô hình
Gửi prompt hoặc đầu vào hình ảnh qua API tạo video
Thăm dò kết quả và lấy video đã tạo
Lặp lại prompt để điều khiển chuyển động camera, tính liên tục của cảnh, và cải thiện tính nhất quán

Giá cả cho Veo 3.1

Khám phá mức giá cạnh tranh cho Veo 3.1, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Veo 3.1 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

Veo Video Generation Pricing

Pricing (Per Second)

Model	720p	1080p	4K
`veo3`	$0.32	$0.32	$0.48
`veo3-fast`	$0.08	$0.096	$0.24
`veo3.1`	$0.32	$0.32	$0.48
`veo3.1-fast`	$0.08	$0.096	$0.24

💡 Billed per second. Total cost = price per second × video duration (seconds).

Mã mẫu và API cho Veo 3.1

Truy cập mã mẫu toàn diện và tài nguyên API cho Veo 3.1 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Veo 3.1 trong các dự án của mình.

Python
JavaScript
Curl

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("
Step 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("
Step 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

Python Code Example

import os
import requests
import json

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

headers = {
    "Authorization": COMETAPI_KEY,
}

# ============================================================
# Step 1: Download Reference Image
# ============================================================
print("Step 1: Downloading reference image...")

image_url = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
image_response = requests.get(image_url)
image_path = "/tmp/veo3.1_reference.jpg"
with open(image_path, "wb") as f:
    f.write(image_response.content)
print(f"Reference image saved to: {image_path}")

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
print("\nStep 2: Creating video generation task...")

with open(image_path, "rb") as image_file:
    files = {
        "input_reference": ("reference.jpg", image_file, "image/jpeg"),
    }
    data = {
        "prompt": "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot",
        "model": "veo3.1",
        "size": "16x9",
    }
    create_response = requests.post(
        f"{BASE_URL}/videos", headers=headers, data=data, files=files
    )

create_result = create_response.json()
print("Create response:", json.dumps(create_result, indent=2))

task_id = create_result.get("id")
if not task_id:
    print("Error: Failed to get task_id from response")
    exit(1)
print(f"Task ID: {task_id}")

# ============================================================
# Step 3: Query Task Status
# ============================================================
print("\nStep 3: Querying task status...")

query_response = requests.get(f"{BASE_URL}/videos/{task_id}", headers=headers)
query_result = query_response.json()
print("Query response:", json.dumps(query_result, indent=2))

task_status = query_result.get("data", {}).get("status")
print(f"Task status: {task_status}")

JavaScript Code Example

import fs from "fs";
import path from "path";
import os from "os";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

// ============================================================
// Step 1: Download Reference Image
// ============================================================
console.log("Step 1: Downloading reference image...");

const imageUrl = "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280";
const imageResponse = await fetch(imageUrl);
const imageBuffer = Buffer.from(await imageResponse.arrayBuffer());
const imagePath = path.join(os.tmpdir(), "veo3.1_reference.jpg");
fs.writeFileSync(imagePath, imageBuffer);
console.log(`Reference image saved to: ${imagePath}`);

// ============================================================
// Step 2: Create Video Generation Task (form-data with image upload)
// ============================================================
console.log("\nStep 2: Creating video generation task...");

const formData = new FormData();
formData.append("prompt", "A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot");
formData.append("model", "veo3.1");
formData.append("size", "16x9");
formData.append("input_reference", new Blob([fs.readFileSync(imagePath)], { type: "image/jpeg" }), "reference.jpg");

const createResponse = await fetch(`${base_url}/videos`, {
  method: "POST",
  headers: {
    "Authorization": api_key,
  },
  body: formData,
});

const createResult = await createResponse.json();
console.log("Create response:", JSON.stringify(createResult, null, 2));

const taskId = createResult?.id;
if (!taskId) {
  console.log("Error: Failed to get task_id from response");
  process.exit(1);
}
console.log(`Task ID: ${taskId}`);

// ============================================================
// Step 3: Query Task Status
// ============================================================
console.log("\nStep 3: Querying task status...");

const queryResponse = await fetch(`${base_url}/videos/${taskId}`, {
  method: "GET",
  headers: {
    "Authorization": api_key,
  },
});

const queryResult = await queryResponse.json();
console.log("Query response:", JSON.stringify(queryResult, null, 2));

const taskStatus = queryResult?.data?.status;
console.log(`Task status: ${taskStatus}`);

Curl Code Example

#!/bin/bash
# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

BASE_URL="https://api.cometapi.com/v1"
IMAGE_PATH="/tmp/veo3.1_reference.jpg"

# ============================================================
# Step 1: Download Reference Image
# ============================================================
echo "Step 1: Downloading reference image..."

curl -s -o "$IMAGE_PATH" "https://images.unsplash.com/photo-1506905925346-21bda4d32df4?w=1280"
echo "Reference image saved to: $IMAGE_PATH"

# ============================================================
# Step 2: Create Video Generation Task (form-data with image upload)
# ============================================================
echo ""
echo "Step 2: Creating video generation task..."

RESPONSE=$(curl -s -X POST "${BASE_URL}/videos" \
  -H "Authorization: $COMETAPI_KEY" \
  -F 'prompt=A breathtaking mountain landscape with clouds flowing through valleys, cinematic aerial shot' \
  -F 'model=veo3.1' \
  -F 'size=16x9' \
  -F "input_reference=@${IMAGE_PATH}")

echo "Create response:"
echo "$RESPONSE" | jq .

TASK_ID=$(echo "$RESPONSE" | jq -r '.id')

if [ "$TASK_ID" = "null" ] || [ -z "$TASK_ID" ]; then
  echo "Error: Failed to get task_id from response"
  exit 1
fi

echo "Task ID: $TASK_ID"

# ============================================================
# Step 3: Query Task Status
# ============================================================
echo ""
echo "Step 3: Querying task status..."

QUERY_RESPONSE=$(curl -s -X GET "${BASE_URL}/videos/${TASK_ID}" \
  -H "Authorization: $COMETAPI_KEY")

echo "Query response:"
echo "$QUERY_RESPONSE" | jq .

TASK_STATUS=$(echo "$QUERY_RESPONSE" | jq -r '.data.status')
echo "Task status: $TASK_STATUS"

Các phiên bản của Veo 3.1

Lý do Veo 3.1 có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.

Model id	Mô tả	Khả dụng	Yêu cầu
veo3.1-all	Công nghệ được sử dụng là không chính thức và việc tạo sinh không ổn định, v.v.	✅	Trò chuyện định dạng
veo3.1	Được khuyến nghị, trỏ tới mô hình mới nhất	✅	Tạo không đồng bộ