Cách sử dụng API Veo 3.1

Veo 3.1 là phiên bản mới nhất của dòng sản phẩm Veo, một loạt các mô hình tạo video của Google. Phiên bản này mang đến âm thanh gốc phong phú hơn, khả năng kiểm soát cốt truyện và hiệu ứng điện ảnh tốt hơn, hỗ trợ hướng dẫn đa hình ảnh và các nguyên mẫu chỉnh sửa mới (chuyển cảnh khung hình đầu tiên/cuối cùng, "thành phần"/hình ảnh tham chiếu và quy trình mở rộng cảnh). Đối với các nhà phát triển, cách nhanh nhất để truy cập Veo 3.1 là API (dành cho tích hợp hướng đến người dùng) và Vertex AI (dành cho khối lượng công việc doanh nghiệp và đám mây).

API Veo 3.1 là gì và các tính năng chính của nó là gì?

Veo 3.1 là một mô hình tạo văn bản và hình ảnh → video của Google, được thiết kế để tạo ra các đoạn phim ngắn, chất lượng cao, đậm chất điện ảnh với âm thanh được tạo sẵn (lời thoại, tín hiệu môi trường, hiệu ứng âm thanh). Phiên bản này tập trung vào việc cải thiện khả năng bám sát lời nhắc, tính nhất quán của nhân vật, khả năng tạo âm thanh và các điều khiển chỉnh sửa chi tiết hơn (ví dụ: chuyển tiếp khung hình đầu tiên → cuối cùng và hướng dẫn thông qua tối đa ba hình ảnh tham chiếu).

Các khả năng chính (nhìn thoáng qua)

Văn bản → Video: Tạo video trực tiếp từ lời nhắc tường thuật (bao gồm cả hội thoại và âm thanh).
Hình ảnh → Video: Chuyển đổi hình ảnh thành một cảnh hoạt hình ngắn. ()
Hình ảnh tham khảo (“Thành phần trong video”): Cung cấp lên đến 3 hình ảnh (nhân vật, đối tượng, kiểu) để duy trì tính nhất quán về mặt hình ảnh trên các đầu ra.
Tạo khung hình đầu tiên và cuối cùng: Tạo hiệu ứng chuyển tiếp giữa hai hình ảnh (mô hình tạo ra các khung hình chuyển đổi mượt mà giữa chúng, kèm theo âm thanh phù hợp).
Quy trình mở rộng cảnh: Công cụ mở rộng clip hiện có bằng cách tạo clip mới liên kết với phần cuối của video trước đó (lưu ý: khả năng và hỗ trợ khác nhau giữa Gemini API và bản xem trước Vertex—xem phần “điều kiện”).
Âm thanh gốc & SFX:Mô hình có thể tổng hợp giọng nói, âm thanh xung quanh và các hiệu ứng đồng bộ phù hợp với hình ảnh được tạo ra.

Làm thế nào để sử dụng API Veo 3.1 — các điều kiện tiên quyết và điều kiện là gì?

Bạn cần gì trước khi gọi API?

Truy cập và thanh toán: Veo 3.1 đang ở chế độ xem trước trả phí—hãy đảm bảo bạn có khóa API hoặc dự án Google Cloud đã bật Vertex AI và thiết lập thanh toán. Một số tính năng và biến thể mô hình bị giới hạn theo khu vực trong bản xem trước.
Hạn ngạch và ràng buộc xem trước: Các mô hình xem trước thường có giới hạn tốc độ yêu cầu cho mỗi dự án (ví dụ: 10 RPM cho các biến thể xem trước) và giới hạn số video cho mỗi yêu cầu. Kiểm tra trang mô hình trong tài liệu Vertex AI / Gemini để biết số liệu chính xác cho tài khoản của bạn.
Tài sản đầu vào & định dạng: Bạn có thể tạo video từ lời nhắc văn bản, từ một hoặc nhiều hình ảnh, hoặc mở rộng video hiện có do Veo tạo bằng cách tham chiếu đến URI của nó. Đối với quy trình làm việc từ hình ảnh sang video, hãy cung cấp hình ảnh ở các định dạng được hỗ trợ (URL hoặc byte tùy thuộc vào điểm cuối).
An toàn và nguồn gốc: Nội dung được tạo phải tuân thủ chính sách nội dung của Google. Trong bản xem trước, hình mờ hoặc cờ sử dụng có thể xuất hiện; hãy chuẩn bị xử lý các bước kiểm duyệt nguồn gốc và nội dung trong ứng dụng của bạn.

Những phương pháp xác thực nào được hỗ trợ?

Mã API: Dành cho các điểm cuối được lưu trữ trên Gemini hoặc khóa của nền tảng API của bên thứ ba. Tôi khuyên dùng CometAPI, Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp Veo 3.1 API (veo3.1-pro; veo3.1)
Thông tin xác thực Google Cloud / ADC: Đối với Vertex AI, hãy sử dụng Thông tin xác thực mặc định của ứng dụng (tài khoản dịch vụ / gcloud auth) hoặc khóa API được đính kèm vào dự án Google Cloud của bạn.

Điểm cuối API Veo 3.1 là gì và thông số nào quan trọng nhất?

Câu trả lời ngắn gọn: Bạn sẽ gọi API CometAPI điểm cuối tạo video (để truy cập được lưu trữ trên CometAPI, v1/chat/completions) . Cả hai đều sử dụng phần thân yêu cầu JSON mô tả mô hình, lời nhắc và video/output cấu hình; các tác vụ video lớn hơn được trả về dưới dạng các hoạt động chạy dài.

Điểm cuối chung (ví dụ):

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \  
--header 'Authorization: {{api-key}}' \  
--header 'Content-Type: application/json' \  
--data-raw '{  
"model": "veo3.1-pro",  
"stream": true,  
"messages":   
}'

Các tham số yêu cầu điển hình (phân tích logic)

kiểu mẫu — mã định danh mô hình để nhắm mục tiêu (veo3.1-pro; tên veo3.1 được liệt kê trong tham chiếu mô hình).
nhắc nhở / đầu vào — văn bản người dùng mô tả cảnh; có thể bao gồm nhiều lời nhắc hoặc hướng dẫn quay nhiều cảnh tùy thuộc vào khả năng của mô hình. Sử dụng lời nhắc có cấu trúc để điều khiển chuyển động của máy quay, thời gian trong ngày, tâm trạng và tín hiệu âm thanh.
tham chiếu hình ảnh — 1–3 URI hình ảnh hoặc hình ảnh base64 để hướng dẫn các đối tượng/ký tự/kiểu (Veo 3.1 hỗ trợ nhiều tham chiếu hình ảnh).
video — được sử dụng khi mở rộng đầu ra Veo trước đó (truyền URI video ban đầu). Một số tính năng chỉ hoạt động trên video do Veo tạo ra.
thời lượng / fps / độ phân giải / tỷ lệ khung hình — chọn từ các độ dài và định dạng được hỗ trợ (các mô hình xem trước liệt kê các khoảng thời gian và tốc độ khung hình được hỗ trợ—ví dụ: 4, 6, 8 giây trong một số tài liệu xem trước; tiện ích mở rộng có thể cho phép đầu ra dài hơn trong Flow/Studio).

Các mô hình và kỹ thuật sử dụng nâng cao là gì?

1) Duy trì tính nhất quán của ký tự với hình ảnh tham chiếu

Cung cấp tối đa ba hình ảnh tham chiếu (khuôn mặt/tư thế/trang phục) để duy trì diện mạo của nhân vật qua nhiều cảnh quay được tạo ra. Quy trình điển hình:

Tải lên hoặc mã hóa nội tuyến hình ảnh tham chiếu của bạn.
Truyền chúng vào config.reference_images khi tạo ra mỗi cú đánh.
Sử dụng cùng một hình ảnh cho các cuộc gọi thế hệ tiếp theo (hoặc kết hợp với các giá trị hạt giống) để tối đa hóa tính nhất quán về mặt hình ảnh.

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo3.1-pro",
"messages": [
{
"role": "user",
"content": "Create a cinematic 6s shot: a fashion editorial on a city rooftop at golden hour. Keep the subject look consistent with the reference images."
}
],
"extra_body": {
"google": {
"referenceImages": [
{ "image": { "uri": "https://example.com/ref1.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref2.jpg" }, "referenceType": "asset" },
{ "image": { "uri": "https://example.com/ref3.jpg" }, "referenceType": "asset" }
],
"config": {
"resolution": "1080p",
"durationSeconds": 6,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

2) Chuyển đổi khung hình đầu tiên và cuối cùng (tổng hợp cảnh quay)

Sử dụng image (khung hình đầu tiên) + config.last_frame để hướng dẫn Veo tổng hợp chuyển động trung gian. Điều này lý tưởng cho các chuyển cảnh điện ảnh — nó tạo ra hiệu ứng nội suy hình ảnh tự nhiên và âm thanh đồng bộ.

Cung cấp một khung hình đầu tiên (image) Và một khung hình cuối cùng (lastFrame) và Veo 3.1 sẽ nội suy chuyển động giữa chúng để tạo ra sự chuyển tiếp mượt mà (có âm thanh tùy chọn). Ví dụ cURL (REST) — hình ảnh đầu tiên + hình ảnh cuối cùng:

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Interpolate between these two images to create an 8s cinematic morph: from 'sunlit victorian parlor' (first) to 'overgrown ruin' (last). Add soft ambient sound."
}
],
"extra_body": {
"google": {
"image": { "uri": "https://example.com/first_frame.jpg" },
"lastFrame": { "uri": "https://example.com/last_frame.jpg" },
"config": {
"resolution": "1080p",
"durationSeconds": 8,
"fps": 24,
"aspectRatio": "16:9",
"generateAudio": true
}
}
}
}'

3) Mở rộng cảnh (chuỗi nhiều thế hệ)

Có hai mẫu:

Phương pháp API/Flow (tính năng xem trước): Bạn truyền một video hiện có (một đối tượng video được trả về hoặc URI) dưới dạng video=video_to_extend để tạo một đoạn clip tiếp theo phù hợp với cảnh trước đó. Sử dụng phản hồi thao tác để ghi lại video.uri và đưa nó vào cuộc gọi tiếp theo để mở rộng câu chuyện. Lưu ý: tính khả dụng và hành vi có thể thay đổi tùy theo nền tảng, vì vậy hãy xác thực trên nền tảng bạn chọn.
Mẫu đám mây đỉnh: Mô hình xem trước của Vertex có các giới hạn được liệt kê trong tài liệu chặt chẽ hơn (ví dụ: bản xem trước hiện tại chỉ trả về các phân đoạn 4/6/8 giây), vì vậy để tạo ra các đầu ra dài một phút, bạn phải nối nhiều yêu cầu và ghép chúng vào ứng dụng của mình hoặc sử dụng các công cụ mở rộng cảnh chính thức của công cụ nếu có. Kiểm tra trang "Bản xem trước Veo 3.1" của Vertex để biết ma trận hỗ trợ hiện tại.

Hãy trước đây được tạo ra bởi Veo Video và kéo dài về phía trước (thêm giây) mà vẫn giữ nguyên phong cách và tính liên tục. API yêu cầu đầu vào phải là video do Veo tạo ra (việc mở rộng các tệp MP4 tùy ý có thể không được hỗ trợ). Bạn có thể kéo dài thêm 7 giây đến giới hạn được ghi nhận (áp dụng giới hạn xem trước của Veo):

curl -s -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer cometapi_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"messages": [
{
"role": "user",
"content": "Extend the last scene: the origami butterfly flies into the garden and a puppy runs up to the flower; continue action for ~7 seconds."
}
],
"extra_body": {
"google": {
"video": { "uri": "https://storage.googleapis.com/your-bucket/butterfly_video_id.mp4" },
"config": {
"numberOfVideos": 1,
"resolution": "720p",
"durationSeconds": 7,
"fps": 24,
"generateAudio": true
}
}
}
}'

4) Điều khiển âm thanh và hội thoại

Veo 3.1 tạo ra âm thanh gốc (lời nói và hiệu ứng) từ lời nhắc. Thủ thuật:

Thêm bất kỳ câu thoại nào vào lời nhắc (đặt lời thoại trong dấu ngoặc kép) để khuyến khích việc nói nhép một cách chân thực.
Thêm các mô tả âm thanh (“tiếng bước chân nhẹ từ trái sang phải”, “tiếng sấm lớn dần”) để định hình hiệu ứng âm thanh và tâm trạng.
Sử dụng các giá trị hạt giống để tái tạo cùng một kết quả âm thanh/hình ảnh trong các lần chạy thử nghiệm.

5) Đầu ra xác định để thử nghiệm (hạt giống)

Nếu bạn cần đầu ra có thể lặp lại cho thử nghiệm CI hoặc A/B, hãy cung cấp seed tham số (uint32). Việc thay đổi lời nhắc hoặc hình ảnh tham chiếu vẫn sẽ làm thay đổi kết quả; hạt giống đảm bảo tính lặp lại có thể khi mọi thứ khác đều giống hệt nhau.

6) Tối ưu hóa chi phí và hiệu suất

Thực hiện ít công việc hơn, khối lượng công việc lớn hơn: Nơi được phép, thiết lập sampleCount để tạo nhiều video ứng viên trong một yêu cầu (1–4) nhằm giảm chi phí thiết lập. ()
Lưu trữ hình ảnh tham chiếu và tái sử dụng hạt giống để có thể tái tạo lại nhằm tránh phải tải lại các tệp nhị phân lớn.
Sử dụng đầu ra của Cloud Storage (Vertex) dành cho kích thước đầu ra lớn để tránh trả về các byte thô trong nội dung yêu cầu.

7) Đường ống nhiều bước với các mô hình Gemini khác

Một đường ống hữu ích: sử dụng trình tạo ảnh tĩnh (ví dụ: mô hình ảnh Gemini) để tạo tài sản → truyền hình ảnh tốt nhất làm image + referenceImages với Veo 3.1 → lặp lại lời nhắc âm thanh/đối thoại với mô hình văn bản để tạo lời tường thuật. Tài liệu Gemini trình bày rõ ràng các ví dụ về việc tạo hình ảnh và gọi Veo.

Mẹo thực tế, lưu ý và cách thực hành tốt nhất

Sử dụng hạt giống khi bạn muốn có kết quả đầu ra xác định, có thể lặp lại giữa các lần chạy (cùng một dấu nhắc + cùng một tham chiếu + cùng một hạt giống → cùng một thế hệ).
Giữ hình ảnh tham chiếu nhất quán: cùng một kiểu cắt, cùng một góc mặt, trang phục/phông nền nhất quán giúp người mẫu giữ được bản sắc và phong cách. Tái sử dụng ba hình ảnh giống nhau trong các cảnh quay để duy trì tính liên tục.
Ưu tiên URI GCS cho sản xuất: lưu trữ hình ảnh và đầu ra trong Cloud Storage giúp tránh giới hạn kích thước truyền base64 và đơn giản hóa việc kết nối/mở rộng.
Mô tả rõ ràng các chuyển tiếp và âm thanh: đối với phần chuyển tiếp đầu tiên/cuối cùng, hãy thêm chuyển động camera, nhịp độ và tín hiệu SFX/giọng nói vào lời nhắc để âm thanh được đồng bộ tốt hơn.
Kiểm tra các vòng lặp ngắn trước: lặp lại với thời lượng ngắn (4–8 giây) trong khi bạn điều chỉnh lời nhắc, hạt giống và hình ảnh tham chiếu, sau đó mở rộng chuỗi cho các cảnh dài hơn.
Xác nhận tên trường chính xác: SDK có thể sử dụng reference_images (trường hợp rắn), referenceImages (camelCase), hoặc lồng nhau image đối tượng với content / gcsUri. Kiểm tra tài liệu SDK hoặc lược đồ mô hình Vertex để biết tên thuộc tính chính xác trong phiên bản bạn sử dụng.

Veo 3.1 có giá bao nhiêu và được thanh toán như thế nào?

Veo 3.1 được thanh toán mỗi giây video được tạo ravà Google phơi bày nhiều biến thể (ví dụ Tiêu chuẩn và NHANH CHÓNG) với các mức giá khác nhau theo giây. Giá dành cho nhà phát triển được công bố cho thấy ví dụ về mức giá trả phí theo từng cấp 0.40 đô la/giây cho Veo 3.1 Standard và 0.15 đô la/giây cho Veo 3.1 FastTrang giá của Gemini cũng lưu ý rằng bạn chỉ bị tính phí khi video được tạo thành công (những lần tạo không thành công có thể không được tính phí).

API Veo 3.1 Giá cả trong CometAPI


vèo3.1	0.4000
veo3.1-pro	2.0000

Kết luận — tại sao Veo 3.1 lại quan trọng đối với các nhà phát triển hiện nay

Veo 3.1 là một bước tiến rõ ràng trong việc tạo video bằng AI: âm thanh gốc phong phú hơn, hướng dẫn hình ảnh tham chiếu và các nguyên mẫu chỉnh sửa mới giúp nó trở thành một lựa chọn mạnh mẽ hơn cho các ứng dụng kể chuyện, hình ảnh hóa trước và sáng tạo. Khả năng chính xác của mô hình có đôi chút khác biệt giữa các điểm cuối và bản dựng xem trước (Ví dụ: sự khác biệt về phiên bản giữa CometAPI và gemini) — vì vậy hãy kiểm tra và xác thực biến thể mô hình bạn định sử dụng. Các ví dụ trong hướng dẫn này cung cấp một điểm khởi đầu thực tế cho việc tạo mẫu và sản xuất.

Làm thế nào để truy cập API Veo 3.1 API

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập API Veo 3.1 thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!