Google đã giới thiệu công khai Phiên bản 3.1 (và một Veo 3.1 Fast biến thể) vào giữa tháng 10 năm 2025 như một mô hình chuyển văn bản thành video được cải tiến, tạo ra các clip ngắn có độ trung thực cao hơn với âm thanh gốc, tuân thủ nhanh hơn và khả năng chỉnh sửa mới như phần mở rộng cảnh/clip, nội suy từng khung hìnhvà hướng dẫn bằng hình ảnh thế hệ (sử dụng tối đa ba hình ảnh tham chiếu). Veo 3.1 có sẵn thông qua API, xuất hiện trong Gemini ứng dụng và Dòng chảy công cụ sáng tạo và được các nhà phát triển doanh nghiệp tiếp cận thông qua Đỉnh AI và Google AI Studio (tính khả dụng khác nhau tùy theo nền tảng và gói). Tích hợp Flow mang đến nhiều điều khiển chỉnh sửa UI hơn (ánh sáng/bóng đổ, chèn/xóa đối tượng sẽ sớm ra mắt), trong khi các API cung cấp các tính năng mở rộng và tạo lập trình cho nhà phát triển.
Tôi sẽ hướng dẫn cách chỉnh sửa video thông qua Veo 3.1 (Flow, CometAPI/Gemini API — từng bước một).
Veo 3.1 có chức năng gì và nó xuất phát từ đâu?
Veo 3.1 là phiên bản mới nhất của dòng mô hình video tạo hình (Veo) của Google, được xây dựng để biến lời nhắc văn bản — và tùy chọn là hình ảnh hoặc khung video hiện có — thành các đoạn video ngắn, mạch lạc, chân thực hoặc được cách điệu với âm thanh tổng hợp (lời thoại, âm thanh xung quanh, hiệu ứng đặc biệt). Bản cập nhật 3.1 nhấn mạnh chủ nghĩa hiện thực tốt hơn, âm thanh gốc phong phú hơnvà công cụ cho tính liên tục (mở rộng cảnh và nội suy khung hình), định vị Veo như một đối tác tập trung vào video cho các mô hình văn bản và hình ảnh của Google.
Các nâng cấp chính trong phiên bản 3.1 bao gồm:
- Tổng hợp âm thanh và hội thoại gốc cho các clip được tạo ra (không cần đường truyền giọng nói riêng).
- Nội suy từng khung hình (khung hình đầu tiên và cuối cùng điều khiển clip được tạo).
- Tạo theo hình ảnh hướng dẫn (sử dụng tối đa ba hình ảnh tham chiếu để duy trì tính nhất quán về phong cách/ký tự).
- Mở rộng cảnh (duy trì tính liên tục bằng cách tạo các clip kết nối được lấy từ giây cuối cùng của các clip trước đó).
- Tuân thủ nhanh hơn và cải thiện khả năng điều khiển điện ảnh.
Veo 3.1 chạy ở đâu?
Veo 3.1 có sẵn trong Google API (bản xem trước có trả phí), Vertex AI / Model Garden, Ứng dụng di động/web Geminivà được tích hợp vào bản demo Flow và Veo Studio. Sao chổiAPI cũng đã bắt đầu tích hợp Veo.
Làm thế nào tôi có thể chỉnh sửa video thông qua Veo 3.1 trong Flow? từng bước
Dưới đây tôi sẽ hướng dẫn các quy trình làm việc theo chương trình và giao diện người dùng (UI) phổ biến nhất: chỉnh sửa trong Flow (UI của người sáng tạo), sử dụng ứng dụng Gemini (tạo nhanh) và sử dụng Gemini API/Vertex AI theo chương trình (cho sản xuất và tự động hóa).
Làm thế nào để chỉnh sửa video bằng Flow (giao diện người dùng của người sáng tạo)?
Dòng chảy là giao diện người dùng sáng tạo của Google dành cho các nhà làm phim/người sáng tạo tích hợp các mô hình Veo để tạo ra và Một bộ điều khiển chỉnh sửa (ánh sáng, đổ bóng, bố cục cảnh, công cụ chèn/xóa đối tượng). Với Veo 3.1 trong Flow, bạn có thể:
- Tạo hoặc tái tạo các cảnh quay có âm thanh phong phú hơn.
- Sử dụng “Thành phần cho Video” (tải lên hình ảnh tham khảo để có các ký tự/phong cách nhất quán).
- Mở rộng cảnh hoặc nối nhiều cảnh quay lại với nhau bằng tính năng Mở rộng cảnh (kết nối các clip mới với phần kết thúc của clip trước đó).
- Áp dụng tính năng chèn và (sắp có) xóa đối tượng cơ bản bên trong UI.
Làm thế nào để thực hiện chỉnh sửa cơ bản trong Flow (các bước thực tế)?
- Tạo/tạo clip hạt giống của bạn (lời nhắc văn bản hoặc lời nhắc hình ảnh).
- Sử dụng dòng thời gian để chọn phần cuối của clip và chọn Gia hạn (Mở rộng Cảnh) với lời nhắc mới để tiếp tục hành động hoặc thêm chuyển động. Mỗi phần mở rộng sẽ thêm một bước nhảy nhỏ mà hệ thống sẽ kết hợp để duy trì tính liên tục.
- Để thay đổi đối tượng, hãy sử dụng công cụ Chèn (mô tả mục cần thêm và vị trí thêm). Để xóa, hãy làm theo công cụ Xóa của Flow khi có sẵn và xác minh các hiện tượng ghép.
- Xuất và nếu cần, chỉnh sửa trong NLE truyền thống (Premiere, DaVinci Resolve) để phân loại màu sắc, tạo phụ đề hoặc cắt chính xác.
Flow được thiết kế để thực hiện các chỉnh sửa sáng tạo lặp đi lặp lại một cách nhanh chóng; coi nó như sự kết hợp giữa chỉnh sửa dòng thời gian và thay thế tạo ra.
Làm thế nào để chỉnh sửa hoặc tạo video theo chương trình thông qua API Veo 3.1
Có hai lộ trình lập trình chính:
- API Gemini (ngôn ngữ tạo sinh / SDK Gemini) — được sử dụng để gọi trực tiếp các mô hình Veo để tạo và mở rộng (ví dụ được cung cấp trong tài liệu API Gemini của Google).
- CometAPI (Định dạng OpenAI/ trò chuyện)— CometAPI cung cấp quyền truy cập vào Hình ảnh Gemini 3 Pro (Nano Banana Pro),Song Tử 3 Pro và hơn 100 mô hình AI để trò chuyện, hình ảnh, âm nhạc và tạo video, bạn có thể truy cập Phiên bản 3.1 thông qua điểm trò chuyện theo phong cách OpenAI.
Việc chỉnh sửa với Veo 3.1 có thể được xem như một vài luồng riêng biệt. Mỗi luồng kết hợp dữ liệu đầu vào của mô hình (văn bản / hình ảnh / video) và một bước hậu kỳ để có được kết quả sẵn sàng cho sản xuất.
Veo 3.1 được triển khai thông qua các API. Mô hình điển hình là một quá trình chạy dài generateVideos hoạt động — bạn đăng công việc, thăm dò hoạt động và tải xuống tệp đầu ra sau khi hoàn tất.
Dưới đây là các ví dụ đơn giản, dễ chạy — hãy điều chỉnh theo khóa API và môi trường của bạn. ; tham khảo hướng dẫn xác thực và SDK của môi trường bạn.
Ví dụ về JavaScript (Node) — tạo và thăm dò
Ví dụ này dựa trên cách sử dụng theo phong cách API Gemini.
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
Mẫu này (gửi → thăm dò → tải xuống) là phương pháp chuẩn trong tài liệu Gemini.
Tôi có thể sử dụng curl/REST thay cho Python SDK không?
Có — trang web chính thức hiển thị SDK, nhưng veo 3.1 cơ bản có thể được sử dụng thông qua REST. Việc triển khai khác nhau tùy theo môi trường (Gemini API so với CometAPI REST). Nếu bạn thích curl, hãy đảm bảo bạn tuân thủ đúng quy trình xác thực (mã thông báo Bearer từ Google Cloud hoặc khóa cometAPIAPI) và sử dụng điểm cuối để tạo video dành riêng cho sản phẩm của bạn. Ví dụ về pseudo-curl của CometAPI (điều chỉnh theo xác thực và điểm cuối của bạn):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
Quan trọng: URL REST chính xác và cấu trúc tải trọng phụ thuộc vào việc bạn có sử dụng hay không API Song Tử or Sao chổiAPI Điểm cuối—hãy tham khảo tài liệu sản phẩm trước khi gửi yêu cầu. SDK sẽ xử lý nhiều chi tiết xác thực và thăm dò cho bạn.
Cách sử dụng Veo 3.1 — những quy trình công việc nào được hỗ trợ?
Dưới đây tôi sẽ hướng dẫn bạn các luồng thực tế mà bạn sẽ sử dụng khi chỉnh sửa bằng Veo 3.1: luồng UX (Flow/Gemini studio) và luồng lập trình (Gemini API/Vertex API). Với mỗi luồng, tôi sẽ đưa ra các ví dụ, lưu ý và đoạn mã ngắn mà bạn có thể sao chép.
Việc chỉnh sửa với Veo 3.1 có thể được xem như một vài luồng riêng biệt. Mỗi luồng kết hợp dữ liệu đầu vào của mô hình (văn bản / hình ảnh / video) và một bước hậu kỳ để có được kết quả sẵn sàng cho sản xuất.
Quy trình chỉnh sửa chính
Có ba luồng chỉnh sửa thực tế mà bạn sẽ thường xuyên sử dụng:
- Chỉnh sửa và tạo lại theo văn bản — thay đổi cảnh quay bằng cách viết lại lời nhắc hoặc áp dụng hướng dẫn mới cho cùng một cảnh.
- Chỉnh sửa hướng dẫn hình ảnh tham khảo (“Thành phần của video”) — bạn cung cấp tối đa 3 hình ảnh để lưu giữ một ký tự hoặc đối tượng trên các khung hình được tạo.
- Nội suy khung hình (Khung hình đầu tiên và cuối cùng) — cung cấp hình ảnh bắt đầu và kết thúc và Veo sẽ tạo chuỗi chuyển tiếp giữa chúng (có âm thanh nếu được yêu cầu).
- Mở rộng cảnh — mở rộng một clip hiện có do Veo tạo ra (hoặc các clip khác) bằng cách tạo một clip kết nối tiếp tục từ giây cuối cùng của clip trước đó.
- Chèn/xóa đối tượng và các công cụ chỉnh sửa luồng khác — một số tính năng của Flow UI (chèn/xóa đối tượng, nhắc nhở vẽ nguệch ngoạc, chụp lại góc máy ảnh) đang được bổ sung vào các khả năng của Veo và có thể hỗ trợ chỉnh sửa ở cấp độ khung hình trong GUI.
Lưu ý & mẹo: sử dụng xác thực phù hợp (khóa API Gemini / khóa API CometAPI). Ví dụ sử dụng veo-3.1-generate-preview—ID mô hình và tên tham số có thể hơi khác nhau giữa các phiên bản SDK và khu vực; ID mô hình veo 3.1 của CometAPI là veo3.1-pro và veo3.1.
1) Văn bản → Video (thế hệ mới)
Trường hợp sử dụng: Tạo một đoạn clip ngắn hoàn toàn mới từ một kịch bản hoặc ý tưởng sáng tạo.
Lưu lượng:
- Chuẩn bị lời nhắc bằng văn bản rõ ràng bao gồm mô tả cảnh, hướng quay và tín hiệu âm thanh (đối thoại hoặc hiệu ứng âm thanh).
- Gọi Song Tử tạo Video điểm cuối sử dụng mô hình Veo 3.1.
- Thăm dò hoạt động chạy dài cho đến khi quá trình tạo hoàn tất, tải xuống MP4 kết quả, sau đó xem xét và lặp lại.
Ví dụ Python đơn giản (văn bản → video):
Sử dụng Google chính thức genai ứng dụng khách cho Python. Đoạn mã này minh họa cách tạo một video ngắn từ lời nhắc bằng Veo 3.1.
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) Hình ảnh → Video (làm động hình ảnh nguồn)
Trường hợp sử dụng: Chuyển đổi ảnh chụp sản phẩm, ảnh chân dung nhân vật hoặc ảnh đơn thành một clip ngắn.
Lưu lượng:
- Tạo hoặc chọn hình ảnh ban đầu (có thể được tạo bằng mô hình hình ảnh như Nano Banana).
- Tải lên hình ảnh như
imagetham số và gọigenerate_videos, tùy chọn cung cấpreferenceImageshoặc mộtlastFrameđể nội suy. - Truy xuất và xem lại; lặp lại lời nhắc hoặc nội dung hình ảnh.
Đoạn trích hình ảnh → video Python (hình ảnh được tạo riêng):
Một trong những tính năng thiết thực nhất của Veo 3.1 là hình ảnh tham khảo: cung cấp tối đa 3 hình ảnh (một người, một sản phẩm, một vật thể) để video được tạo ra giữ nguyên hình ảnh đó trong mọi khung hình.
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
Những mẹo có ích:
- Ưu tiên hình ảnh tham khảo rõ nét, đủ sáng và chụp được chủ thể từ các góc độ hữu ích.
- Sử dụng tài liệu tham khảo để duy trì bản sắc sản phẩm, trang phục hoặc khuôn mặt của nhân vật trong nhiều cảnh quay.
- Tránh sử dụng hình ảnh có bản quyền hoặc hình ảnh riêng tư mà không được phép.
3) Video-to-Video / Mở rộng (tiếp tục hoặc quay lại)
Trường hợp sử dụng: Mở rộng một clip đã tạo hoặc tiếp tục một hành động sau khi clip đó kết thúc, hoặc sử dụng video đã tạo trước đó làm cơ sở để chỉnh sửa lại.
Lưu lượng:
- Cung cấp video được tạo ra như
videonhập và tạo một lời nhắc mô tả cách video sẽ tiếp tục (ví dụ: “Mở rộng: nhân vật chính mở cửa và bước vào ánh sáng”). - Sử dụng chế độ mở rộng — Veo 3.1 hoàn tất giây cuối cùng và tiếp tục chuyển động. Lưu ý: việc mở rộng giọng nói sẽ kém tin cậy hơn trừ khi có âm thanh ở giây cuối cùng.
Ví dụ Python (mở rộng video hiện có):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
Ghi chú quy trình làm việc: liên tục kéo dài clip (ghép mỗi clip mới tạo vào cuối clip trước đó) để tạo ra các chuỗi dài hơn. Lưu ý đến việc tích lũy hiện vật—định kỳ neo lại vào các khung tham chiếu chất lượng cao hoặc tạo lại các phần để duy trì độ trung thực.
4) Chỉnh sửa khung hình cụ thể (khung hình đầu tiên và cuối cùng, hình ảnh tham chiếu)
Bạn có thể tạo video chuyển tiếp từ khung hình bắt đầu sang khung hình kết thúc bằng cách tạo hình ảnh trước (ví dụ: với mô hình hình ảnh Gemini), sau đó truyền hình ảnh đó dưới dạng hình ảnh và đặt last_frame trong cấu hình để điều khiển nội suy.
Trường hợp sử dụng: Bạn muốn có sự liên tục trực quan chặt chẽ hoặc hoạt hình giữa hai khung hình được chỉ định.
Lưu lượng:
- Tạo hoặc tải lên khung hình đầu tiên và khung hình cuối cùng.
- Gọi Veo 3.1 với
image=first_framevàconfig.last_frame=last_frame. - Mô hình sẽ xen kẽ giữa các khung hình đó, tạo ra chuyển động và âm thanh hợp lý phù hợp với lời nhắc của bạn.
Tại sao lại quan trọng: Để kiểm soát tính sáng tạo, khung hình đầu tiên/cuối cùng cho phép bạn xác định chính xác khung hình và bố cục máy quay cho phần đầu/cuối, điều này rất cần thiết cho hiệu ứng hình ảnh, tính liên tục hoặc nhịp điệu tường thuật.
Python (hình ảnh → video)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
Điều này mang lại cho bạn sự nội suy mượt mà giữa hai điểm neo trực quan đã xác định.
Chiến lược nhắc nhở và nhập liệu nào hiệu quả nhất với Veo 3.1?
Veo 3.1 phản hồi tốt nhất với các gợi ý có cấu trúc mô tả rõ ràng bố cục hình ảnh, chuyển động, âm thanh và sắc thái cảm xúc. "Hướng dẫn gợi ý" của Google dành cho Veo 3.1 đề xuất các thành phần cụ thể; sau đây là danh sách kiểm tra tóm tắt:
Giải phẫu nhanh (khuyến nghị)
- Cảnh chính — câu ngắn gọn: ai/cái gì, hành động chính.
- Mô tả máy ảnh — cận cảnh / rộng / xe đẩy / ổn định / cầm tay, chuyển động máy quay và đóng khung.
- Thời gian và nhịp độ — những tín hiệu ngắn như “chậm”, “cảm giác điện ảnh 24 khung hình/giây” hoặc số khung hình nếu bạn cần độ chính xác.
- Tín hiệu âm thanh — chỉ định âm thanh nền, hiệu ứng âm thanh cụ thể hoặc đoạn hội thoại (trong dấu ngoặc kép). Veo 3.1 có thể tổng hợp âm thanh gốc.
- Phong cách & tài liệu tham khảo - bao gồm
referenceImageshoặc đề cập đến phong cách chụp ảnh/phim: “phim đen, độ tương phản cao, cảm giác như phim Kodak 500”. - lời nhắc tiêu cực — hãy chỉ rõ những gì bạn không muốn (ví dụ, “không có logo, không có văn bản, không có phong cách hoạt hình”) để giảm thiểu những kết quả không mong muốn.
Sử dụng hình ảnh tham khảo
Hướng dẫn hình ảnh và nội suy khung hình đầu tiên/cuối cùng là các tính năng của Veo 3.1. Một quy trình xử lý chất lượng cao phổ biến là:
- Tạo hoặc tinh chỉnh các tài sản tĩnh với 1–3 ảnh tham chiếu thông qua mô hình ảnh (mô hình ảnh Nano Banana hoặc Gemini) để xác định diện mạo/phong cách cho các chủ thể cố định (người, sản phẩm). Veo bảo toàn diện mạo chủ thể tốt khi được hướng dẫn bởi các tài sản tham chiếu.
- Kết hợp các tài sản đó thành hình ảnh tham chiếu (hoặc khung hình đầu tiên/cuối cùng).
- Gọi Veo 3.1 để tạo/nội suy/mở rộng video.
- Tùy chọn xử lý hậu kỳ (phân loại màu, nén, chỉnh sửa thủ công) bằng các công cụ video tiêu chuẩn (Premiere, DaVinci Resolve).
Các cân nhắc về mã thông báo, độ dài và độ phân giải
- Đầu vào văn bản Veo 3.1 có giới hạn mã thông báo (ví dụ: ~1,024 mã thông báo cho một số phiên bản xem trước nhất định) và đầu ra thường là một video ngắn (ví dụ thường hiển thị 8 giây); hãy súc tích và lặp lại. Lên kế hoạch ghép nhiều clip đã tạo để có nội dung dài hơn.
Kết luận — những thay đổi của Veo 3.1 dành cho người sáng tạo và biên tập viên
Veo 3.1 đại diện cho một bước tiến thực tế trong việc tạo video AI dạng ngắn, âm thanh gốc. Nó không chỉ là một trình tạo: nó đang trở thành một trợ lý biên tập Các công cụ bên trong như Flow và Gemini Studio cho phép người sáng tạo thực hiện các chỉnh sửa chuyên sâu (chèn/xóa đối tượng, quay lại cảnh quay) trong khi vẫn tái sử dụng các nguyên mẫu tạo hình tương tự. Đối với các nhà phát triển và nhóm hậu kỳ, phương pháp được khuyến nghị là lặp lại: sử dụng API để tạo và mở rộng các cảnh quay ngắn, sử dụng khung tham chiếu để đảm bảo tính liên tục, và thực hiện ghép ảnh cuối cùng và trộn âm thanh bằng các công cụ truyền thống.
Các nhà phát triển có thể truy cập API Veo 3.1 và Hình ảnh Gemini 3 Pro (Nano Banana Pro) thông qua CometAPI. Để bắt đầu, hãy khám phá khả năng mô hình của CometAPI trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. VớietAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
