Thông số kỹ thuật của Veo 3.1
| Mục | Veo 3.1 (thông số công khai) |
|---|---|
| ID model chính thức | veo-3.1-generate-001 |
| Nhà cung cấp | Google DeepMind / Google Cloud |
| Loại mô hình | Tạo video từ văn bản và từ ảnh |
| Loại đầu vào | Prompt văn bản, đầu vào hình ảnh, hướng dẫn khung đầu và khung cuối |
| Loại đầu ra | Video do AI tạo ra |
| Độ phân giải được hỗ trợ | 720p và 1080p, 4K |
| Tỷ lệ khung hình được hỗ trợ | 16:9 và 9:16 |
| Tốc độ khung hình được hỗ trợ | 24 FPS |
| Thời lượng video | Clip 4s, 6s, hoặc 8s (phụ thuộc chế độ) |
| Ngôn ngữ prompt | Tiếng Anh |
| Số video mỗi yêu cầu | Tối đa 4 |
| Giới hạn tốc độ API | Tối đa 50 yêu cầu/phút/dự án |
| Hình thức triển khai được hỗ trợ | Vertex AI, tích hợp hệ sinh thái Gemini, Flow |
| Tính năng không được hỗ trợ (tài liệu chính thức) | Hạn ngạch chia sẻ động, một số quy trình tham chiếu hình ảnh, mở rộng video gốc trong luồng API tiêu chuẩn |
Veo 3.1 là gì?
Veo 3.1 là dòng mô hình video sinh tạo chủ lực của Google, tập trung vào tổng hợp video chất lượng điện ảnh, bám sát prompt mạnh hơn, tính nhất quán cảnh tốt hơn và quy trình tạo video đa phương thức. Nó vượt ra ngoài tạo video từ văn bản tiêu chuẩn bằng cách hỗ trợ tạo theo hướng dẫn bằng hình ảnh và các quy trình kể chuyện được kiểm soát theo khung hình. Hỗ trợ chính thức bao gồm text-to-video, image-to-video, viết lại prompt, và quy trình tạo First/Last Frame.
Tính năng cốt lõi
Veo 3.1 tập trung vào các tính năng tạo nội dung thực tiễn:
- Sinh âm thanh gốc (đối thoại, âm thanh môi trường, SFX) được tích hợp trong đầu ra. Veo 3.1 tạo âm thanh gốc (đối thoại + âm thanh môi trường + SFX) khớp với dòng thời gian hình ảnh; mô hình hướng tới việc giữ đồng bộ khẩu hình và căn chỉnh âm thanh–hình ảnh cho hội thoại và tín hiệu cảnh.
- Đầu ra dài hơn (hỗ trợ tới ~60 giây / 1080p so với các clip rất ngắn của Veo 3, 8s), và các chuỗi nhiều cú máy với nhiều prompt để đảm bảo tính liên tục trong câu chuyện.
- Chế độ Scene Extension và First/Last Frame cho phép mở rộng hoặc nội suy cảnh quay giữa các khung hình then chốt.
- Chèn đối tượng và (sắp có) xóa đối tượng cùng các thao tác chỉnh sửa cơ bản bên trong Flow.
Mỗi điểm trên nhằm giảm khối lượng VFX thủ công: âm thanh và tính liên tục của cảnh giờ là đầu ra chính thay vì phần bổ sung muộn.
Chi tiết kỹ thuật (hành vi mô hình & đầu vào)
Dòng mô hình & biến thể: Veo thuộc họ Veo-3 của Google; ID mô hình bản xem trước thường là veo3.1-pro; veo3.1 (tài liệu CometAPI). Nó chấp nhận prompt văn bản, tham chiếu hình ảnh (khung đơn hoặc chuỗi), và bố cục nhiều prompt có cấu trúc cho việc tạo nhiều cú máy.
Độ phân giải & thời lượng: Tài liệu bản xem trước mô tả đầu ra ở 720p/1080p với tùy chọn thời lượng dài hơn (tối đa ~60s trong một số thiết lập bản xem trước) và độ trung thực cao hơn so với các biến thể Veo trước đó.
Tỷ lệ khung hình: 16:9 (được hỗ trợ) và 9:16 (được hỗ trợ, trừ một số luồng tham chiếu hình ảnh).
Ngôn ngữ prompt: Tiếng Anh (bản xem trước).
Giới hạn API: giới hạn điển hình của bản xem trước gồm tối đa 10 yêu cầu API/phút/mỗi dự án, tối đa 4 video mỗi yêu cầu, và độ dài video có thể chọn giữa 4, 6 hoặc 8 giây (các luồng tham chiếu hình ảnh hỗ trợ 8s).
Hiệu năng benchmark
Các đánh giá nội bộ và tóm tắt công khai của Google cho thấy mức độ ưa thích cao đối với đầu ra của Veo 3.1 trong so sánh do người đánh giá thực hiện theo các tiêu chí như căn chỉnh với văn bản, chất lượng hình ảnh, và độ gắn kết âm thanh–hình ảnh (nhiệm vụ text→video và image→video).
Veo 3.1 đạt kết quả tiên tiến nhất trong các so sánh nội bộ do người đánh giá thực hiện trên nhiều trục khách quan — mức ưa thích tổng thể, bám sát prompt (text→video và image→video), chất lượng hình ảnh, căn chỉnh âm thanh–video, và “vật lý thị giác thực tế” trên các bộ dữ liệu benchmark như MovieGenBench và VBench.
Hạn chế & cân nhắc an toàn
Hạn chế:
- Tạo tác & thiếu nhất quán: dù đã cải thiện, một số điều kiện ánh sáng, vật lý chi tiết, và che khuất phức tạp vẫn có thể tạo ra tạo tác; tính nhất quán ảnh→video (đặc biệt ở thời lượng dài) đã cải thiện nhưng chưa hoàn hảo.
- Rủi ro thông tin sai lệch / deepfake: âm thanh phong phú hơn + chèn/xóa đối tượng làm tăng nguy cơ lạm dụng (âm thanh giả chân thực và clip kéo dài). Google lưu ý các biện pháp giảm thiểu (chính sách, biện pháp bảo vệ) và các lần ra mắt Veo trước đó đề cập watermarking/SynthID để hỗ trợ truy xuất nguồn gốc; tuy nhiên, các biện pháp kỹ thuật không loại bỏ hoàn toàn rủi ro lạm dụng.
- Hạn chế về chi phí & thông lượng: video độ phân giải cao, thời lượng dài tiêu tốn tài nguyên tính toán và hiện được giới hạn trong bản xem trước có trả phí — kỳ vọng độ trễ và chi phí cao hơn so với các mô hình ảnh. Các bài viết cộng đồng và chuỗi thảo luận trên diễn đàn Google bàn về khoảng thời gian khả dụng và chiến lược dự phòng.
Biện pháp an toàn: Veo 3.1 tích hợp chính sách nội dung, tín hiệu watermarking/SynthID từ các phiên bản Veo trước đó, và kiểm soát quyền truy cập bản xem trước; khuyến nghị khách hàng tuân thủ chính sách nền tảng và triển khai rà soát thủ công cho các đầu ra rủi ro cao.
Tình huống sử dụng thực tế
- Dựng mẫu nhanh cho sáng tạo: storyboard → các clip nhiều cú máy và animatic với đối thoại gốc để phục vụ đánh giá sáng tạo sớm.
- Marketing & nội dung dạng ngắn: spot sản phẩm 15–60s, clip mạng xã hội, và teaser ý tưởng nơi tốc độ quan trọng hơn tính siêu thực hoàn hảo.
- Chuyển thể ảnh→video: biến minh họa, nhân vật, hoặc hai khung hình thành chuyển cảnh mượt mà hoặc cảnh động qua First/Last Frame và Scene Extension.
- Tăng cường công cụ: tích hợp vào Flow cho quy trình chỉnh sửa lặp (chèn/xóa đối tượng, preset ánh sáng) giúp giảm các lượt VFX thủ công.
So sánh với các mô hình hàng đầu khác
Veo 3.1 vs Veo 3 (tiền nhiệm): Veo 3.1 tập trung vào bám sát prompt tốt hơn, chất lượng âm thanh, và tính nhất quán nhiều cú máy — những cải tiến gia tăng nhưng có tác động rõ rệt nhằm giảm tạo tác và cải thiện khả năng chỉnh sửa.
Veo 3.1 vs OpenAI Sora 2: theo báo chí, Veo 3.1 nhấn mạnh khả năng kiểm soát câu chuyện dạng dài, âm thanh tích hợp, và tích hợp chỉnh sửa với Flow; Sora 2 (khi được so sánh trên báo chí) tập trung vào các thế mạnh khác (tốc độ, quy trình chỉnh sửa khác biệt). TechRadar và các kênh khác coi Veo 3.1 là đối thủ mục tiêu của Google với Sora 2 về tường thuật và hỗ trợ video dài hơn. Các thử nghiệm so sánh song song độc lập vẫn còn hạn chế.
| Khả năng | Veo 3.1 | Sora 2 | Runway Gen-4 / Gen-4.5 |
|---|---|---|---|
| Đầu ra dọc gốc | Có | Hỗ trợ quy trình có giới hạn | Có |
| Từ ảnh sang video | Có | Có | Có |
| Tập trung tích hợp âm thanh | Mạnh | Vừa | Vừa |
| Điều kiện hóa theo khung hình | Có | Có | Một phần |
| Tối ưu cho video mạng xã hội | Mạnh | Vừa | Mạnh |
| Tích hợp hệ sinh thái API | Hệ sinh thái Google | Hệ sinh thái OpenAI | Hệ sinh thái công cụ sáng tạo |
Tôi sử dụng API Veo 3.1 với CometAPI như thế nào?
- Tạo khóa API CometAPI
- Chọn
veo-3.1-generate-001làm endpoint mô hình - Gửi prompt hoặc đầu vào hình ảnh qua API tạo video
- Thăm dò kết quả và lấy video đã tạo
- Lặp lại prompt để điều khiển chuyển động camera, tính liên tục của cảnh, và cải thiện tính nhất quán