G

Veo 3.1

Theo Yêu cầu:$0.40
Veo 3.1 là bản cập nhật tiệm tiến nhưng đáng kể của Google cho dòng Veo chuyển đổi văn bản và hình ảnh→video, bổ sung âm thanh gốc phong phú hơn, đầu ra video dài hơn và dễ kiểm soát hơn, cùng khả năng chỉnh sửa tinh vi và điều khiển ở cấp độ cảnh.
Mới
Sử dụng thương mại

Tính năng cốt lõi

Veo 3.1 tập trung vào các tính năng tạo nội dung thực tiễn:

  • Tạo âm thanh nguyên bản (đối thoại, âm thanh môi trường, SFX) được tích hợp trong đầu ra. Veo 3.1 tạo âm thanh nguyên bản (đối thoại + âm thanh nền + SFX) căn chỉnh với timeline hình ảnh; mô hình hướng tới việc giữ đồng bộ khẩu hình và căn chỉnh âm thanh–hình ảnh cho lời thoại và tín hiệu cảnh.
  • Đầu ra dài hơn (hỗ trợ tới ~60 giây / 1080p so với clip rất ngắn 8s của Veo 3), và chuỗi đa cảnh với đa lời nhắc cho tính liên tục tường thuật.
  • Các chế độ Scene ExtensionFirst/Last Frame giúp mở rộng hoặc nội suy footage giữa các key frame.
  • Chèn đối tượng và (sắp có) xóa đối tượng, cùng các thao tác chỉnh sửa cơ bản bên trong Flow.

Mỗi ý trên được thiết kế để giảm công việc VFX thủ công: âm thanhtính liên tục cảnh giờ là đầu ra hạng nhất thay vì yếu tố phụ sau cùng.

Chi tiết kỹ thuật (hành vi mô hình & đầu vào)

Họ mô hình & biến thể: Veo thuộc họ Veo-3 của Google; model ID bản xem trước thường là veo3.1-pro; veo3.1 (tài liệu CometAPI). Mô hình chấp nhận lời nhắc văn bản, tham chiếu hình ảnh (khung đơn hoặc chuỗi), và bố cục đa lời nhắc có cấu trúc cho tạo đa cảnh.

Độ phân giải & thời lượng: Tài liệu bản xem trước mô tả đầu ra ở 720p/1080p với tùy chọn thời lượng dài hơn (tối đa ~60s trong một số thiết lập preview) và độ trung thực cao hơn so với các biến thể Veo trước đó.

Tỷ lệ khung hình: 16:9 (được hỗ trợ) và 9:16 (được hỗ trợ, trừ trong một số luồng tham chiếu hình ảnh).

Ngôn ngữ lời nhắc: Tiếng Anh (bản xem trước).

Giới hạn API: các giới hạn bản xem trước điển hình gồm tối đa 10 yêu cầu API/phút mỗi dự án, tối đa 4 video mỗi yêu cầu, và độ dài video có thể chọn là 4, 6 hoặc 8 giây (luồng tham chiếu hình ảnh hỗ trợ 8s).

Hiệu năng benchmark

Các đánh giá nội bộ và tổng hợp công khai của Google báo cáo sự ưu tiên mạnh dành cho đầu ra của Veo 3.1 qua so sánh bởi người đánh giá trên các tiêu chí như căn chỉnh văn bản, chất lượng hình ảnh, và độ hòa hợp âm thanh–hình ảnh (nhiệm vụ text→video và image→video).

Veo 3.1 đạt kết quả tiên tiến nhất trong so sánh nội bộ do người đánh giá, trên nhiều trục khách quan — mức độ được ưa thích tổng thể, căn chỉnh lời nhắc (text→video và image→video), chất lượng hình ảnh, căn chỉnh âm thanh–video, và “vật lý trông như thật” trên các bộ dữ liệu benchmark như MovieGenBench và VBench.

Giới hạn & cân nhắc an toàn

Giới hạn:

  • Tạo tác & không nhất quán: dù đã cải tiến, một số điều kiện ánh sáng, vật lý chi tiết và che khuất phức tạp vẫn có thể tạo ra tạo tác; tính nhất quán image→video (đặc biệt với thời lượng dài) đã được cải thiện nhưng chưa hoàn hảo.
  • Nguy cơ thông tin sai lệch / deepfake: âm thanh phong phú + chèn/xóa đối tượng làm tăng rủi ro lạm dụng (âm thanh giả thực và clip mở rộng). Google nêu các biện pháp giảm thiểu (chính sách, bảo vệ) và các lần ra mắt Veo trước đó đề cập watermarking/SynthID để hỗ trợ truy xuất nguồn gốc; tuy nhiên các biện pháp kỹ thuật không loại bỏ hoàn toàn rủi ro lạm dụng.
  • Hạn chế chi phí & thông lượng: video độ phân giải cao, thời lượng dài tốn tài nguyên tính toán và hiện được giới hạn trong bản xem trước trả phí — kỳ vọng độ trễ và chi phí cao hơn so với các mô hình ảnh. Cộng đồng và các chủ đề trên diễn đàn Google bàn về các khung thời gian khả dụng và chiến lược dự phòng.

Biện pháp an toàn: Veo3.1 tích hợp các chính sách nội dung, tín hiệu watermarking/SynthID trong các phiên bản Veo trước, và kiểm soát quyền truy cập bản xem trước; khuyến nghị khách hàng tuân theo chính sách nền tảng và triển khai kiểm duyệt thủ công cho các đầu ra rủi ro cao.

Trường hợp sử dụng thực tiễn

  • Dựng mẫu nhanh cho người sáng tạo: bảng phân cảnh → clip đa cảnh và animatic với lời thoại nguyên bản cho vòng duyệt sáng tạo sớm.
  • Marketing & nội dung dạng ngắn: spot sản phẩm 15–60s, clip mạng xã hội, và teaser ý tưởng nơi tốc độ quan trọng hơn tính chân thực hoàn hảo.
  • Chuyển thể image→video: biến minh họa, nhân vật, hoặc hai khung thành chuyển cảnh mượt mà hoặc cảnh động qua First/Last FrameScene Extension.
  • Tăng cường công cụ: tích hợp vào Flow để chỉnh sửa lặp (chèn/xóa đối tượng, preset ánh sáng) giúp giảm các lần VFX thủ công.

So sánh với các mô hình hàng đầu khác

Veo 3.1 so với Veo 3 (tiền nhiệm): Veo 3.1 tập trung vào cải thiện độ tuân thủ lời nhắc, chất lượng âm thanh, và tính nhất quán đa cảnh — các cập nhật tăng dần nhưng có tác động, nhằm giảm tạo tác và cải thiện khả năng chỉnh sửa.

Veo 3.1 so với OpenAI Sora 2: các báo chí ghi nhận những đánh đổi: Veo 3.1 nhấn mạnh kiểm soát tường thuật dạng dài, âm thanh tích hợp, và tích hợp chỉnh sửa trong Flow; Sora 2 (trong các so sánh trên báo chí) tập trung vào các thế mạnh khác (tốc độ, pipeline chỉnh sửa khác). TechRadar và các kênh khác xem Veo 3.1 là đối thủ có chủ đích của Google với Sora 2 về tường thuật và hỗ trợ video dài. Việc thử nghiệm song song độc lập vẫn còn hạn chế.

Thêm mô hình