Veo 3.1 của Google: bản phát hành mới có những thay đổi gì đối với video AI và cách sử dụng nó

Google hôm nay đã mở rộng bộ công cụ video tạo ra của mình với Phiên bản 3.1, một bản cập nhật gia tăng nhưng có ý nghĩa quan trọng cho dòng sản phẩm mô hình video Veo của công ty. Được định vị là nền tảng trung gian giữa việc tạo nguyên mẫu nhanh chóng và quy trình sản xuất có độ trung thực cao hơn, Veo 3.1 mang đến âm thanh phong phú hơn, tạo clip dài hơn và mạch lạc hơn, tuân thủ lời nhắc chặt chẽ hơn và một số tính năng quy trình làm việc nhằm giúp video điều khiển bằng AI hữu ích hơn cho người kể chuyện, thương hiệu và nhà phát triển. Bản phát hành này đi kèm với các bản cập nhật cho ứng dụng chỉnh sửa Flow của Google và đang được cung cấp dưới dạng bản xem trước có trả phí trên các nền tảng dành cho nhà phát triển của Google.

Veo 3.1 là gì?

Veo 3.1 là phiên bản công khai mới nhất của dòng mô hình video tạo sinh của Google. Nó được xây dựng dựa trên kiến trúc và bộ tính năng được giới thiệu trong Veo 3, nhưng tập trung nhiều vào tích hợp âm thanh, độ dài clip dài hơn và tính liên tục của câu chuyện. Trong khi các thế hệ trước ưu tiên các clip ngắn, có thể lặp lại hoặc clip chứng minh khái niệm (thường dài vài giây), Veo 3.1 hỗ trợ các clip đơn dài hơn đáng kể — Google và các đối tác đang trình diễn các đầu ra lên đến một phút cho một số chế độ tạo hình nhất định — và nhắm đến đầu ra 1080p làm chuẩn mực cho các trường hợp sử dụng độ trung thực cao hơn. Mô hình này cũng giới thiệu các tính năng tiện lợi cho nhà làm phim và nhà sáng tạo, ví dụ như khả năng cung cấp khung hình đầu tiên và khung hình cuối cùng để định hình mạch truyện, "thành phần cho video" (nhiều hình ảnh tham chiếu dẫn dắt nội dung) và mở rộng cảnh (tạo thêm vài giây cảnh quay để giữ nguyên ngữ cảnh).

Hai hương vị hoạt động đang được cung cấp: mô hình Veo 3.1 chính (nhắm đến chất lượng và độ trung thực) và Tôi thấy 3.1 Nhanh (đổi một số tính trung thực để có tốc độ lặp lại nhanh hơn), cho phép các nhóm tạo nguyên mẫu nhanh chóng rồi nâng cấp hoặc kết xuất lại các phiên bản chất lượng cao hơn để có sản phẩm cuối cùng.

Veo 3.1 được định vị rõ ràng là một bản nâng cấp mang tính tiến hóa, giúp tăng cường âm thanh, kéo dài thời lượng cảnh và bổ sung các tính năng chỉnh sửa chi tiết (chèn/xóa, mở rộng cảnh, nội suy khung hình đầu tiên và cuối cùng, và hướng dẫn hình ảnh tham chiếu) thay vì viết lại kiến trúc. So với bản phát hành Veo 3 vào đầu năm 2025, Veo 3.1 được xây dựng dựa trên ba hướng thiết thực: (1) âm thanh gốc phong phú hơn, (2) điều khiển cảnh và cảnh quay tiên tiến, và (3) cải thiện chất lượng + thời lượng.

Âm thanh gốc phong phú hơn trên nhiều tính năng

Trong khi Veo 3 giới thiệu âm thanh đồng bộ, Veo 3.1 mở rộng độ phong phú và khả năng nhận diện ngữ cảnh của đầu ra âm thanh đó. Veo 3.1 tạo ra âm thanh đồng bộ, theo ngữ cảnh (lời thoại, âm thanh xung quanh và hiệu ứng) dưới dạng đầu ra tích hợp sẵn thay vì yêu cầu các bước thiết kế âm thanh riêng biệt. Google đã thêm rõ ràng âm thanh được tạo vào các tính năng trước đây tạo ra video câm (ví dụ: Thành phần cho Video, Khung hình cho Video và Mở rộng Cảnh). Thay đổi này giúp giảm thiểu các bước hậu kỳ và giúp người sáng tạo và nhóm làm phim dễ dàng lặp lại nhanh chóng hơn. Google mô tả "âm thanh phong phú hơn" và cải thiện khả năng đồng bộ hóa môi khi nhân vật nói.

Kiểm soát cảnh và cảnh quay nâng cao

Veo 3.1 nhấn mạnh vào khả năng kiểm soát theo phong cách sản xuất (hình ảnh tham chiếu, mở rộng cảnh, nội suy đầu-cuối, chèn/xóa) phù hợp hơn với quy trình làm việc của nhà làm phim. Đây là một điểm mạnh rõ ràng trong quy trình sáng tạo và tự động hóa doanh nghiệp.

Người sáng tạo có thể cung cấp hình ảnh đầu tiên và cuối cùng hoặc "thành phần" (một tập hợp hình ảnh) và Veo 3.1 sẽ tạo ra các chuyển tiếp mạch lạc và chuyển động ở giữa giúp giữ nguyên diện mạo nhân vật và bố cục cảnh, cải thiện tính liên tục cho nội dung tường thuật hoặc nội dung có thương hiệu.

Trình tự nhiều lời nhắc/nhiều cảnh quay và tính nhất quán của nhân vật: Các tính năng quy trình làm việc mới giúp duy trì bản sắc nhân vật và tính liên tục về mặt hình ảnh trong các cảnh quay và nhiều lời nhắc, do đó một nhân vật hoặc đạo cụ có thể tồn tại chính xác trong suốt chuỗi cảnh quay.

Cài đặt trước điện ảnh và điều khiển ánh sáng: Các cài đặt trước về đèn chiếu sáng và máy ảnh tích hợp (dolly, đẩy, thu phóng, độ sâu trường ảnh, LUT điện ảnh) giúp tăng tốc quá trình sản xuất và giảm nhu cầu về kỹ thuật xử lý nhanh tiên tiến.

Cải thiện chất lượng + chiều dài

Veo 3.1 cho phép các clip dài hơn (báo cáo cho thấy tính năng mở rộng cảnh của Flow có thể lên đến ~60 giây), trong khi Veo 3 chủ yếu tập trung vào các clip ngắn (tám giây) với độ trung thực cao. Tính khả dụng của các clip dài hơn có thể bị hạn chế bởi giao diện (Flow) hoặc các tham số API.

Hình ảnh tốt hơn → độ trung thực của video — cải tiến trong quá trình kết xuất khi mô hình được cung cấp hình ảnh tham chiếu (khung hình đầu tiên/cuối cùng, nhiều tham chiếu) tạo ra bản sắc nhân vật và tính nhất quán của cảnh hơn.

Đầu ra bao gồm cả tùy chọn ngang (16:9) và dọc (9:16) để phục vụ trực tiếp cho các trường hợp sử dụng mạng xã hội và phát sóng.

An toàn, nguồn gốc và hình mờ

Google đã nhấn mạnh các tính năng an toàn và nguồn gốc trên các mô hình sinh sản của mình; Veo 3.1 cũng đi theo xu hướng này. Trong bài viết đầu tiên, Google lưu ý:

SynthID và các phương pháp tiếp cận nguồn gốc (nếu được hỗ trợ) để giúp truy xuất nguồn phương tiện truyền thông do AI tạo ra trở lại các mô hình/nguồn và ngăn chặn việc sử dụng sai mục đích.
Các quy định về chính sách nội dung trong trình soạn thảo Flow và API (tùy thuộc vào khu vực/gói) và công cụ kiểm duyệt để giảm việc tạo ra nội dung có hại hoặc nhạy cảm.

Người sáng tạo vẫn nên tuân theo các phương pháp hay nhất: gắn nhãn nội dung AI rõ ràng khi cần thiết, xem xét đầu ra để tìm các yếu tố gây ảo giác hoặc nhạy cảm và áp dụng quy trình đánh giá truyền thống khi xuất bản rộng rãi.

Veo 3.1 còn tồn tại những hạn chế và rủi ro nào?

Veo 3.1 là một bước tiến đáng kể nhưng không phải là giải pháp hoàn hảo. Những hạn chế và rủi ro chính:

Các chế độ lỗi vẫn còn — các hiện tượng nhiễu ánh sáng, lỗi hình học tinh tế và các lỗi căn chỉnh thỉnh thoảng (tay, ngón tay, chữ nhỏ) vẫn xuất hiện trong các cảnh phức tạp hoặc khi cần độ trung thực cực cao. Các phóng viên và người thử nghiệm ban đầu gọi đây là những trường hợp ngoại lệ dai dẳng.
Mối lo ngại về thông tin sai lệch và lạm dụng — tính chân thực cao hơn và tổng hợp âm thanh làm dấy lên những lo ngại rõ ràng về deepfake và việc lạm dụng. Google tiếp tục nhấn mạnh các biện pháp bảo vệ (thực thi chính sách nội dung, đánh dấu nguồn gốc) và việc sử dụng hình mờ SynthID trước đây để giúp truy xuất nguồn gốc nội dung tổng hợp, nhưng những hệ thống này không phải là giải pháp thay thế hoàn hảo cho việc quản trị và đánh giá của con người.
Câu hỏi về pháp lý và sở hữu trí tuệ — việc sử dụng hình ảnh tham khảo, chân dung nhân vật hoặc tài liệu có bản quyền để tạo ra nội dung sẽ dẫn đến những cân nhắc pháp lý tiêu chuẩn; doanh nghiệp nên tham khảo ý kiến cố vấn và tôn trọng các quy định về chính sách sử dụng.

Bắt đầu nhanh — quy trình làm việc mẫu (ứng dụng Gemini + API)

Trong ứng dụng Gemini / Flow (không có mã):

Mở ứng dụng Gemini (hoặc trình soạn thảo Flow) và đăng nhập. Tìm tùy chọn Video hoặc Tạo → Video.
Công trình trên bầu trời

Chọn Veo 3.1 trong danh sách thả xuống mô hình (nếu có nhiều mô hình). Chọn tỷ lệ khung hình và thời lượng mục tiêu. Tùy chọn chọn cài đặt trước hiệu ứng điện ảnh hoặc ánh sáng.
TechRadar

Cung cấp lời nhắc văn bản, tùy chọn tải lên 1–3 hình ảnh tham chiếu (cho các luồng Thành phần → Video hoặc Khung hình đầu tiên/cuối), và chọn tạo âm thanh. Gửi và chờ quá trình tạo hoàn tất. Sử dụng các công cụ chỉnh sửa của Flow để mở rộng cảnh, chèn đối tượng hoặc xóa các thành phần nếu cần.
The Verge

cách gọi Veo 3.1 (theo chương trình)

Danh sách mô hình và tài liệu AI của CometAPI bao gồm tên mô hình (ví dụ: veo-3.1 và veo-3.1-pro) và các tham số để kiểm soát độ phân giải, độ dài, tỷ lệ khung hình và tham chiếu.

Bước sau:

Đăng nhập vào Sao chổiAPI và đảm bảo bạn lấy khóa CometAPI.
Gọi điểm cuối mô hình Veo 3.1 với dữ liệu JSON chứa lời nhắc, tham chiếu (tham chiếu base64 hoặc GCS), độ phân giải/thời lượng mục tiêu và cờ cho phần mở rộng âm thanh hoặc cảnh. Sử dụng điểm cuối Veo 3.1 Fast cho các lần chạy lặp lại.
Xử lý đầu ra (tệp video, tùy chọn track âm thanh riêng) và quản lý hậu kỳ (cải thiện màu sắc, mã hóa để phân phối) trong quy trình của bạn. Theo dõi chi phí và hạn ngạch; các clip dài hoặc có độ phân giải cao sẽ sử dụng nhiều tài nguyên tính toán hơn.

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập Phiên bản 3.1 thông qua CometAPI, Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Kết luận

Veo 3.1 là một bản nâng cấp thực dụng và có phạm vi rộng: giá trị tức thời của nó nằm ở việc giảm thiểu sự chồng chéo giữa ý tưởng và cảnh cuối cùng bằng cách thêm âm thanh làm đầu ra gốc, mở rộng các điều khiển cảnh và tham chiếu, đồng thời cho phép các đầu ra được xâu chuỗi dài hơn. Đối với những người sáng tạo muốn chỉnh sửa theo phong cách sản xuất trong một vòng lặp tạo sinh, và đối với các doanh nghiệp đang tìm kiếm tự động hóa nội dung theo chương trình, Veo 3.1 là một công cụ đáng để đánh giá.