Veo 3.1 is Coming: Veo là dòng mô hình tạo video bằng AI của Google (hiện có Veo 3 / Veo 3 Fast). Gần đây Google đã phát hành các cải tiến lớn cho Veo 3 (dọc 9:16, 1080p, Veo 3 Fast, giảm giá) và hiện có tin đồn / bài đăng trên mạng xã hội rằng Veo 3.1 sắp xuất hiện — nhưng Google vẫn chưa công bố thông báo phát hành chính thức cho Veo 3.1. Tôi sẽ liệt kê các thông tin đã được xác nhận, các thay đổi có khả năng/được kỳ vọng, và một so sánh trực tiếp với Sora 2 của OpenAI.
Veo là gì
Veo là dòng mô hình tạo video của Google (DeepMind / Google Cloud / họ Gemini) có thể biến văn bản hoặc hình ảnh thành các video ngắn — và (trong Veo 3) tạo âm thanh gốc (hiệu ứng âm thanh, âm thanh môi trường và đối thoại). Dịch vụ này được cung cấp trên Google Cloud (Vertex AI / Gemini API) cho nhà phát triển và doanh nghiệp, và bao gồm dấu xác thực/Watermark SynthID tích hợp trên đầu ra.
Veo 3 đã mang đến điều gì
- Khả năng Văn bản → video và Ảnh → video (bao gồm bản xem trước chuyển ảnh thành video).
- Tạo âm thanh gốc (nhạc, âm thanh môi trường, đối thoại) — Veo 3 đã đưa âm thanh trở thành tính năng hạng nhất.
- Hai biến thể: Veo 3 chất lượng cao và Veo 3 Fast (tối ưu cho tốc độ/lặp thử).
- Nền tảng sẵn có: được cung cấp trong Vertex AI / Gemini API (paid preview → cập nhật khả dụng rộng rãi vào giữa năm 2025).
- An toàn/nguồn gốc: watermark SynthID và một số kiểm soát/phê duyệt sử dụng cho việc tạo nội dung có người/trẻ em.
Vậy — Veo 3.1 được kỳ vọng sẽ mang lại điều gì?
Trạng thái: Hiện tại chưa có trang sản phẩm Veo 3.1 chính thức từ Google mô tả đầy đủ ghi chú phát hành. Tuy nhiên, nhiều bài đăng của nhà phát triển Google / cộng đồng và tweet cho thấy một bản cập nhật tăng dần trong ngắn hạn (được gắn nhãn “Veo 3.1”) dự kiến sẽ tập trung vào cải tiến tuần tự về âm thanh, chất lượng và hỗ trợ định dạng thay vì viết lại một thế hệ hoàn toàn mới.
Dưới đây là một số suy luận tôi đưa ra dựa trên bài đăng của x và các đặc tính của Veo 3:
- Cải thiện âm thanh gốc (đối thoại, đồng bộ khẩu hình đa giọng) — đối thoại sạch hơn, phối trộn SFX và không gian hóa tốt hơn. Veo 3 đã tạo âm thanh gốc; Veo 3.1 có thể cải thiện độ chân thực đối thoại và hỗ trợ ngôn ngữ để bắt kịp các nâng cấp mà đối thủ đang tung ra.
- Đường dẫn nhanh/rẻ hơn cho một số đầu ra phổ biến (tăng mức tương đương với Veo 3 Fast và thêm tối ưu hóa).
- Cải thiện độ trung thực ảnh→video và tăng tính nhất quán nhân vật/tư thế trong các clip nhiều khung hình.
- Mở rộng tỷ lệ khung hình / kiểm soát độ phân giải (linh hoạt hơn với 9:16/16:9 và 1080p trên các cấu hình). Google đã bổ sung dọc + 1080p; Veo 3.1 có thể mở rộng các kiểm soát này.
- Clip dài hơn / nới lỏng giới hạn 8 giây — nhu cầu cộng đồng và lộ trình trước đó của Google cho thấy tăng thời lượng là mục tiêu khả dĩ (Veo 3 hiện tối ưu cho clip 8 giây).
- Tăng độ trung thực ảnh→video và mở rộng hỗ trợ chuyển ảnh thành video (cải thiện tính chân thực, tính liên tục chuyển động), xây dựng trên bản xem trước ảnh→video trong Veo 3.

So sánh Veo 3 / (dự kiến) Veo 3.1 → OpenAI Sora 2
Trọng tâm chính
- Veo 3 (Google): video ngắn 8 giây, độ trung thực cao từ prompt văn bản/hình ảnh; âm thanh gốc; tích hợp vào Gemini/Gemini API và Vertex AI; tối ưu cho sử dụng sản xuất và tích hợp API cho nhà phát triển.
- Sora 2 (OpenAI): mô hình video+audio chủ lực của OpenAI nhấn mạnh tính chân thực vật lý, chuyển động mạch lạc, đối thoại và âm thanh đồng bộ, cùng ứng dụng xã hội đi kèm (Sora) với hệ thống cameo/đồng ý để tích hợp chân dung người dùng, tập trung mạnh vào tính chân thực và kiểm soát an toàn.
Điểm mạnh
- Veo (hiện tại): tích hợp mạnh cho nhà phát triển/doanh nghiệp (Vertex AI, Gemini API), tùy chọn định giá cho môi trường sản xuất, lộ trình rõ ràng cho khách hàng đám mây, hỗ trợ dọc/1080p + biến thể nhanh. Phù hợp cho doanh nghiệp xây dựng vào pipeline.
- Sora 2: độ chính xác vật lý ấn tượng và đồng bộ đa phương thức (đối thoại + hình ảnh), cùng ứng dụng hướng tới người tiêu dùng tích hợp với quy trình xã hội (tính năng cameo, kiểm duyệt). Tuyệt vời cho nhà sáng tạo muốn cảnh kể chuyện chân thực và hệ sinh thái ứng dụng.
Cách truy cập Veo hiện tại — và cách sẵn sàng cho Veo 3.1
- Dùng trong Gemini (người dùng / web / di động): tạo video bằng Veo có trên ứng dụng Gemini (chạm vào tùy chọn “video” trên thanh nhắc lệnh). Mức truy cập (Pro / Ultra) ảnh hưởng đến biến thể Veo bạn có thể dùng.
- Lập trình / doanh nghiệp: sử dụng API trong CometAPI (ID mô hình Veo có trong tài liệu mô hình). CometAPI cung cấp veo3-pro, veo3-fast và veo3. Để biết chi tiết, vui lòng tham khảo Veo 3 ‘s doc.
Mẹo thực tiễn (developer): để yêu cầu đầu ra dọc, đặt tham số aspectRatio (ví dụ: "9:16") và kiểm tra cấu hình mô hình (Veo 3 vs Veo 3 Fast) cùng gói của bạn về giới hạn độ phân giải (720p vs 1080p).
Cách truy cập Sora 2 (hiện nay)
Ứng dụng Sora: Sora 2 ra mắt cùng ứng dụng Sora (đợt phát hành giới hạn theo lời mời tại Mỹ & Canada khi mở bán). OpenAI cho biết sẽ mở rộng quyền truy cập và API sau đó. Nếu bạn muốn thử Sora 2 ngay, hãy xem trang Sora 2 của CpmetAPI. CometAPI đã hỗ trợ sora 2 API và tạo các clip mạng xã hội dài ~10 giây với trọng tâm là tính chân thực chuyển động cho con người.
Bắt đầu
CometAPI là nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—như dòng GPT của OpenAI, Google’s Gemini, Anthropic’s Claude, Midjourney, Suno, và nhiều hơn nữa—vào một giao diện thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi thống nhất, CometAPI giúp đơn giản hóa đáng kể việc tích hợp khả năng AI vào ứng dụng của bạn. Dù bạn đang xây chatbot, trình tạo ảnh, trình soạn nhạc hay pipeline phân tích dữ liệu, CometAPI cho phép bạn lặp nhanh hơn, kiểm soát chi phí và giữ trung lập nhà cung cấp—đồng thời khai thác những đột phá mới nhất trong hệ sinh thái AI.
Các nhà phát triển có thể truy cập Veo 3.1 API thông qua CometAPI, phiên bản mô hình mới nhất luôn được cập nhật theo trang chính thức. Để bắt đầu, hãy khám phá khả năng của mô hình trong Playground và tham khảo API guide để có hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và nhận được API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.
Sẵn sàng bắt đầu?→ Sign up for CometAPI today !
