Veo 3.1 sắp ra mắt: Tôi thấy là dòng sản phẩm tạo video AI của Google (Veo 3 / Veo 3 Fast là hiện tại). Google gần đây đã tung ra những cải tiến lớn cho Veo 3 (tỷ lệ khung hình dọc 9:16, 1080p, Veo 3 Fast, giá thấp hơn) và có tin đồn / bài đăng trên mạng xã hội việc này Phiên bản 3.1 sắp xảy ra — nhưng Google đã không đã công bố bản tin phát hành chính thức của Veo 3.1. Tôi sẽ liệt kê những thông tin đã được xác nhận, những thay đổi có thể/dự kiến, và so sánh trực tiếp với OpenAI. Sora 2.
Điều gì Tôi thấy is
Tôi thấy là dòng mô hình video tạo hình của Google (DeepMind / Google Cloud / Gemini) giúp chuyển đổi văn bản hoặc hình ảnh thành video ngắn — và (trong Veo 3) tạo ra âm thanh gốc (hiệu ứng âm thanh, âm thanh xung quanh và hội thoại). Tính năng này được cung cấp trên Google Cloud (Vertex AI / Gemini API) dành cho nhà phát triển và doanh nghiệp, đồng thời tích hợp sẵn hình mờ gốc / SynthID trên đầu ra.
Điều gì Phiên bản 3 đã mang đến
- Văn bản → video và hình ảnh → video khả năng (bao gồm xem trước hình ảnh thành video).
- Tạo âm thanh gốc (âm nhạc, âm thanh xung quanh, hội thoại) — Veo 3 giới thiệu âm thanh hạng nhất.
- Hai biến thể: Veo 3 chất lượng cao và Tôi thấy 3 Nhanh (tối ưu hóa về tốc độ/lặp lại).
- Tính khả dụng của nền tảng: được cung cấp trong Vertex AI / Gemini API (bản xem trước có trả phí → bản cập nhật khả dụng chung vào giữa năm 2025).
- An toàn/nguồn gốc: Đánh dấu SynthID và một số điều khiển/phê duyệt sử dụng thế hệ cho thế hệ người/trẻ em.
Vậy thì — cái gì là Phiên bản 3.1 dự kiến sẽ mang lại?
Tình trạng: Hiện tại vẫn chưa có trang sản phẩm Veo 3.1 chính thức nào từ Google mô tả đầy đủ ghi chú phát hành. Tuy nhiên, nhiều bài đăng của nhà phát triển Google/bài đăng của cộng đồng và tweet cho thấy bản cập nhật gia tăng trong thời gian ngắn (được gắn nhãn là "Veo 3.1") dự kiến sẽ tập trung vào những cải tiến lặp đi lặp lại đối với hỗ trợ âm thanh, chất lượng và định dạng thay vì viết lại hoàn toàn thế hệ mới.
Sau đây là một số suy luận tôi đưa ra dựa trên bài đăng của x và đặc điểm của Veo3:
- Âm thanh gốc được cải thiện (đối thoại, đồng bộ hóa nhiều giọng nói) —đối thoại rõ ràng hơn, trộn SFX và không gian tốt hơn). Veo 3 hiện đã tạo âm thanh gốc; Veo 3.1 có thể cải thiện tính chân thực của đối thoại và hỗ trợ ngôn ngữ để phù hợp với những cải tiến gần đây mà các đối thủ cạnh tranh đang triển khai.
- Đường đi nhanh hơn/rẻ hơn đối với một số đầu ra phổ biến (nhiều tính năng tương đương và tối ưu hóa Veo 3 Fast hơn).
- Độ trung thực của hình ảnh → video được cải thiện và tính nhất quán của nhân vật/tư thế tốt hơn trong các clip nhiều khung hình.
- Tỷ lệ khung hình mở rộng / điều khiển độ phân giải (linh hoạt hơn ở chế độ 9:16/16:9 và 1080p trên nhiều cấu hình). Google đã thêm chế độ dọc + 1080p; Veo 3.1 có thể mở rộng các tùy chọn điều khiển đó.
- Clip dài hơn / thời lượng 8 giây thoải mái — nhu cầu của cộng đồng và lộ trình trước đây của Google cho thấy mục tiêu có thể là tăng thời lượng (Veo 3 hiện được tối ưu hóa cho các clip dài 8 giây).
- Độ trung thực của hình ảnh → video tốt hơn và hỗ trợ hình ảnh sang video mở rộng (cải thiện tính chân thực, tính liên tục của chuyển động), dựa trên bản xem trước hình ảnh → video trong Veo 3.

So sánh Veo 3 / (dự kiến) Veo 3.1 → OpenAI Sora 2
Tiêu điểm chính
- Veo 3 (Google): video ngắn, độ trung thực cao dài 8 giây từ lời nhắc văn bản/hình ảnh; âm thanh gốc; tích hợp vào Gemini/Gemini API và Vertex AI; được tối ưu hóa để sử dụng trong sản xuất và tích hợp API của nhà phát triển.
- Sora 2 (OpenAI):Mô hình video+âm thanh chủ đạo của OpenAI nhấn mạnh vào tính chân thực về mặt vật lý, chuyển động mạch lạc, hội thoại và âm thanh đồng bộ, cùng ứng dụng xã hội đi kèm (Sora) với hệ thống đồng ý/khách mời để tích hợp hình ảnh người dùng và tập trung nhiều vào tính chân thực và các biện pháp kiểm soát an toàn.
Điểm mạnh
- Veo (bây giờ): tích hợp mạnh mẽ giữa nhà phát triển và doanh nghiệp (Vertex AI, Gemini API), tùy chọn giá sản xuất, lộ trình rõ ràng cho khách hàng đám mây, phiên bản dọc/1080p + tốc độ cao. Phù hợp cho các doanh nghiệp đang xây dựng hệ thống.
- Sora 2: độ chính xác vật lý đáng chú ý và đồng bộ đa phương thức (đối thoại + hình ảnh), và một ứng dụng hướng đến người dùng được tích hợp với quy trình làm việc xã hội (tính năng khách mời, kiểm duyệt). Tuyệt vời cho những người sáng tạo muốn có các cảnh tường thuật chân thực và một hệ sinh thái ứng dụng.
Cách truy cập Veo ngay bây giờ — và cách sẵn sàng cho Veo 3.1
- Thử nghiệm trên Gemini (người tiêu dùng / web / di động): Chế độ Veo được hiển thị trong ứng dụng Gemini (chạm vào tùy chọn "video" trên thanh nhắc nhở). Cấp độ truy cập (Pro/Ultra) sẽ ảnh hưởng đến các biến thể Veo bạn có thể sử dụng.
- Lập trình / doanh nghiệp: sử dụng API in Sao chổiAPI (ID mô hình Veo có sẵn trong tài liệu mô hình). CometAPI cung cấp veo3-pro, veo3-fast và veo3. Để biết chi tiết, vui lòng tham khảo Phiên bản 3 'S doc.
Mẹo thực tế (nhà phát triển): để yêu cầu đầu ra theo chiều dọc, hãy đặt aspectRatio tham số (ví dụ "9:16") và kiểm tra cấu hình mô hình (Veo 3 so với Veo 3 Fast) và kế hoạch của bạn về giới hạn độ phân giải (720p so với 1080p).
Cách truy cập Sora 2 (hôm nay)
Ứng dụng Sora: Sora 2 đã ra mắt với ứng dụng Sora (chỉ giới hạn người dùng được mời tại Hoa Kỳ và Canada khi ra mắt). OpenAI cho biết sẽ mở rộng quyền truy cập và mở rộng API sau này. Nếu bạn muốn dùng thử Sora 2 ngay, hãy xem CpmetAPI. Sora 2 trang. CometAPI đã hỗ trợ API sora 2 và tạo ra các clip xã hội dài khoảng 10 giây và nhấn mạnh vào tính chân thực chuyển động cho con người.
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập API Veo 3.1 thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
