Veo3.1 mới: Tính nhất quán cao hơn, đầu ra đa dạng hơn và phong phú hơn

Google’s Veo 3.1 đã được cập nhật vào tháng 1, mang đến những cải tiến tập trung giúp quy trình chuyển hình ảnh thành video tiến gần hơn tới chất lượng sản xuất. Bản cập nhật 3.1 tập trung vào bốn nâng cấp thiết thực khiến quy trình hình ảnh→video trở nên hữu dụng hơn hẳn cho nhà sáng tạo và nhà phát triển: quy trình “Ingredients to Video” được tăng cường để tạo clip động từ ảnh tham chiếu, khả năng nhất quán mạnh hơn giữa nhân vật và bối cảnh, đầu ra dọc bản địa (9:16) cho nền tảng ưu tiên di động, và các tùy chọn đầu ra độ trung thực cao mới, bao gồm nâng cấp 1080p và 4K được cải thiện. Đối với những nhà sáng tạo và nhà phát triển vốn phải xoay xở với quy trình “cắt rồi chỉnh” cho định dạng dọc mạng xã hội, đầu ra 9:16 bản địa và nâng cấp chất lượng được cải thiện của Veo 3.1 hứa hẹn giảm ma sát và mang đến clip hoàn thiện, sẵn sàng cho nền tảng.

Đối với nhà phát triển và chuyên gia truyền thông, Veo 3.1 không chỉ là nhiều điểm ảnh hơn; đó là về tính nhất quán. Bản cập nhật giải quyết trực tiếp vấn đề “nhấp nháy” và mất định danh vốn gây khó cho video AI, cung cấp bộ công cụ có khả năng duy trì tính trung thành về nhân vật và phong cách xuyên suốt nhiều cảnh, qua đó thách thức hiệu quả Sora 2.0 của OpenAI trong cuộc đua ở thị trường truyền thông sinh thành cao cấp.

Kiến trúc của Veo 3.1 là gì?

Veo 3.1 được xây dựng trên kiến trúc khuếch tán dựa trên transformer đã được tăng cường và tinh chỉnh cho khả năng hiểu đa phương thức. Khác với các phiên bản trước chủ yếu ánh xạ văn bản sang video, Veo 3.1 coi đầu vào thị giác (hình ảnh) là đối tượng hạng nhất ngang hàng với lời nhắc văn bản.

Sự chuyển dịch kiến trúc này cho phép mô hình “nhìn thấy” tài sản người dùng cung cấp—như ảnh sản phẩm, tham chiếu nhân vật hoặc phông nền cụ thể—và hoạt họa chúng với hiểu biết sâu về hình học 3D và ánh sáng. Kết quả là một hệ thống ít “máy đánh bạc” hơn và giống một động cơ kết xuất số hóa hơn.

3.1 thay đổi gì so với các phiên bản trước?

Tổng hợp tham chiếu phong phú hơn: Mô hình trích xuất tốt hơn các đặc trưng (khuôn mặt, trang phục, kết cấu bề mặt, yếu tố nền) và tái sử dụng đáng tin cậy qua nhiều khung hình, giúp nhân vật trông như cùng một người trong toàn bộ clip.
Dựng hình thông minh hơn: Thay vì cắt khung ngang để vừa khung dọc (hoặc ngược lại), Veo 3.1 tạo bố cục dọc bản địa (9:16) để vị trí chủ thể, chiều sâu và chuyển động phù hợp với định dạng (tối quan trọng cho sáng tạo TikTok/Shorts/Reels).
Lặp nhanh hơn cho nội dung ngắn: UX và mô hình được tinh chỉnh cho đầu ra “ưu tiên mạng xã hội” 8 giây trong nhiều ngữ cảnh sản phẩm (ứng dụng Gemini, Flow), giúp nhà sáng tạo thử nghiệm nhanh.

“Ingredients to Video” hoạt động thế nào và 3.1 có gì mới?

Tính năng nổi bật của bản phát hành này là khả năng "Ingredients to Video" được đại tu. Tính năng này cho phép người dùng cung cấp các “nguyên liệu” thị giác riêng biệt mà mô hình phải sử dụng trong đầu ra cuối cùng, tạo cầu nối hiệu quả giữa quản lý tài sản và tạo video.

Khái niệm “Ingredients to Video” là gì?

Ở các phiên bản trước, “Image-to-Video” chủ yếu là nhiệm vụ hoạt họa từ một ảnh. Veo 3.1 mở rộng bằng cách cho phép tải lên nhiều ảnh tham chiếu (tối đa ba) để xác định cảnh. Những tài sản này đóng vai trò chủ thể (người, vật, kết cấu hoặc nền), và mô hình dàn dựng chuyển động, bố cục khung máy và chuyển cảnh xung quanh chúng để tạo một video ngắn giữ nguyên bản sắc thị giác đã cung cấp. Điều này khác với thuần văn bản-sang-video vì nó đặt ra các ràng buộc mạnh hơn về diện mạo và tính liên tục thị giác ngay từ đầu.

Pha trộn theo ngữ cảnh: Bạn có thể tải ảnh một người (Nhân vật A), ảnh một địa điểm (Nền B) và một tham chiếu phong cách (Phong cách C). Veo 3.1 tổng hợp các yếu tố riêng biệt này thành một video nhất quán, nơi Nhân vật A hoạt động trong Môi trường B, được dựng theo Phong cách C.
Nhắc lệnh đa phương thức: Đầu vào thị giác hoạt động song hành với văn bản. Bạn có thể cung cấp ảnh sản phẩm và lời nhắc văn bản “nổ tung thành các hạt”, và mô hình sẽ tuân thủ chặt chẽ chi tiết thị giác của sản phẩm trong khi thực thi vật lý theo lời nhắc.

Có gì mới trong chế độ Ingredients của Veo 3.1?

Veo 3.1 giới thiệu một số cải tiến cụ thể cho luồng Ingredients:

Biểu đạt từ lời nhắc tối giản: Ngay cả lời nhắc ngắn cũng tạo ra chuyển động giàu cảm xúc và kể chuyện khi ghép với ảnh nguyên liệu, giúp dễ thu được kết quả dùng được với ít vòng lặp hơn.
Bảo toàn định danh chủ thể mạnh hơn: Mô hình bảo toàn tốt hơn bản sắc thị giác của chủ thể (khuôn mặt, trang phục, dấu hiệu sản phẩm) qua nhiều cú máy và thay đổi cảnh. Điều này giảm nhu cầu cung cấp lại tài sản để đảm bảo tính liên tục.
Nhất quán vật thể và hậu cảnh: Vật thể và thành phần cảnh có thể duy trì qua các cắt cảnh, cải thiện tính mạch lạc kể chuyện và cho phép tái sử dụng đạo cụ hoặc kết cấu.
Tự động thêm hành động động và nhịp kể chuyện vào cảnh;
Video đầu ra phong phú hơn về “kể chuyện” và “chi tiết khuôn mặt”, tăng cường cảm nhận tự nhiên của thị giác con người.

Những cải tiến này được thiết kế để giảm các điểm đau thường gặp trong tạo video từ ảnh: trôi chủ thể, bất nhất nền và mất phong cách khi chuyển giữa các khung hình.

Trường hợp sử dụng thực tế cho Ingredients to Video

Hoạt họa linh vật thương hiệu từ tài sản thiết kế.
Biến ảnh chân dung diễn viên thành clip chuyển động cho quảng cáo mạng xã hội.
Dựng mẫu nhanh các xử lý thị giác (ánh sáng, kết cấu) trước khi sản xuất đầy đủ.

Veo 3.1 đã nâng cấp tính nhất quán như thế nào?

Trong bất kỳ chuỗi nhiều cú máy hoặc đa cảnh nào được tạo, duy trì định danh chủ thể (khuôn mặt, trang phục, nhãn sản phẩm), vị trí vật thể và tính liên tục hậu cảnh là điều thiết yếu cho độ tin cậy của câu chuyện. Sự không nhất quán—những thay đổi nhỏ về cấu trúc khuôn mặt, hình dạng hay kết cấu vật thể—làm vỡ sự đắm chìm của người xem và đòi hỏi can thiệp thủ công hoặc tạo lại. Các thế hệ mô hình video trước đây thường đánh đổi linh hoạt lấy tính mạch lạc; Veo 3.1 tìm cách thu hẹp đánh đổi đó.

Veo 3.1 khiến việc dựng các chuỗi ngắn và nhịp truyện trở nên khả thi theo cách được đọc như một mạch kể liên tục chứ không phải một loạt đoản khúc rời rạc. Cải tiến này là trung tâm của trải nghiệm 3.1:

Ổn định theo thời gian: Mô hình giảm đáng kể hiệu ứng “biến dạng” nơi khuôn mặt hoặc vật thể thay đổi hình dạng nhẹ theo thời gian.
Mạch lạc giữa các cú máy: Bằng cách dùng cùng ảnh “nguyên liệu” cho các lời nhắc khác nhau, nhà sáng tạo có thể tạo nhiều clip của cùng một nhân vật trong bối cảnh khác nhau mà không trông như người khác. Đây là bước tiến lớn cho tuân thủ guideline thương hiệu và sản xuất nội dung theo kỳ.
Pha trộn kết cấu: Cho phép nhân vật, vật thể và hậu cảnh đã tạo kiểu pha trộn tự nhiên, tạo video chất lượng cao với phong cách thống nhất.

Tác động thực tiễn

Với biên tập viên và nhà sáng tạo mạng xã hội, điều này đồng nghĩa ít chỉnh sửa và rotoscoping hơn; với nhà phát triển và studio, nó giảm ma sát khi tự động hóa chuỗi nhiều cú máy, và giảm công sưu tầm thủ công cần thiết để duy trì tính liên tục thị giác giữa các tài sản.

Veo-3.1

Nâng cấp đầu ra của Veo 3.1: Đầu ra dọc và Độ trung thực cao

Đầu ra dọc bản địa

Với sự thống trị của TikTok, YouTube Shorts và Instagram Reels, nhu cầu video dọc chất lượng cao là vô tận. Veo 3.1 cuối cùng đối xử nghiêm túc với định dạng này.

Veo 3.1 giới thiệu khả năng tạo bản địa theo tỷ lệ khung hình 9:16.

Không cắt xén: Khác quy trình trước tạo video vuông hoặc ngang rồi cắt (mất độ phân giải và bố cục), Veo 3.1 dàn dựng khung dọc ngay từ đầu.
Trí tuệ bố cục: Mô hình hiểu quy tắc bố cục dọc, đảm bảo chủ thể được căn giữa và các cấu trúc thẳng đứng được khai thác hiệu quả, thay vì tạo đường chân trời rộng trông vụng về khi ép vào màn hình điện thoại.

Tạo dọc bản địa thay đổi quy trình làm việc như thế nào

Xuất bản nhanh hơn: Không cần cắt và dàn khung lại sau khi tạo.
Bố cục tốt hơn: Mô hình dàn dựng cảnh với tư duy khung dọc (khoảng trống trên đầu, đường chuyển động).
Sẵn sàng nền tảng: Xuất phù hợp cho TikTok và Shorts với chỉnh sửa tối thiểu.

Đầu ra độ trung thực cao

Độ phân giải từng là nút thắt lớn của video AI. Veo 3.1 phá vỡ trần 720p/1080p với hỗ trợ 4K bản địa.

Nâng cấp tích hợp: Quy trình có mô-đun siêu phân giải mới nâng cấp nội dung tạo ra lên 4K (3840x2160) hoặc 1080p với độ trung thực bitrate cao.
Giảm tạo tác: Bộ nâng cấp được huấn luyện đặc thù trên tạo tác sinh thành, cho phép làm mượt “nhấp nháy” thường thấy ở kết cấu AI đồng thời mài sắc cạnh, khiến đầu ra phù hợp với timeline biên tập chuyên nghiệp.

Veo 3.1 so với Sora 2.0 như thế nào?

So sánh giữa Veo 3.1 của Google và Sora 2.0 của OpenAI định hình bức tranh hiện tại của video AI. Dù cả hai đều mạnh mẽ, chúng phục vụ mục tiêu khác nhau.

Tính năng	Google Veo 3.1	OpenAI Sora 2.0
Triết lý chủ đạo	Kiểm soát & nhất quán. Thiết kế cho quy trình sản xuất nơi tài sản cụ thể (sản phẩm, nhân vật) phải được tôn trọng.	Mô phỏng & Vật lý. Thiết kế để mô phỏng thế giới thực với độ trung thực cao, tập trung vào “phép màu một lần tạo”. Văn bản-sang-video và ảnh-sang-video với nhấn mạnh vào ảnh thực, độ chính xác vật lý và âm thanh đồng bộ.
Linh hoạt đầu vào	Cao. "Ingredients to Video" cho phép chèn nhiều ảnh để kiểm soát tài sản chính xác.	Trung bình. Mạnh ở văn bản-sang-video và khung bắt đầu từ một ảnh, nhưng kiểm soát chi tiết từng phần tử kém hạt mịn hơn.
Video dọc	9:16 bản địa. Tối ưu bố cục cho định dạng di động.	Được hỗ trợ, nhưng thường ưu ái hình ảnh màn ảnh rộng 16:9 điện ảnh trong dữ liệu huấn luyện.
Độ phân giải	4K (qua nâng cấp). Đầu ra sắc nét, sẵn sàng phát sóng.	1080p bản địa. Chất lượng cao, nhưng cần nâng cấp bên ngoài cho quy trình 4K.
An toàn thương hiệu	Cao. Rào chắn mạnh và độ trung thành tài sản khiến nó an toàn hơn cho sử dụng thương mại.	Biến thiên. Có thể “ảo tưởng” vật lý hoặc chi tiết vượt khỏi lời nhắc vì mục đích “sáng tạo”.
Định danh/nhất quán	Cải thiện tính nhất quán chủ thể và vật thể dựa neo vào ảnh tham chiếu (Ingredients)	Sora 2 cũng nhấn mạnh tính nhất quán đa cú máy và khả năng điều khiển

Khác biệt thực tế

Quy trình di động & dọc: Veo 3.1 nhắm trực tiếp tới nhà sáng tạo di động với kết xuất chân dung bản địa và tích hợp trực tiếp YouTube Shorts—lợi thế cho hiệu suất pipeline nội dung ngắn.
Âm thanh & đồng bộ: Sora 2 nổi bật với đối thoại và hiệu ứng âm thanh đồng bộ như năng lực cốt lõi, có thể quyết định với nhà sáng tạo cần âm thanh tích hợp cùng chuyển động.

Tóm lại: Veo 3.1 thu hẹp các khoảng cách thực tế quan trọng quanh định dạng di động và nâng cấp sản xuất, trong khi Sora 2 tiếp tục dẫn đầu ở âm thanh tích hợp và một số chỉ số hiện thực. Lựa chọn phụ thuộc ưu tiên quy trình: kể chuyện dựa neo ảnh, ưu tiên di động (Veo) so với hiện thực điện ảnh kèm âm thanh (Sora 2).

Vì sao quan trọng: Nếu bạn là nhà sáng tạo mạng xã hội muốn một clip “wow” về một con voi ma mút đi qua New York City, Sora 2.0 thường mang lại “yếu tố ấn tượng” trên mỗi giây cao hơn. Tuy nhiên, nếu bạn là một agency quảng cáo cần hoạt họa một lon soda cụ thể (Nguyên liệu A) trên một bãi biển cụ thể (Nguyên liệu B) cho quảng cáo dọc trên Instagram, Veo 3.1 là công cụ vượt trội.

Nhà phát triển và nhà sáng tạo có thể bắt đầu dùng Veo 3.1 ngay hôm nay như thế nào?

Veo 3.1 có ở đâu?

Veo 3.1 có sẵn trong Gemini API qua CometAPI. Tại sao tôi khuyên bạn dùng CometAPI? Bởi vì nó rẻ nhất và dễ sử dụng, và bạn cũng có thể tìm thấy Sora 2 API, v.v. tại đó.

Mẫu hình sử dụng và ví dụ mã

import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")    print(f"Checking status... {status} {progress}")    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break    time.sleep(10)

Kết luận

Veo 3.1 đánh dấu sự trưởng thành của video sinh thành. Bằng cách vượt ra khỏi “ảo giác từ văn bản thành điểm ảnh” đơn thuần và cung cấp công cụ vững chắc cho kiểm soát tài sản (“Ingredients”), tối ưu định dạng (Dọc bản địa) và chất lượng phân phối (4K), Google đã đem đến API video sinh thành “chuẩn phòng thu” thực sự đầu tiên. Đối với doanh nghiệp muốn tự động hóa sản xuất nội dung ở quy mô lớn, thời gian chờ đợi một mô hình video có thể điều khiển, độ trung thực cao cuối cùng cũng đã kết thúc.

Nhà phát triển có thể truy cập Veo 3.1 API qua CometAPI. Để bắt đầu, hãy khám phá khả năng mô hình của CometAPI trong Playground và tham khảo API guide để có hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Sign up for CometAPI today !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!