Veo3.1 mới: Nhất quán hơn ,đầu ra đa dạng và phong phú hơn

Veo 3.1 của Google được cập nhật vào tháng 1, mang đến những cải tiến có trọng tâm giúp quy trình ảnh→video tiến gần hơn tới chất lượng sản xuất. Bản cập nhật 3.1 tập trung vào bốn nâng cấp thực tiễn giúp quy trình ảnh→video trở nên hữu dụng hơn đáng kể với nhà sáng tạo và nhà phát triển: quy trình “Ingredients to Video” được tăng cường để tạo clip động từ ảnh tham chiếu, tính nhất quán mạnh hơn giữa nhân vật và cảnh, xuất dọc nguyên bản (9:16) cho nền tảng ưu tiên di động, và các tùy chọn đầu ra độ trung thực cao mới, bao gồm nâng cấp lên 1080p và 4K được cải thiện. Với những người sáng tạo và nhà phát triển từng phải xoay sở với quy trình “cắt rồi chỉnh sửa” cho định dạng dọc mạng xã hội, đầu ra 9:16 nguyên bản và nâng cấp độ phân giải được cải thiện của Veo 3.1 hứa hẹn giảm bớt trở ngại và mang đến các clip chỉn chu, sẵn sàng cho nền tảng.

Với nhà phát triển và chuyên gia truyền thông, Veo 3.1 không chỉ là “nhiều pixel hơn”; đó là về việc nhấn mạnh vào tính nhất quán. Bản cập nhật trực tiếp giải quyết vấn đề “nhấp nháy” và mất nhận diện vốn đeo đẳng video AI, cung cấp bộ công cụ có khả năng duy trì độ trung thực về nhân vật và phong cách xuyên suốt nhiều cú máy, qua đó thách thức Sora 2.0 của OpenAI trong cuộc đua thống trị thị trường truyền thông sinh tạo cao cấp.

Kiến trúc của Veo 3.1 được định nghĩa bởi điều gì?

Veo 3.1 được xây dựng trên kiến trúc khuếch tán dựa trên transformer đã được tinh chỉnh cho hiểu biết đa phương thức. Khác với các phiên bản tiền nhiệm chủ yếu ánh xạ văn bản sang video, Veo 3.1 xem đầu vào thị giác (hình ảnh) như “đối tượng hạng nhất” ngang hàng với lời nhắc văn bản.

Sự chuyển dịch kiến trúc này cho phép mô hình “nhìn thấy” các tài sản người dùng cung cấp—như ảnh sản phẩm, tham chiếu nhân vật hoặc một phông nền cụ thể—và biến chúng thành chuyển động với hiểu biết sâu về hình học 3D và ánh sáng. Kết quả là một hệ thống ít giống “máy đánh bạc” và giống một engine dựng hình số hơn.

3.1 có gì mới so với các phiên bản trước?

Tổng hợp tham chiếu phong phú hơn: Mô hình trích xuất tốt hơn các đặc trưng (khuôn mặt, trang phục, chất liệu bề mặt, yếu tố phông nền) và tái sử dụng đáng tin cậy xuyên suốt nhiều khung hình, giúp nhân vật trông như cùng một người trong suốt clip.
Dàn cảnh thông minh hơn: Thay vì cắt khung ngang để vừa với canvas dọc (hoặc ngược lại), Veo 3.1 tạo bố cục dọc nguyên bản (9:16) để vị trí chủ thể, tín hiệu chiều sâu và chuyển động phù hợp với định dạng (tối quan trọng cho sáng tạo TikTok/Shorts/Reels).
Lặp nhanh hơn cho nội dung dạng ngắn: UX và mô hình được tinh chỉnh cho đầu ra “ưu tiên mạng xã hội” 8 giây trong nhiều ngữ cảnh sản phẩm (Gemini app, Flow), cho phép nhà sáng tạo thử nghiệm nhanh.

“Ingredients to Video” hoạt động thế nào và có gì mới trong 3.1?

Tính năng nổi bật của bản phát hành này là khả năng "Ingredients to Video" được đại tu. Tính năng này cho phép người dùng cung cấp các “nguyên liệu” thị giác riêng biệt mà mô hình phải sử dụng trong đầu ra cuối, hiệu quả nối liền quản lý tài sản với việc tạo video.

Khái niệm “Ingredients to Video” là gì?

Ở các phiên bản trước, “Image-to-Video” chủ yếu là tác vụ hoạt hình hóa một ảnh đơn. Veo 3.1 mở rộng bằng cách cho phép tải lên nhiều ảnh tham chiếu (tối đa ba) để định nghĩa cảnh. Các tài sản này đóng vai trò chủ thể (người, vật, chất liệu hoặc phông nền), và mô hình sẽ dàn dựng chuyển động, khung hình máy quay và chuyển cảnh xung quanh chúng để tạo video ngắn, giữ nguyên nhận diện thị giác đã cung cấp. Điều này khác với text-to-video thuần túy vì nó đặt ràng buộc mạnh hơn lên ngoại hình và tính liên tục thị giác ngay từ đầu.

Pha trộn theo ngữ cảnh: Bạn có thể tải ảnh của một người (Nhân vật A), ảnh của một địa điểm (Phông nền B) và tham chiếu phong cách (Phong cách C). Veo 3.1 tổng hợp các yếu tố riêng biệt này thành một video mạch lạc, nơi Nhân vật A hành động trong Môi trường B, được dựng theo Phong cách C.
Nhắc đa phương thức: Đầu vào thị giác hoạt động song hành với văn bản. Bạn có thể cung cấp ảnh sản phẩm kèm lời nhắc văn bản “explode into particles”, và mô hình vẫn bám chặt vào chi tiết thị giác của sản phẩm đồng thời thực thi “vật lý” theo lời nhắc.

Có gì mới trong chế độ Ingredients của Veo 3.1?

Veo 3.1 giới thiệu nhiều cải tiến cụ thể cho luồng Ingredients:

Biểu đạt mạnh mẽ từ lời nhắc tối giản: Ngay cả lời nhắc văn bản ngắn cũng tạo chuyển động giàu cảm xúc và tính kể chuyện khi ghép với ảnh nguyên liệu, giúp dễ đạt kết quả dùng được với ít vòng lặp hơn.
Bảo toàn nhận diện chủ thể tốt hơn: Mô hình giữ nguyên nhận diện thị giác của chủ thể (khuôn mặt, trang phục, nhãn sản phẩm) qua nhiều cú máy và thay đổi cảnh. Điều này giảm nhu cầu cấp lại tài sản để duy trì liên tục.
Tính nhất quán đối tượng và phông nền: Vật thể và yếu tố cảnh có thể tồn tại xuyên cắt dựng, cải thiện tính mạch lạc của kể chuyện và cho phép tái sử dụng đạo cụ hoặc chất liệu.
Tự động thêm hành động năng động và nhịp kể chuyện cho cảnh;
Video đầu ra phong phú hơn về “kể chuyện” và “chi tiết khuôn mặt”, nâng cao độ tự nhiên theo cảm nhận thị giác của con người.

Những cải tiến này nhằm giảm các điểm đau thường gặp của tạo video từ ảnh: trôi lệch chủ thể, phông nền thiếu nhất quán và mất đi phong cách khi chuyển giữa khung hình.

Trường hợp sử dụng thực tế cho Ingredients to Video

Hoạt hình hóa linh vật thương hiệu từ tài sản thiết kế.
Biến ảnh chân dung diễn viên thành clip chuyển động cho quảng cáo mạng xã hội.
Dựng thử nhanh các xử lý thị giác (ánh sáng, chất liệu) trước khi sản xuất đầy đủ.

Những nâng cấp về tính nhất quán mà Veo 3.1 giới thiệu?

Trong bất kỳ chuỗi nhiều cú máy hoặc nhiều cảnh được tạo nào, duy trì nhận diện chủ thể (khuôn mặt, trang phục, nhãn sản phẩm), vị trí đối tượng và sự liên tục của phông nền là thiết yếu cho độ tin cậy của câu chuyện. Bất nhất—những thay đổi nhẹ ở cấu trúc khuôn mặt, hình dạng hoặc chất liệu—phá vỡ “niềm tin” của người xem và đòi hỏi can thiệp thủ công hoặc tạo lại. Các thế hệ mô hình video trước đây thường đánh đổi tính linh hoạt lấy mạch lạc; Veo 3.1 tìm cách thu hẹp đánh đổi này.

Veo 3.1 khiến việc dựng các chuỗi ngắn và những điểm nhịp truyện đọc như một mạch kể liên tục thay vì tập hợp các đoạn độc lập trở nên khả thi. Cải tiến này là trung tâm trải nghiệm 3.1:

Ổn định theo thời gian: Mô hình giảm đáng kể hiệu ứng “biến hình” nơi khuôn mặt hoặc vật thể âm thầm thay đổi hình dạng theo thời gian.
Mạch lạc giữa các cú máy: Bằng cách dùng cùng ảnh “nguyên liệu” trên các lời nhắc khác nhau, nhà sáng tạo có thể tạo nhiều clip của cùng một nhân vật trong các bối cảnh khác nhau mà không khiến họ trông như người khác. Đây là bước nhảy vọt lớn cho hướng dẫn thương hiệu và sản xuất nội dung dạng tập.
Pha trộn chất liệu: Cho phép nhân vật, vật thể và phông nền được phong cách hóa hòa trộn tự nhiên, tạo video chất lượng cao với phong cách thống nhất.

Tác động thực tiễn

Với biên tập viên và nhà sáng tạo mạng xã hội, điều này đồng nghĩa ít chỉnh sửa và ít rotoscoping hơn; với nhà phát triển và studio, nó giảm ma sát khi tự động hóa chuỗi nhiều cú máy, và giảm khâu tuyển chọn thủ công cần thiết để duy trì tính liên tục thị giác giữa các tài sản.

Veo-3.1

Nâng cấp đầu ra của Veo 3.1: Dọc và độ trung thực cao

Đầu ra dọc nguyên bản

Trước sự thống trị của TikTok, YouTube Shorts và Instagram Reels, nhu cầu video dọc chất lượng cao là vô độ. Veo 3.1 cuối cùng đã đối xử với định dạng này đúng mức.

Veo 3.1 giới thiệu khả năng tạo theo tỷ lệ khung hình 9:16 nguyên bản.

Không cần cắt: Khác với các luồng trước kia tạo video vuông hoặc ngang rồi cắt (mất độ phân giải và bố cục), Veo 3.1 dàn cảnh theo chiều dọc ngay từ đầu.
Trí tuệ khung hình: Mô hình hiểu quy tắc bố cục dọc, đảm bảo chủ thể được đặt trung tâm và tận dụng tốt các cấu trúc cao, thay vì tạo đường chân trời rộng trông vụng về khi “ép” vào màn hình điện thoại.

Tạo dọc nguyên bản thay đổi quy trình như thế nào

Xuất bản nhanh hơn: Không cần cắt và dàn khung lại sau khi tạo.
Bố cục tốt hơn: Mô hình dàn cảnh với tư duy khung dọc (khoảng trống trên đầu, đường chuyển động).
Sẵn sàng cho nền tảng: Xuất phù hợp cho TikTok và Shorts với chỉnh sửa tối thiểu.

Đầu ra độ trung thực cao

Độ phân giải từng là nút thắt cổ chai chính của video AI. Veo 3.1 phá vỡ trần 720p/1080p với hỗ trợ 4K nguyên bản.

Nâng cấp độ phân giải tích hợp: Pipeline bao gồm mô-đun siêu phân giải mới nâng cấp nội dung tạo lên 4K (3840x2160) hoặc 1080p với độ trung thực bitrate cao.
Giảm tạo tác: Bộ nâng cấp được huấn luyện đặc thù trên tạo tác của nội dung sinh tạo, cho phép làm mượt “nhấp nháy” thường thấy ở chất liệu AI đồng thời làm sắc cạnh, khiến đầu ra phù hợp với timeline dựng phim chuyên nghiệp.

Veo 3.1 so với Sora 2.0 như thế nào?

Cuộc so sánh giữa Veo 3.1 của Google và Sora 2.0 của OpenAI định hình bối cảnh hiện tại của video AI. Dù cả hai đều mạnh mẽ, chúng phục vụ những ưu tiên khác nhau.

Tính năng	Google Veo 3.1	OpenAI Sora 2.0
Triết lý chủ đạo	Kiểm soát & nhất quán. Thiết kế cho quy trình sản xuất nơi các tài sản cụ thể (sản phẩm, nhân vật) phải được tôn trọng.	Mô phỏng & Vật lý. Thiết kế để mô phỏng thế giới thực với độ trung thực cao, tập trung vào “phép màu” tạo một lần. Text-to-video và image-to-video với nhấn mạnh vào tính chân thực, độ chính xác vật lý và âm thanh đồng bộ.
Tính linh hoạt đầu vào	Cao. “Ingredients to Video” cho phép đưa nhiều ảnh để kiểm soát tài sản chính xác.	Trung bình. Text-to-video và ảnh khởi đầu đơn mạnh mẽ, nhưng ít kiểm soát chi tiết với từng yếu tố.
Video dọc	9:16 nguyên bản. Tối ưu bố cục cho định dạng di động.	Hỗ trợ, nhưng thường thiên vị khung hình điện ảnh 16:9 trong dữ liệu huấn luyện.
Độ phân giải	4K (qua nâng cấp). Sắc nét, sẵn sàng phát sóng.	1080p nguyên bản. Chất lượng cao, nhưng cần nâng cấp ngoài cho luồng 4K.
An toàn thương hiệu	Cao. Hàng rào bảo vệ mạnh và độ trung thực tài sản giúp an toàn hơn cho mục đích thương mại.	Biến thiên. Có thể “ảo tưởng” vật lý hoặc chi tiết lệch khỏi lời nhắc vì mục tiêu “sáng tạo”.
Danh tính/nhất quán	Cải thiện tính nhất quán của chủ thể và vật thể, neo vào ảnh tham chiếu (Ingredients).	Sora 2 cũng nhấn mạnh tính nhất quán đa cú máy và khả năng kiểm soát.

Khác biệt thực tế

Quy trình di động & dọc: Veo 3.1 nhắm mục tiêu rõ ràng tới nhà sáng tạo di động với dựng dọc nguyên bản và tích hợp trực tiếp YouTube Shorts—lợi thế cho hiệu quả pipeline nội dung ngắn.
Âm thanh & âm thanh đồng bộ: Sora 2 đề cao thoại đồng bộ và hiệu ứng âm thanh như năng lực cốt lõi, có thể quyết định với nhà sáng tạo cần tạo âm thanh tích hợp cùng chuyển động.

Tóm lại: Veo 3.1 thu hẹp những khoảng cách thực tiễn quan trọng quanh định dạng di động và nâng cấp sản xuất, trong khi Sora 2 tiếp tục dẫn đầu ở âm thanh tích hợp và một số thước đo chân thực. Lựa chọn phụ thuộc vào ưu tiên quy trình: kể chuyện neo vào ảnh, ưu tiên di động (Veo) so với tính điện ảnh chân thực kèm âm thanh (Sora 2).

Vì sao điều này quan trọng: Nếu bạn là nhà sáng tạo mạng xã hội đang tìm một clip “gây bão” siêu chân thực về một con voi ma mút lông dày đi xuyên qua NYC, Sora 2.0 thường tạo ra “độ wow” cao hơn mỗi giây. Tuy nhiên, nếu bạn là một agency quảng cáo cần hoạt hình hóa một lon soda cụ thể (Ingredient A) trên một bãi biển cụ thể (Ingredient B) cho quảng cáo dọc trên Instagram, Veo 3.1 là công cụ vượt trội.

Làm thế nào để nhà phát triển và nhà sáng tạo bắt đầu dùng Veo 3.1 ngay hôm nay?

Veo 3.1 có sẵn ở đâu?

Veo 3.1 có sẵn trong Gemini API qua CometAPI. Tại sao tôi khuyến nghị CometAPI cho bạn? Vì nó rẻ nhất và dễ sử dụng, và bạn cũng có thể tìm thấy API sora 2, v.v. ở đó.

Mẫu cách sử dụng và ví dụ mã

import osimport timeimport requests# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it hereCOMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"BASE_URL = "https://api.cometapi.com/veo/v1/video"# Create video generation taskcreate_response = requests.post(    f"{BASE_URL}/create",    headers={        "Authorization": COMETAPI_KEY,        "Content-Type": "application/json",    },    json={        "prompt": "An orange cat flying in the blue sky with white clouds, sunlight pouring onto its fur, creating a beautiful and dreamlike scene",        "model": "veo3.1",        "enhance_prompt": True,    },)task = create_response.json()task_id = task["id"]print(f"Task created: {task_id}")print(f"Status: {task['status']}")# Poll until video is readywhile True:    query_response = requests.get(        f"{BASE_URL}/query/{task_id}",        headers={            "Authorization": f"Bearer {COMETAPI_KEY}",        },    )    result = query_response.json()    status = result["data"]["status"]    progress = result["data"].get("progress", "")    print(f"Checking status... {status} {progress}")    if status == "SUCCESS" or result["data"]["data"]["status"] == "completed":        video_url = result["data"]["data"]["video_url"]        print(f"Video URL: {video_url}")        break    elif status == "FAILED":        print(f"Failed: {result['data'].get('fail_reason', 'Unknown error')}")        break    time.sleep(10)

Kết luận

Veo 3.1 đại diện cho sự trưởng thành của video sinh tạo. Bằng cách vượt qua “ảo giác” chuyển văn bản thành pixel đơn thuần và cung cấp công cụ vững chắc cho kiểm soát tài sản (“Ingredients”), tối ưu định dạng (Dọc nguyên bản) và chất lượng bàn giao (4K), Google đã mang tới API video sinh tạo “chuẩn studio” đầu tiên. Với doanh nghiệp muốn tự động hóa sản xuất nội dung ở quy mô lớn, sự chờ đợi một mô hình video có thể kiểm soát, độ trung thực cao cuối cùng đã kết thúc.

Nhà phát triển có thể truy cập Veo 3.1 API qua CometAPI. Để bắt đầu, hãy khám phá khả năng của CometAPI trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. Com e tAPI cung cấp mức giá thấp hơn đáng kể so với giá chính thức để hỗ trợ bạn tích hợp.

Sẵn sàng bắt đầu?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!