Kling O1: mô hình video đa phương thức “thống nhất” mới — nó là gì và hoạt động như thế nào - CometAPI

Kling O1 — được ra mắt trong tuần lễ ra mắt “Omni” của Kling AI — tự định vị mình là một mô hình nền tảng video đa phương thức thống nhất, duy nhất, có thể chấp nhận văn bản, hình ảnh và video trong cùng một yêu cầu và có thể vừa tạo vừa chỉnh sửa video trong các quy trình làm việc lặp lại cấp độ đạo diễn. Đội ngũ của Kling gọi O1 là “mô hình video đa phương thức quy mô lớn thống nhất đầu tiên trên thế giới”. Các bài kiểm tra nội bộ của Kling khẳng định đã giành được những chiến thắng đáng kể so với Veo 3.1 của Google và Runway Aleph.

Kling O1 là gì?

Kling O1 (thường được tiếp thị là Video O1 or Omni Một) là một mô hình nền tảng video mới ra mắt của Kling AI, hợp nhất việc tạo và chỉnh sửa văn bản, hình ảnh và video trong một khuôn khổ duy nhất, được điều khiển bởi lời nhắc. Thay vì xử lý văn bản thành video, hình ảnh thành video và chỉnh sửa video như những quy trình riêng biệt, Kling O1 chấp nhận các đầu vào hỗn hợp (văn bản + nhiều hình ảnh + video tham chiếu tùy chọn) trong một lời nhắc duy nhất, suy luận về chúng và tạo ra các clip ngắn mạch lạc hoặc chỉnh sửa cảnh quay hiện có với khả năng kiểm soát chi tiết. Công ty định vị việc triển khai này là một phần của "Omni Launch" và mô tả O1 là một "công cụ video đa phương thức" được xây dựng xung quanh mô hình Ngôn ngữ Hình ảnh Đa phương thức (MVL) và con đường suy luận Chuỗi Tư duy (CoT) để diễn giải các hướng dẫn sáng tạo phức tạp, nhiều phần.

Thông điệp của Kling nhấn mạnh ba quy trình làm việc thực tế: (1) văn bản → tạo video, (2) hình ảnh/yếu tố → video (ghép ảnh và hoán đổi chủ thể/đạo cụ bằng cách sử dụng các tham chiếu rõ ràng), và (3) chỉnh sửa video/tiếp tục cảnh quay (thay đổi phong cách, thêm/xóa đối tượng, điều khiển bắt đầu/kết thúc khung hình). Mô hình này hỗ trợ các lời nhắc đa yếu tố (bao gồm cú pháp “@” để nhắm mục tiêu đến các hình ảnh tham chiếu cụ thể) và có các điều khiển theo phong cách đạo diễn như neo khung hình bắt đầu/kết thúc và tiếp tục video để xây dựng các chuỗi cảnh quay nhiều cảnh.

5 điểm nổi bật cốt lõi của Kling O1

1) Đầu vào đa phương thức thống nhất thực sự (MVL)

Khả năng chủ lực của Kling O1 là xử lý văn bản, hình ảnh tĩnh (nhiều tham chiếu) và video như các đầu vào đồng thời, chất lượng cao. Người dùng có thể cung cấp nhiều hình ảnh tham chiếu (hoặc một đoạn clip tham chiếu ngắn). và một hướng dẫn bằng ngôn ngữ tự nhiên; mô hình sẽ phân tích tất cả các đầu vào với nhau để tạo ra hoặc chỉnh sửa một đầu ra mạch lạc. Điều này làm giảm ma sát giữa các công cụ và cho phép các quy trình làm việc như "sử dụng chủ thể từ @image1, đặt chúng vào môi trường từ @image2, chuyển động phù hợp với ref_video.mp4và áp dụng cấp độ màu điện ảnh X.” Khung “Ngôn ngữ hình ảnh đa phương thức” (MVL) này là cốt lõi trong bài giới thiệu của Kling.

Tại sao nó quan trọng: Quy trình sáng tạo thực tế thường đòi hỏi sự kết hợp các tham chiếu: một nhân vật từ một tài nguyên, một chuyển động máy quay từ một tài nguyên khác và một hướng dẫn tường thuật bằng văn bản. Việc hợp nhất các yếu tố đầu vào này cho phép tạo ra một lần và giảm thiểu các bước biên soạn thủ công.

2) Chỉnh sửa + tạo trong một mô hình (chế độ nhiều phần tử)

Hầu hết các hệ thống trước đây đều tách biệt việc tạo (văn bản → video) với việc chỉnh sửa chính xác từng khung hình. O1 cố tình kết hợp cả hai: cùng một mô hình tạo clip từ đầu cũng có thể chỉnh sửa cảnh quay hiện có — hoán đổi vật thể, thay đổi phong cách trang phục, loại bỏ đạo cụ hoặc kéo dài cảnh quay — tất cả đều thông qua các lệnh bằng ngôn ngữ tự nhiên. Sự hội tụ này là một công cụ đơn giản hóa quy trình làm việc đáng kể cho các nhóm sản xuất.

Mô hình O1 đạt được sự tích hợp sâu của nhiều tác vụ video vào cốt lõi của nó:

Tạo văn bản thành video
Tạo tham chiếu hình ảnh/chủ đề
Chỉnh sửa video và tô màu
Chỉnh sửa video
Tạo ảnh tiếp theo/trước đó
Tạo video bị giới hạn bởi khung hình chính

Ý nghĩa lớn nhất của thiết kế này nằm ở chỗ: Các quy trình phức tạp trước đây đòi hỏi nhiều mô hình hoặc công cụ độc lập giờ đây có thể được hoàn thành trong một công cụ duy nhất. Điều này không chỉ giảm đáng kể chi phí tạo và tính toán mà còn đặt nền tảng cho việc phát triển một "mô hình hiểu và tạo video thống nhất".

3) Sự mạch lạc của việc tạo ra video

Tính nhất quán của danh tính: Mô hình O1 tăng cường khả năng lập mô hình nhất quán đa phương thức, duy trì tính ổn định của cấu trúc, vật liệu, ánh sáng và phong cách của đối tượng tham chiếu trong suốt quá trình tạo:

Nó hỗ trợ hình ảnh tham chiếu đa góc nhìn để tạo mô hình chủ thể;
nó hỗ trợ tính nhất quán của chủ thể trong cảnh quay chéo (các đặc điểm của nhân vật, vật thể và cảnh vẫn liên tục trong các cảnh quay khác nhau);
Nó hỗ trợ các tham chiếu lai đa chủ đề, cho phép tạo chân dung nhóm và xây dựng cảnh tương tác.

Cơ chế này cải thiện đáng kể tính mạch lạc và "tính nhất quán về bản sắc" của quá trình tạo video, khiến nó phù hợp với các tình huống có yêu cầu tính nhất quán cực kỳ cao, chẳng hạn như quảng cáo và tạo cảnh quay ở cấp độ phim.

Cải thiện trí nhớ: Mô hình O1 cũng sở hữu "bộ nhớ", giúp ngăn chặn kiểu đầu ra của nó trở nên không ổn định do ngữ cảnh dài hoặc hướng dẫn thay đổi. Nó thậm chí có thể:

nhớ nhiều ký tự cùng lúc;
cho phép các nhân vật khác nhau tương tác trong video;
duy trì sự nhất quán về phong cách, trang phục và tư thế.

4) Kết hợp chính xác với cú pháp “@” và điều khiển khung bắt đầu/kết thúc

Kling đã giới thiệu một cách viết tắt tổng hợp (được báo cáo là hệ thống đề cập “@”) để bạn có thể tham chiếu đến các hình ảnh cụ thể trong lời nhắc (ví dụ: @image1, @image2) để phân công vai trò cho các tài sản một cách đáng tin cậy. Kết hợp với đặc tả khung Bắt đầu + Kết thúc rõ ràng, điều này cho phép kiểm soát ở cấp độ đạo diễn về cách các yếu tố chuyển tiếp, di chuyển hoặc biến đổi trên clip được tạo — một bộ tính năng tập trung vào sản xuất, tạo nên sự khác biệt giữa O1 với nhiều trình tạo hướng đến người dùng khác.

5) Đầu ra có độ trung thực cao, dài và khả năng xếp chồng nhiều tác vụ

Kling O1 được cho là có khả năng tạo ra video 1080p (30 khung hình/giây) đậm chất điện ảnh và — với các phiên bản Kling trước đó đã tạo tiền đề — công ty tự hào giới thiệu khả năng tạo ra các clip dài hơn (lên đến 2 phút trong các bài viết về sản phẩm gần đây). Nó cũng hỗ trợ chồng nhiều tác vụ sáng tạo trong một yêu cầu duy nhất (tạo, thêm chủ thể, thay đổi ánh sáng và chỉnh sửa bố cục). Những đặc tính này giúp nó cạnh tranh với các công cụ xử lý văn bản→video cao cấp hơn.

Tại sao nó quan trọng: Các clip dài hơn, có độ trung thực cao và khả năng kết hợp các bản chỉnh sửa giúp giảm nhu cầu ghép nhiều clip ngắn lại với nhau và đơn giản hóa quá trình sản xuất từ đầu đến cuối.

Kling O1 được thiết kế như thế nào và cơ chế cơ bản là gì?

O1 xung quanh một Ngôn ngữ thị giác đa phương thức (MVL) Lõi: một mô hình học các phép nhúng kết hợp cho tín hiệu ngôn ngữ + hình ảnh + chuyển động (khung hình video và các đặc điểm kiểu dòng quang học), sau đó áp dụng bộ giải mã khuếch tán hoặc bộ biến đổi để tổng hợp các khung hình nhất quán về mặt thời gian. Mô hình được mô tả là thực hiện điều trên nhiều tham chiếu (văn bản; hình ảnh một-đến-nhiều; đoạn video ngắn) để tạo ra biểu diễn video tiềm ẩn sau đó được giải mã thành hình ảnh theo từng khung hình trong khi vẫn duy trì tính nhất quán về mặt thời gian thông qua sự chú ý xuyên khung hình hoặc các mô-đun thời gian chuyên biệt.

1. Bộ chuyển đổi đa phương thức + Kiến trúc ngữ cảnh dài

Mô hình O1 sử dụng kiến trúc Transformer đa phương thức do Keling tự phát triển, tích hợp tín hiệu văn bản, hình ảnh và video, đồng thời hỗ trợ bộ nhớ ngữ cảnh thời gian dài (Multimodal Long Context).

Điều này cho phép mô hình hiểu được tính liên tục về mặt thời gian và tính nhất quán về mặt không gian trong quá trình tạo video.

2. MVL: Ngôn ngữ hình ảnh đa phương thức

MVL là cải tiến cốt lõi của kiến trúc này.

Nó liên kết sâu sắc ngôn ngữ và tín hiệu hình ảnh trong Transformer thông qua một lớp trung gian ngữ nghĩa thống nhất, do đó:

Cho phép một hộp nhập liệu duy nhất kết hợp các hướng dẫn đa phương thức;
Cải thiện khả năng hiểu chính xác của mô hình về các mô tả ngôn ngữ tự nhiên;
Hỗ trợ tạo video tương tác cực kỳ linh hoạt.

Sự ra đời của MVL đánh dấu sự chuyển dịch trong việc tạo video từ “hướng đến văn bản” sang “hướng đến ngữ nghĩa-hình ảnh”.

3. Cơ chế suy luận chuỗi suy nghĩ

Mô hình O1 giới thiệu đường dẫn suy luận “Chuỗi suy nghĩ” trong giai đoạn tạo video.

Cơ chế này cho phép mô hình thực hiện logic sự kiện và suy luận thời gian trước khi tạo, do đó duy trì kết nối tự nhiên giữa các hành động và sự kiện trong video.

Đường ống suy luận và chỉnh sửa

Thế hệ: nguồn cấp dữ liệu: (văn bản + tham chiếu hình ảnh tùy chọn + tham chiếu video tùy chọn + cài đặt tạo) → mô hình tạo khung video tiềm ẩn → giải mã thành khung → hậu xử lý màu/thời gian tùy chọn.
Chỉnh sửa theo hướng dẫn: nguồn cấp dữ liệu: (video gốc + hướng dẫn văn bản + tham chiếu hình ảnh tùy chọn) → mô hình ánh xạ nội bộ chỉnh sửa được yêu cầu thành một tập hợp các phép biến đổi không gian pixel, sau đó tổng hợp các khung đã chỉnh sửa trong khi vẫn giữ nguyên nội dung không thay đổi. Vì mọi thứ đều nằm trong một mô hình, nên cùng một mô-đun điều kiện và thời gian được sử dụng cho cả việc tạo và chỉnh sửa.

Kling Viedo o1 vs Veo 3.1 vs Runway Aleph

Kling O1: mô hình video đa phương thức “thống nhất” mới — nó là gì và hoạt động như thế nào

Trong các đánh giá nội bộ, Keling Video O1 vượt trội đáng kể so với các đối thủ quốc tế hiện có trên một số khía cạnh chính. Kết quả hiệu suất (dựa trên bộ đánh giá tự xây dựng của Keling AI):

Nhiệm vụ “Tham chiếu hình ảnh”: O1 vượt trội hơn Google Veo 3.1 về tổng thể, với tỷ lệ chiến thắng là 247%;
Nhiệm vụ “Chuyển đổi hướng dẫn”: O1 vượt trội hơn Runway Aleph, với tỷ lệ thắng là 230%.

Ảnh chụp nhanh đối thủ cạnh tranh (so sánh cấp độ tính năng)

Năng lực / Mô hình	Kling O1	Google Veo 3.1	Đường băng (Aleph / Gen-4.5)
Lời nhắc đa phương thức thống nhất (văn bản + hình ảnh + video)	Có (điểm bán hàng cốt lõi). luồng đa phương thức yêu cầu đơn lẻ.	Một phần — văn bản → video + tài liệu tham khảo tồn tại; ít chú trọng vào MVL thống nhất duy nhất.	Runway tập trung vào thế hệ + chỉnh sửa nhưng thường là các chế độ riêng biệt; Gen-4.5 mới nhất thu hẹp khoảng cách.
Chỉnh sửa pixel dựa trên văn bản/đối thoại	Có — “chỉnh sửa như một cuộc trò chuyện” (không có mặt nạ).	Một phần — chỉnh sửa đã tồn tại nhưng quy trình làm việc mặt nạ/khung hình chính vẫn phổ biến.	Runway có công cụ chỉnh sửa mạnh mẽ; Runway tuyên bố có khả năng chuyển đổi hướng dẫn mạnh mẽ (thay đổi tùy theo bản phát hành).
Kiểm soát khung hình bắt đầu/kết thúc & tham chiếu camera	Có — mô tả rõ ràng chuyển động của khung hình bắt đầu/kết thúc và camera tham chiếu.	Có giới hạn / đang phát triển	Đường băng: cải thiện khả năng kiểm soát; UX không hoàn toàn giống nhau.
Tạo clip dài (độ trung thực cao)	lên đến ~2 phút (1080p, 30fps) trong tài liệu sản phẩm và bài đăng cộng đồng;	Veo 3.1: tính nhất quán cao nhưng các phiên bản trước đó có giá trị mặc định ngắn hơn; thay đổi tùy theo mô hình/cài đặt.	Đường băng Gen-4.5: hướng đến chất lượng cao; độ dài/độ trung thực có thể thay đổi.

Kết luận:

Kling O1 được công chúng biết đến rộng rãi là hợp nhất quy trình làm việc: trao cho một mô hình duy nhất nhiệm vụ hiểu văn bản, hình ảnh và video, đồng thời thực hiện cả việc tạo và chỉnh sửa dựa trên hướng dẫn phong phú trong cùng một hệ thống ngữ nghĩa. Đối với những người sáng tạo và nhóm thường xuyên chuyển đổi giữa các bước "tạo", "chỉnh sửa" và "mở rộng", sự hợp nhất này có thể đơn giản hóa đáng kể tốc độ lặp lại và độ phức tạp của công cụ. Tính nhất quán về mặt thời gian được cải thiện, khả năng kiểm soát khung hình bắt đầu/kết thúc và tích hợp nền tảng thực dụng giúp người sáng tạo dễ dàng tiếp cận.

API Kling Video o1 sẽ sớm có trên CometAPI.

Các nhà phát triển có thể truy cập Kling 2.5 Turb và API Veo 3.1 thông qua Sao chổiAPI, các mô hình mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!