Kling O1: 새로운 "통합" 멀티모달 비디오 모델 - 정의 및 작동 방법 - CometAPI

Kling AI의 "Omni" 출시 주간의 일환으로 출시된 Kling O1은 단일 통합 멀티모달 비디오 기반 모델로 자리매김했습니다. 이 모델은 텍스트, 이미지, 비디오를 동일한 요청으로 수용하고 디렉터 수준의 반복적인 워크플로우에서 비디오를 생성하고 편집할 수 있습니다. Kling 팀은 O1을 "세계 최초의 통합 멀티모달 비디오 대규모 모델"이라고 홍보합니다. Kling의 내부 테스트 결과, Google의 Veo 3.1과 Runway Aleph를 상대로 상당한 성능을 입증했습니다.

클링 O1이란 무엇인가요?

Kling O1(종종 다음과 같이 판매됨) 비디오 O1 or 옴니 원)는 Kling AI가 새롭게 출시한 비디오 기반 모델로, 단일 프롬프트 기반 프레임워크 내에서 텍스트, 이미지, 비디오의 생성 및 편집을 통합합니다. 텍스트-비디오, 이미지-비디오, 비디오 편집을 별도의 파이프라인으로 처리하는 대신, Kling O1은 단일 프롬프트에서 혼합된 입력(텍스트 + 여러 이미지 + 선택적 참조 비디오)을 수용하고, 이를 추론하여 일관된 짧은 클립을 제작하거나 기존 영상을 세밀하게 제어하여 편집합니다. Kling은 이번 출시를 "옴니 출시"의 일환으로 설명하며, O1을 다중 모달 시각 언어(MVL) 패러다임과 사고의 사슬(CoT) 추론 경로를 기반으로 구축된 "다중 모달 비디오 엔진"으로 설명합니다. 이를 통해 복잡하고 여러 부분으로 구성된 창의적 지침을 해석할 수 있습니다.

클링의 메시징은 세 가지 실용적인 워크플로우를 강조합니다. (1) 텍스트 → 비디오 생성, (2) 이미지/요소 → 비디오(명시적 참조를 사용한 합성 및 피사체/소품 교체), (3) 비디오 편집/숏 연속(스타일 변경, 객체 추가/제거, 시작 프레임/종료 프레임 제어). 이 모델은 다중 요소 프롬프트(특정 참조 이미지를 타겟팅하기 위한 "@" 구문 포함)를 지원하며, 시작/종료 프레임 앵커링 및 비디오 연속과 같은 감독 스타일의 제어 기능을 통해 다중 숏 시퀀스를 구축합니다.

클링 O1의 5가지 핵심 하이라이트

1) 진정한 통합 멀티모달 입력(MVL)

Kling O1의 주요 기능은 텍스트, 정지 이미지(다중 참조), 비디오를 최상의 동시 입력으로 처리하는 것입니다. 사용자는 여러 개의 참조 이미지(또는 짧은 참조 클립)를 제공할 수 있습니다. 및 자연어 명령어를 사용하면 모델은 모든 입력을 함께 구문 분석하여 일관된 출력을 생성하거나 편집합니다. 이를 통해 도구 체인 간 마찰을 줄이고 "주제 사용"과 같은 워크플로를 구현할 수 있습니다. @image1, 환경에 배치합니다 @image2, 모션을 일치시키다 ref_video.mp4, 그리고 영화적 색상 등급 X를 적용합니다." 이 "다중 모달 시각 언어"(MVL) 프레이밍은 Kling의 피치의 핵심입니다.

왜 문제 : 실제 창작 워크플로우에서는 여러 레퍼런스를 결합해야 하는 경우가 많습니다. 한 에셋의 캐릭터, 다른 에셋의 카메라 움직임, 그리고 텍스트 내러티브 지시 등입니다. 이러한 입력을 통합하면 원패스 생성이 가능해지고 수동 합성 작업도 줄어듭니다.

2) 하나의 모델에서 편집 + 생성(다중 요소 모드)

대부분의 기존 시스템은 텍스트→비디오 생성과 프레임 단위의 정확한 편집을 분리했습니다. O1은 이 두 가지를 의도적으로 결합했습니다. 즉, 클립을 처음부터 생성하는 동일한 모델이 자연어 명령을 통해 기존 영상도 편집할 수 있습니다. 즉, 객체 교체, 의상 스타일 변경, 소품 제거, 샷 확장 등 모든 작업을 수행할 수 있습니다. 이러한 통합은 제작팀의 워크플로우를 크게 간소화합니다.

O1 모델은 핵심적으로 여러 비디오 작업을 긴밀하게 통합합니다.

텍스트-비디오 생성
이미지/주제 참조 생성
비디오 편집 및 인페인팅
비디오 리스타일
다음/이전 샷 생성
키프레임 제한 비디오 생성

이 설계의 가장 큰 의의는 다음과 같습니다. 이전에는 여러 모델이나 독립적인 도구가 필요했던 복잡한 프로세스를 이제 단일 엔진 내에서 완료할 수 있습니다. 이는 제작 및 컴퓨팅 비용을 크게 절감할 뿐만 아니라 "통합된 비디오 이해 및 생성 모델" 개발의 기반을 마련합니다.

3) 영상 생성의 일관성

정체성 일관성: O1 모델은 교차 모달 일관성 모델링 기능을 향상시켜 생성 프로세스 동안 참조 주제의 구조, 재료, 조명 및 스타일의 안정성을 유지합니다.

주제 모델링을 위한 다중 뷰 참조 이미지를 지원합니다.
크로스 샷 주제 일관성(캐릭터, 객체 및 장면 특징이 여러 샷에서 연속적으로 유지됨)을 지원합니다.
다양한 주제에 대한 하이브리드 참조를 지원하여 그룹 초상화 생성 및 대화형 장면 구성이 가능합니다.

이 메커니즘은 비디오 생성의 일관성과 "정체성 일관성"을 크게 개선하여 광고 및 영화 수준의 샷 생성과 같이 일관성 요구 사항이 매우 높은 시나리오에 적합합니다.

향상된 기억력: O1 모델은 또한 "메모리"를 갖추고 있어 긴 컨텍스트나 변경되는 명령어로 인해 출력 스타일이 불안정해지는 것을 방지합니다. 다음과 같은 기능도 있습니다.

여러 문자를 동시에 기억합니다.
영상 속에서 다양한 캐릭터가 상호작용하도록 허용합니다.
스타일, 옷차림, 자세에서 일관성을 유지하세요.

4) "@" 구문과 시작/종료 프레임 제어를 통한 정확한 합성

Kling은 프롬프트에서 특정 이미지를 참조할 수 있도록 합성 약어(예: "@" 언급 시스템으로 보고됨)를 도입했습니다. @image1, @image2)를 통해 자산에 역할을 안정적으로 할당할 수 있습니다. 명시적인 시작 및 종료 프레임 지정과 함께 사용하면 생성된 클립에서 요소가 어떻게 전환, 이동 또는 변형되는지에 대한 감독 수준의 제어가 가능해집니다. 이는 O1을 많은 소비자 지향 생성기와 차별화하는 프로덕션 중심 기능 세트입니다.

5) 높은 충실도, 긴 출력 및 멀티태스킹

Kling O1은 영화 같은 1080p 출력(30fps)을 생성하는 것으로 알려져 있으며, 이전 Kling 버전에서 보여준 것처럼 최대 2분 길이의 긴 클립 생성 기능을 자랑합니다(최근 제품 리뷰에서는 최대 2분까지 보고). 또한 여러 크리에이티브 작업(생성, 피사체 추가, 조명 변경, 구도 편집)을 단일 요청으로 스태킹할 수 있습니다. 이러한 기능 덕분에 상위 등급의 텍스트→비디오 엔진과도 경쟁력을 갖습니다.

왜 문제 : 더 길고 충실도가 높은 클립과 편집본을 결합할 수 있는 기능 덕분에 많은 짧은 클립을 함께 꿰맬 필요성이 줄어들고 처음부터 끝까지의 제작이 간소화되었습니다.

Kling O1은 어떻게 설계되었으며, 그 기반 메커니즘은 무엇입니까?

O1 주변 다중 모달 시각 언어(MVL) 핵심: 언어 + 이미지 + 동작 신호(비디오 프레임 및 광흐름 방식 특징)에 대한 공동 임베딩을 학습한 후, 확산 또는 변환기 기반 디코더를 적용하여 시간적으로 일관된 프레임을 합성하는 모델입니다. 이 모델은 다음과 같은 기능을 수행합니다. 조절 여러 참조(텍스트, 일대다 이미지, 짧은 비디오 클립)를 기반으로 잠재 비디오 표현을 생성한 다음, 크로스 프레임 주의 또는 특수 시간 모듈을 통해 시간적 일관성을 유지하면서 프레임별 이미지로 디코딩합니다.

1. 멀티모달 트랜스포머 + 롱 컨텍스트 아키텍처

O1 모델은 Keling이 자체 개발한 멀티모달 Transformer 아키텍처를 채택하여 텍스트, 이미지, 비디오 신호를 통합하고 장시간 컨텍스트 메모리(Multimodal Long Context)를 지원합니다.

이를 통해 모델은 비디오 생성 중에 시간적 연속성과 공간적 일관성을 이해할 수 있습니다.

2. MVL: 다중모달 시각 언어

MVL은 이 아키텍처의 핵심 혁신입니다.

이는 통합된 의미적 중간 계층을 통해 Transformer 내에서 언어와 시각적 신호를 심층적으로 정렬하여 다음을 수행합니다.

단일 입력 상자에 다양한 모드의 지침을 혼합할 수 있도록 허용합니다.
자연어 설명에 대한 모델의 정확한 이해력 향상
매우 유연한 대화형 비디오 생성을 지원합니다.

MVL의 도입은 비디오 생성이 "텍스트 중심"에서 "의미-시각적 공동 중심"으로 전환되는 것을 의미합니다.

3. 사고의 사슬 추론 메커니즘

O1 모델은 비디오 생성 단계에서 "생각의 사슬" 추론 경로를 도입합니다.

이 메커니즘을 사용하면 모델이 비디오 생성 전에 이벤트 논리와 타이밍 추론을 수행할 수 있으므로 비디오 내의 동작과 이벤트 간의 자연스러운 연결을 유지할 수 있습니다.

추론 및 편집 파이프라인

세대: 피드: (텍스트 + 선택적 이미지 참조 + 선택적 비디오 참조 + 생성 설정) → 모델이 잠재 비디오 프레임을 생성합니다 → 프레임으로 디코딩합니다 → 선택적 색상/시간 후처리.
지침 기반 편집: 피드: (원본 비디오 + 텍스트 지침 + 선택적 이미지 참조) → 모델은 요청된 편집 내용을 픽셀 공간 변환 집합에 내부적으로 매핑한 다음, 변경되지 않은 내용은 그대로 유지하면서 편집된 프레임을 합성합니다. 모든 것이 하나의 모델에 있으므로, 생성과 편집 모두에 동일한 컨디셔닝 및 시간 모듈이 사용됩니다.

클링 비에도 o1 대 베오 3.1 대 런웨이 알레프

Kling O1: 새로운 "통합" 멀티모달 비디오 모델 - 정의 및 작동 방법

내부 평가 결과, Keling Video O1은 여러 핵심 측면에서 기존 해외 경쟁사보다 월등히 우수한 성과를 보였습니다. 성과 결과(Keling AI 자체 구축 평가 세트 기반):

"이미지 참조" 과제: O1은 247%의 승률로 Google Veo 3.1보다 전반적으로 우수한 성과를 보였습니다.
"지시 변환" 과제: O1은 230%의 승률로 Runway Aleph보다 우수한 성과를 보였습니다.

경쟁사 스냅샷(기능 수준 비교)

기능/모델	클링 O1	구글 비오 3.1	활주로(알레프/젠-4.5)
통합 멀티모달 프롬프트(텍스트+이미지+비디오)	예(핵심 판매 포인트). 단일 요청 다중 모드 흐름.	부분적 — 텍스트→비디오 + 참조가 존재함; 단일 통합 MVL에 대한 강조가 적음.	런웨이는 세대와 편집에 초점을 맞추지만 종종 별도의 모드로 진행되곤 합니다. 최신 Gen-4.5에서는 그 격차가 줄었습니다.
대화형/텍스트 기반 픽셀 편집	가능 — "대화처럼 편집하세요"(마스크 없음).	부분적 - 편집은 가능하지만 마스크/키프레임 워크플로가 여전히 일반적입니다.	Runway는 강력한 편집 도구를 갖추고 있으며, Runway는 강력한 변환 지침을 제공한다고 주장합니다(출시 버전에 따라 다름).
시작/종료 프레임 제어 및 카메라 참조	가능 — 명확한 시작/종료 프레임과 참조 카메라 이동이 설명되어 있습니다.	제한적 / 진화적	활주로: 컨트롤 개선, UX는 정확히 동일하지 않음.
긴 클립 생성(고충실도)	제품 자료 및 커뮤니티 게시물에서 최대 ~2분(1080p, 30fps)	Veo 3.1: 일관성이 뛰어나지만 이전 버전의 기본값은 더 짧았습니다. 모델/설정에 따라 다릅니다.	활주로 Gen-4.5: 높은 품질을 목표로 함. 길이/충실도는 다양함.

결론 :

Kling O1의 명성에 대한 대중적 주장은 다음과 같습니다. 워크플로 통합: 단일 모델에 텍스트, 이미지, 비디오를 이해하고 동일한 의미 체계 내에서 생성 및 풍부한 명령어 기반 편집을 모두 수행할 수 있는 권한을 부여합니다. "생성", "편집", "확장" 단계를 자주 오가는 크리에이터와 팀의 경우, 이러한 통합을 통해 반복 작업 속도와 툴링 복잡성을 획기적으로 간소화할 수 있습니다. 향상된 시간적 일관성, 시작/종료 프레임 제어, 그리고 크리에이터가 쉽게 접근할 수 있도록 하는 실용적인 플랫폼 통합을 제공합니다.

Kling Video o1 API는 곧 CometAPI에서 사용할 수 있게 됩니다.

개발자는 액세스할 수 있습니다 클링 2.5 터빈 및 베오 3.1 API 을 통하여 코멧API, 나열된 최신 모델은 기사 발행일을 기준으로 합니다. 먼저, 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !

AI에 대한 더 많은 팁, 가이드 및 뉴스를 알고 싶다면 저희를 팔로우하세요. VK, X 및 디스코드!