Kling O1: жаңа «бірыңғай» мультимодальды бейне моделі — бұл не және қалай жұмыс істеу керек

CometAPI
AnnaDec 1, 2025
Kling O1: жаңа «бірыңғай» мультимодальды бейне моделі — бұл не және қалай жұмыс істеу керек

Kling O1 — Kling AI-дің «Omni» іске қосу аптасының бөлігі ретінде шығарылды — өзін бір сұраудағы мәтінді, кескіндерді және бейнелерді қабылдайтын және режиссер деңгейінде, итеративті жұмыс үрдістерінде бейнені жасай және өңдей алатын біртұтас мультимодальды бейне негізі үлгісі ретінде орналастырады. Клинг командасы O1-ді «әлемдегі бірінші біріккен мультимодальды бейне ауқымды үлгі» деп есептейді. Клингтің ішкі сынақтары Google-дың Veo 3.1 және Runway Aleph-тен айтарлықтай жеңіске жеткенін мәлімдейді.

Kling O1 дегеніміз не?

Kling O1 (көбінесе сатылады Бейне O1 or Omni One) - бұл Kling AI компаниясының жаңадан шығарылған бейне негізінің моделі, ол мәтін, кескіндер және бейнелер бойынша генерациялауды және өңдеуді бір жедел басқарылатын құрылымның ішінде біріктіреді. Мәтіннен бейнеге, суреттен бейнеге және бейне өңдеуді бөлек конвейерлер ретінде қарастырудың орнына, Kling O1 аралас кірістерді (мәтін + бірнеше кескін + қосымша анықтамалық бейне) бір сұрауда, олардың үстінен себептермен қабылдайды және үйлесімді қысқа үзінділер жасайды немесе нақты басқару арқылы бар кадрларды өңдейді. Компания шығарылымды «Omni Launch» бөлігі ретінде орналастырды және O1-ті мультимодальды визуалды тіл (MVL) парадигмасы және күрделі, көп бөлікті шығармашылық нұсқауларды түсіндіруге арналған ой тізбегі (CoT) пайымдау жолы айналасында құрылған «мультимодальды бейне қозғалтқышы» ретінде сипаттайды.

Клингтің хабар алмасуы үш практикалық жұмыс процесіне баса назар аударады: (1) мәтін → бейне жасау, (2) кескін/элемент → бейне (құрастыру және нақты сілтемелерді пайдаланып тақырып/реквизит алмасу) және (3) бейне өңдеу/түсірілімді жалғастыру (рестайлинг, нысанды қосу/жою, кадрды бастау/аяқты басқару). Модель көп элементті шақыруларды қолдайды (белгілі бір анықтамалық кескіндерді бағыттау үшін «@» синтаксисін қоса) және көп түсірілім тізбегін құру үшін кадрды бастау/аяқтау және бейнені жалғастыру сияқты режиссер стиліндегі басқару элементтерін ұсынады.

Kling O1 ойынының 5 негізгі сәті

1) Шынайы бірыңғай мультимодальды енгізу (MVL)

Kling O1 флагмандық мүмкіндігі мәтінді, қозғалмайтын кескіндерді (бірнеше сілтемелер) және бейнені бірінші дәрежелі, бір мезгілде енгізу ретінде қарастырады. Пайдаланушылар бірнеше анықтамалық кескіндерді (немесе қысқаша анықтамалық клипті) бере алады. және табиғи тілдегі нұсқау; модель когерентті шығысты шығару немесе өңдеу үшін барлық кірістерді бірге талдайды. Бұл құрал тізбегінің үйкелісін азайтады және «тақырыпты пайдалану» сияқты жұмыс процестеріне мүмкіндік береді @image1, оларды қоршаған ортаға қойыңыз @image2, қозғалысын сәйкестендіріңіз ref_video.mp4, және кинематографиялық X дәрежесін қолданыңыз. Бұл «Мультимодальды визуалды тіл» (MVL) фреймі Клингтің дыбыс ырғағының негізі болып табылады.

Неліктен маңызды? нақты шығармашылық жұмыс үрдісі жиі сілтемелерді біріктіруді қажет етеді: бір активтен кейіпкер, екіншісінен камера жылжыту және мәтіндегі баяндау нұсқауы. Бұл кірістерді біріктіру бір реттік генерацияға және қолмен жинақтау қадамдарын азайтуға мүмкіндік береді.

2) Бір үлгіде өңдеу + генерациялау (көп элементті режим)

Бұрынғы жүйелердің көпшілігі генерацияны (мәтін→бейне) кадр дәлдігімен өңдеуден бөлді. O1 оларды әдейі біріктіреді: нөлден бастап клип жасайтын бірдей модель бар кадрларды да өңдей алады — нысандарды ауыстыру, киім үлгісін өзгерту, реквизиттерді алу немесе түсірілімді ұзарту — барлығы табиғи тілдегі нұсқаулар арқылы. Бұл конвергенция өндірістік топтар үшін негізгі жұмыс процесін жеңілдеткіш болып табылады.

O1 моделі бірнеше бейне тапсырмаларының терең интеграциясына қол жеткізеді:

  • Мәтінді бейнеге айналдыру
  • Сурет/тақырып сілтемесін жасау
  • Бейнені өңдеу және бояу
  • Бейнені қалпына келтіру
  • Келесі/алдыңғы түсірілім буыны
  • Негізгі кадрмен шектелген бейне жасау

Бұл дизайнның ең үлкен маңыздылығы мынада: Бұрын бірнеше үлгілерді немесе тәуелсіз құралдарды қажет ететін күрделі процестерді енді бір қозғалтқышта аяқтауға болады. Бұл жасау және есептеу шығындарын айтарлықтай азайтып қана қоймайды, сонымен қатар «бейнелерді түсіну мен генерациялаудың біртұтас моделін» әзірлеуге негіз қалады.

3) Бейне генерациясының үйлесімділігі

Сәйкестік сәйкестігі: O1 моделі генерациялау процесі кезінде анықтамалық субъектінің құрылымының, материалының, жарықтандыруының және стилінің тұрақтылығын сақтай отырып, кросс-модальды сәйкестікті модельдеу мүмкіндіктерін жақсартады:

  • Ол нысанды модельдеу үшін көп көріністі анықтамалық кескіндерді қолдайды;
  • ол көлденең түсірілім нысанының сәйкестігін қолдайды (кейіпкер, нысан және көрініс мүмкіндіктері әртүрлі түсірілімдерде үздіксіз болып қалады);
  • ол топтық портретті құруға және интерактивті көрініс құруға мүмкіндік беретін көп тақырыпты гибридті сілтемелерді қолдайды.

Бұл механизм бейне генерациясының үйлесімділігі мен «тұлға сәйкестігін» айтарлықтай жақсартады, бұл оны жарнама және фильм деңгейіндегі түсірілім жасау сияқты өте жоғары бірізділік талаптары бар сценарийлер үшін қолайлы етеді.

Жақсартылған жады: O1 үлгісінің де «жады» бар, ол ұзақ контексттерге немесе нұсқауларды өзгертуге байланысты оның шығыс стилінің тұрақсыз болуына жол бермейді. Ол тіпті мүмкін:

  • бірнеше таңбаны бір уақытта есте сақтау;
  • бейнеде әртүрлі кейіпкерлердің өзара әрекеттесуіне мүмкіндік беру;
  • стильде, киімде және позада тұрақтылықты сақтау.

4) «@» синтаксисі және кадрды бастау/аяқтауды басқару арқылы дәл құрастыру

Клинг композициялық стенографияны («@» ескертпе жүйесі ретінде хабарланады) енгізді, осылайша сіз шақыруда белгілі бір кескіндерге сілтеме жасай аласыз (мысалы, @image1, @image2) активтерге рөлдерді сенімді түрде тағайындау. Нақты Бастау + Аяқтау кадр спецификациясымен біріктірілген бұл элементтердің жасалған клип бойынша ауысуын, жылжытуын немесе түрленуін режиссер деңгейінде басқаруға мүмкіндік береді — O1-ді тұтынушыларға бағытталған көптеген генераторлардан ерекшелендіретін өндіріске бағытталған мүмкіндіктер жиынтығы.

5) Жоғары дәлдік, ұзақ нәтижелер және көп тапсырмаларды жинақтау

Kling O1 кинематографиялық 1080p (30 кадр/сек) шығыстарды шығарады және - алдыңғы Kling нұсқалары сахнаны орнатқанда - компания ұзағырақ клиптер жасауды ұсынады (соңғы өнім жазбаларында 2 минутқа дейін есеп береді). Сондай-ақ, ол бір сұрауда бірнеше шығармашылық тапсырмаларды жинақтауды қолдайды (жасау, тақырып қосу, жарықтандыруды өзгерту және композицияны өңдеу). Бұл қасиеттер оны жоғары деңгейлі мәтін → бейне қозғалтқыштарымен бәсекеге қабілетті етеді.

Неліктен маңызды? ұзағырақ, жоғары дәлдіктегі клиптер және өңдеулерді біріктіру мүмкіндігі көптеген қысқа клиптерді біріктіру қажеттілігін азайтады және түпкілікті өндіруді жеңілдетеді.

Kling O1 қалай құрастырылған және оның негізгі механизмдері қандай?

O1 айналасында а Multimodal Visual Language (MVL) негізгі: тіл + кескіндер + қозғалыс сигналдары (бейне кадрлар және оптикалық ағын стиліндегі мүмкіндіктер) үшін бірлескен ендіруді үйренетін модель, содан кейін уақытша когерентті кадрларды синтездеу үшін диффузиялық немесе трансформатор негізіндегі декодерлерді қолданады. Модель орындаушы ретінде сипатталады кондиционерлеу бірнеше сілтемелер бойынша (мәтін; бір-көп кескіндер; қысқа бейнеклиптер) жасырын бейне көрсетілімін жасау үшін, содан кейін кросс-кадрлық назар немесе арнайы уақытша модульдер арқылы уақытша сәйкестікті сақтай отырып, әр кадрдағы кескіндерге декодталған.

1. Мультимодальды трансформатор + Ұзын контекстік архитектура

O1 моделі Келингтің өзі әзірлеген мультимодальды Transformer архитектурасын пайдаланады, мәтінді, кескінді және бейне сигналдарды біріктіреді және ұзақ уақытша контекстік жадты (Мультимодальды ұзақ контекст) қолдайды.

Бұл модельге бейнені жасау кезінде уақытша үздіксіздікті және кеңістіктік үйлесімділікті түсінуге мүмкіндік береді.

2. MVL: Multimodal Visual Language

MVL - бұл архитектураның негізгі инновациясы.

Ол біртұтас семантикалық аралық қабат арқылы Трансформатор ішіндегі тілдік және визуалды сигналдарды терең теңестіреді, осылайша:

  • Бір енгізу жолағына мультимодальды нұсқауларды араластыруға рұқсат беру;
  • Модельдің табиғи тілдегі сипаттамаларды дәл түсінуін жетілдіру;
  • Жоғары икемді интерактивті бейне генерациясын қолдау.

MVL енгізу бейне генерациясының «мәтінге негізделгеннен» «семантикалық-визуалды бірлескен басқаруға» ауысуын білдіреді.

3. Ой тізбегі бойынша қорытынды жасау механизмі

O1 үлгісі бейне генерациялау кезеңінде «Ой тізбегі» қорытынды жолын ұсынады.

Бұл механизм модельге оқиға логикасын және генерациялау алдында уақытты шегеруді орындауға мүмкіндік береді, осылайша бейнедегі әрекеттер мен оқиғалар арасындағы табиғи байланысты сақтайды.

Түйіндерді шығару және өңдеу

  • Ұрпақ: арна: (мәтін + қосымша кескін сілтемелері + қосымша бейне сілтемелері + генерация параметрлері) → модель жасырын бейне кадрларын шығарады → кадрлардың декодтауы → қосымша түсті/уақытша кейінгі өңдеу.
  • Нұсқау негізінде өңдеу: арна: (түпнұсқа бейне + мәтіндік нұсқаулық + қосымша кескін сілтемелері) → модель сұралған өңдеуді пиксельдік кеңістіктегі түрлендірулер жиынына ішкі салыстырады, содан кейін өзгертілмеген мазмұнды сақтай отырып, өңделген кадрларды синтездейді. Барлығы бір үлгіде болғандықтан, жасау және өңдеу үшін бірдей кондиционерлеу және уақытша модульдер пайдаланылады.

Kling Viedo o1 және Veo 3.1 және Runway Aleph

Kling O1: жаңа «бірыңғай» мультимодальды бейне моделі — бұл не және қалай жұмыс істеу керек

Ішкі бағалауларда Keling Video O1 бірнеше негізгі өлшемдер бойынша бар халықаралық әріптестерінен айтарлықтай асып түсті. Өнімділік нәтижелері (Келин AI өзі құрастырған бағалау жиынтығына негізделген):

  • «Сурет анықтамасы» тапсырмасы: O1 жалпы Google Veo 3.1 нұсқасынан асып түседі, ұту көрсеткіші 247%;
  • «Нұсқауларды түрлендіру» тапсырмасы: O1 230% ұту көрсеткішімен Runway Aleph-тен асып түседі.

Бәсекелестің суреті (мүмкіндік деңгейін салыстыру)

Мүмкіндік/үлгіKling O1Google Veo 3.1Ұшу жолағы (Алеф / Gen-4.5)
Бірыңғай мультимодальды шақыру (мәтін+суреттер+бейне)Иә (негізгі сату нүктесі). бір сұранысты мультимодальды ағындар.Жартылай — мәтін→бейне + сілтемелер бар; біртұтас MVL-ге азырақ назар аударылады.ҰҚЖ генерациялау + өңдеуге бағытталған, бірақ көбінесе бөлек режимдер ретінде; соңғы Gen-4.5 алшақтықты қысқартады.
Сөйлесу / мәтінге негізделген пиксельді өңдеулериә — «әңгімелесу сияқты өңдеу» (маскаларсыз).Ішінара — өңдеу бар, бірақ маска/негізгі кадр жұмыс процестері әлі де жиі кездеседі.ҰҚЖ күшті өңдеу құралдары бар; ҰҚЖ күшті нұсқау түрлендірулерін мәлімдейді (шығаруға байланысты өзгереді).
Бастау/аяқтау кадрды басқару және камера анықтамасыиә — анық бастау/аяқтау кадры және анықтамалық камераның қозғалыстары сипатталған.Шектеулі/дамушыҰҚЖ: басқаруды жақсарту; дәл UX емес.
Ұзақ клип генерациясы (жоғары дәлдік)өнім материалдарында және қауымдастық жазбаларында ~2 минутқа дейін (1080p, 30fps);Veo 3.1: күшті үйлесімділік, бірақ бұрынғы нұсқаларда қысқарақ әдепкі болды; үлгіге/параметрге байланысты өзгереді.ҰҚЖ Gen-4.5: жоғары сапаға бағытталған; ұзындығы/дәлдігі өзгереді.

Қорытынды:

Клинг О1-нің даңқ туралы жария мәлімдемесі жұмыс үрдісін унификациялау: бір үлгіге мәтінді, кескіндерді және бейнені түсінуге және бір семантикалық жүйеде генерациялауды және бай нұсқауларға негізделген өңдеуді орындауға мандат беру. «Жасау», «өңдеу» және «кеңейту» қадамдары арасында жиі ауысатын жасаушылар мен командалар үшін бұл біріктіру қайталау жылдамдығын және құралдың күрделілігін айтарлықтай жеңілдетеді. Жақсартылған уақытша сәйкестік, бастау/аяқтау кадрын басқару және оны жасаушыларға қолжетімді ететін прагматикалық платформа интеграциясы.

Kling Video o1 API жақын арада CometAPI сайтында қолжетімді болады.

Әзірлеушілер қол жеткізе алады  Kling 2.5 Turb және Veo 3.1 API арқылы CometAPI, тізімдегі соңғы үлгілер мақаланың жарияланған күнінен бастап берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.

Баруға дайынсыз ба?→ CometAPI-ге бүгін тіркеліңіз !

Егер сіз AI туралы көбірек кеңестер, нұсқаулықтар және жаңалықтар білгіңіз келсе, бізге жазылыңыз VKX және Арасындағы айырмашылық!

Толығырақ оқу

500+ модель бір API-да

20%-ға дейін жеңілдік