Kling O1: Yeni "birleşik" çok modlu video modeli - nedir ve nasıl çalışır? - CometAPI

Kling AI'nın "Omni" lansman haftasının bir parçası olarak piyasaya sürülen Kling O1, aynı istekte metin, resim ve videoları kabul eden ve yönetmen düzeyinde, yinelemeli iş akışlarında hem video oluşturup hem de düzenleyebilen tek, birleşik, çok modlu bir video temel modeli olarak konumlanıyor. Kling ekibi, O1'i "dünyanın ilk birleşik, çok modlu büyük ölçekli video modeli" olarak tanımlıyor. Kling'in dahili testleri, Google'ın Veo 3.1 ve Runway Aleph'ine karşı önemli kazanımlar sağladığını iddia ediyor.

Kling O1 nedir?

Kling O1 (genellikle şu şekilde pazarlanır: Video O1 or Omni Bir), Kling AI'nın yeni yayınladığı bir video temellendirme modelidir ve metin, resim ve video genelinde üretim ve düzenlemeyi tek bir komut istemi odaklı çerçeve içinde birleştirir. Metinden videoya, resimden videoya ve video düzenlemeyi ayrı kanallar olarak ele almak yerine, Kling O1 tek bir komut isteminde karışık girdileri (metin + birden fazla resim + isteğe bağlı referans videosu) kabul eder, bunlar üzerinde mantık yürütür ve tutarlı kısa klipler üretir veya mevcut görüntüleri ayrıntılı bir kontrolle düzenler. Şirket, bu lansmanı bir "Çoklu Lansman"ın parçası olarak konumlandırdı ve O1'i, karmaşık, çok parçalı yaratıcı talimatları yorumlamak için Çok Modlu Görsel Dil (MVL) paradigması ve Düşünce Zinciri (CoT) akıl yürütme yolu etrafında oluşturulmuş bir "çok modlu video motoru" olarak tanımlıyor.

Kling'in mesajları üç pratik iş akışını vurgular: (1) metin → video oluşturma, (2) görüntü/öğe → video (açık referanslar kullanarak kompozisyon ve özne/destek değiştirme) ve (3) video düzenleme/çekim devamı (yeniden şekillendirme, nesne ekleme/kaldırma, başlangıç karesi/bitiş karesi kontrolü). Model, çoklu öğe komutlarını (belirli referans görüntülerini hedeflemek için bir "@" sözdizimi dahil) destekler ve çoklu çekim sekansları oluşturmak için başlangıç/bitiş karesi sabitleme ve video devamı gibi yönetmen tarzı kontroller sunar.

Kling O1'in 5 temel özelliği

1) Gerçek birleşik çok modlu giriş (MVL)

Kling O1'in amiral gemisi özelliği, metin, durağan görüntüler (birden fazla referans) ve videoyu birinci sınıf, eş zamanlı girişler olarak işlemesidir. Kullanıcılar, birden fazla referans görüntüsü (veya kısa bir referans klibi) sağlayabilir. ve Doğal dil talimatı; model, tutarlı bir çıktı üretmek veya düzenlemek için tüm girdileri birlikte ayrıştıracaktır. Bu, araç zincirindeki sürtünmeyi azaltır ve "konuyu kullan" gibi iş akışlarını etkinleştirir. @image1, onları çevreye yerleştirin @image2, hareketi eşleştir ref_video.mp4ve sinematik renk derecesi X'i uygulayın." Bu "Çok Modlu Görsel Dil" (MVL) çerçevelemesi, Kling'in sunumunun özünü oluşturuyor.

Neden önemlidir: Gerçek yaratıcı iş akışları genellikle referansların birleştirilmesini gerektirir: bir varlıktan bir karakter, başka bir varlıktan bir kamera hareketi ve metindeki bir anlatım talimatı. Bu girdilerin birleştirilmesi, tek geçişte üretim ve daha az manuel kompozisyon adımı sağlar.

2) Tek modelde düzenleme + oluşturma (çoklu eleman modu)

Önceki sistemlerin çoğu, üretimi (metin→video) kare hassasiyetinde düzenlemeden ayırıyordu. O1 bunları bilinçli olarak birleştiriyor: Sıfırdan bir klip oluşturan aynı model, mevcut görüntüleri de düzenleyebilir; nesneleri değiştirebilir, kıyafetleri yeniden şekillendirebilir, aksesuarları çıkarabilir veya bir çekimi uzatabilir; tüm bunları doğal dil talimatlarıyla yapabilir. Bu birleşme, prodüksiyon ekipleri için iş akışını önemli ölçüde basitleştiriyor.

O1 modeli, özünde birden fazla video görevinin derinlemesine entegrasyonunu sağlar:

Metinden Videoya Üretim
Görüntü/Konu referans oluşturma
Video düzenleme ve boyama
Video yeniden düzenleme
Sonraki/Önceki Çekim Nesli
Anahtar Kare Kısıtlı Video Oluşturma

Bu tasarımın en büyük önemi şu: Daha önce birden fazla model veya bağımsız araç gerektiren karmaşık süreçler artık tek bir motorda tamamlanabiliyor. Bu, yalnızca oluşturma ve hesaplama maliyetlerini önemli ölçüde azaltmakla kalmıyor, aynı zamanda "birleşik bir video anlama ve oluşturma modeli"nin geliştirilmesi için de temel oluşturuyor.

3) Video üretiminin tutarlılığı

Kimlik tutarlılığı: O1 modeli, üretim süreci boyunca referans öznenin yapısının, malzemesinin, aydınlatmasının ve stilinin istikrarını koruyarak, çapraz modal tutarlılık modelleme yeteneklerini geliştirir:

Konu modellemesi için çoklu görünüm referans görüntülerini destekler;
çapraz çekimde konu tutarlılığını destekler (karakter, nesne ve sahne özellikleri farklı çekimlerde sürekliliğini korur);
Çoklu-konu hibrit referanslarını destekler, grup portresi oluşturulmasını ve etkileşimli sahne oluşturulmasını sağlar.

Bu mekanizma, video üretiminin tutarlılığını ve "kimlik tutarlılığını" önemli ölçüde iyileştirerek, reklam ve film düzeyinde çekim üretimi gibi son derece yüksek tutarlılık gereksinimleri olan senaryolar için uygun hale getirir.

Gelişmiş hafıza: O1 modeli ayrıca, uzun bağlamlar veya değişen talimatlar nedeniyle çıktı stilinin kararsız hale gelmesini önleyen bir "hafızaya" sahiptir. Hatta şunları bile yapabilir:

birden fazla karakteri aynı anda hatırla;
videoda farklı karakterlerin etkileşime girmesine izin verin;
Stil, giyim ve duruşta tutarlılığı koruyun.

4) “@” sözdizimi ve başlangıç/bitiş kare kontrolü ile hassas kompozisyon

Kling, komut isteminde belirli görsellere başvurabilmeniz için bir kompozisyon kısaltması ("@" bahsetme sistemi olarak rapor edilir) tanıttı (örneğin, @image1, @image2) rollerin varlıklara güvenilir bir şekilde atanmasını sağlar. Açık Başlangıç + Bitiş kare spesifikasyonuyla birleştirildiğinde, bu, öğelerin oluşturulan klipte nasıl geçiş yaptığı, hareket ettiği veya dönüştüğü üzerinde yönetmen düzeyinde kontrol sağlar; bu, O1'i birçok tüketici odaklı oluşturucudan ayıran, üretim odaklı bir özellik setidir.

5) Yüksek doğrulukta, uzun çıktılar ve çoklu görev istifleme

Kling O1'in sinematik 1080p çıkışlar (30 fps) ürettiği bildiriliyor ve önceki Kling sürümleriyle birlikte şirket, daha uzun klipler üretebildiğini iddia ediyor (son ürün incelemelerinde 2 dakikaya kadar çıktığı belirtiliyor). Ayrıca, tek bir istekte birden fazla yaratıcı görevi (oluşturma, konu ekleme, aydınlatmayı değiştirme ve kompozisyonu düzenleme) üst üste koymayı da destekliyor. Bu özellikler, onu daha üst düzey metin→video motorlarıyla rekabet edebilir kılıyor.

Neden önemlidir: Daha uzun, yüksek kaliteli klipler ve düzenlemeleri birleştirme olanağı, çok sayıda kısa klibi bir araya getirme ihtiyacını azaltır ve uçtan uca üretimi basitleştirir.

Kling O1 nasıl bir mimariye sahip ve altında yatan mekanizmalar neler?

O1 etrafında Çok Modlu Görsel Dil (MVL) Çekirdek: Dil + görüntü + hareket sinyalleri (video kareleri ve optik akış tarzı özellikler) için ortak yerleştirmeleri öğrenen ve ardından zamansal olarak tutarlı kareleri sentezlemek için difüzyon veya transformatör tabanlı kod çözücüler uygulayan bir model. Model, performans gösteren bir model olarak tanımlanmaktadır. Klima birden fazla referans (metin; birden çok görüntü; kısa video klipler) üzerinde gizli bir video gösterimi üretmek için kullanılır ve bu gösterim daha sonra, çapraz kare dikkat veya özel zamansal modüller aracılığıyla zamansal tutarlılığı koruyarak kare başına görüntülere dönüştürülür.

1. Çok Modlu Transformatör + Uzun Bağlam Mimarisi

O1 modeli, Keling'in kendi geliştirdiği çok modlu Transformatör mimarisini kullanır, metin, resim ve video sinyallerini entegre eder ve uzun zamansal bağlam belleğini (Çok Modlu Uzun Bağlam) destekler.

Bu, modelin video üretimi sırasında zamansal sürekliliği ve mekansal tutarlılığı anlamasını sağlar.

2. MVL: Çok Modlu Görsel Dil

MVL bu mimarinin temel yeniliğidir.

Transformatör içindeki dil ve görsel sinyalleri, birleşik bir anlamsal ara katman aracılığıyla derinlemesine hizalar ve böylece:

Çok modlu talimatların tek bir giriş kutusu ile karıştırılmasına izin vermek;
Modelin doğal dil tanımlarını doğru bir şekilde anlamasını geliştirmek;
Son derece esnek etkileşimli video üretimini destekler.

MVL'nin tanıtımı, video üretiminde "metin odaklı"dan "anlamsal-görsel ortak odaklı"ya doğru bir geçişi işaret ediyor.

3. Düşünce Zinciri Çıkarım Mekanizması

O1 modeli, video oluşturma aşamasında bir “Düşünce Zinciri” çıkarım yolu sunar.

Bu mekanizma, modelin videonun oluşturulmasından önce olay mantığını ve zamanlama çıkarımını gerçekleştirmesine olanak tanır, böylece videodaki eylemler ve olaylar arasında doğal bir bağlantı sağlanır.

Çıkarım ve düzenleme hatları

Nesil: besleme: (metin + isteğe bağlı görüntü referansları + isteğe bağlı video referansları + oluşturma ayarları) → model gizli video kareleri üretir → karelere kod çözme → isteğe bağlı renk/zamansal son işleme.
Talimat tabanlı düzenleme: besleme: (orijinal video + metin talimatı + isteğe bağlı resim referansları) → model, istenen düzenlemeyi dahili olarak bir dizi piksel alanı dönüşümüne eşler ve ardından değiştirilmemiş içeriği koruyarak düzenlenmiş kareleri sentezler. Her şey tek bir modelde olduğundan, hem oluşturma hem de düzenleme için aynı koşullandırma ve zamansal modüller kullanılır.

Kling Viedo o1 vs Veo 3.1 vs Runway Aleph

Kling O1: Yeni "birleşik" çok modlu video modeli - nedir ve nasıl çalışır?

Dahili değerlendirmelerde, Keling Video O1, birçok temel boyutta mevcut uluslararası rakiplerinden önemli ölçüde daha iyi performans gösterdi. Performans Sonuçları (Keling AI'nın kendi oluşturduğu değerlendirme setine dayanmaktadır):

“Görüntü Referansı” Görevi: O1, %247'lik bir kazanma oranıyla Google Veo 3.1'i genel olarak geride bırakıyor;
“Talimat Dönüşümü” Görevi: O1, %230'luk bir kazanma oranıyla Runway Aleph'i geride bırakıyor.

Rakip anlık görüntüsü (özellik düzeyinde karşılaştırma)

Yetenek / Model	Kling O1	Google Veo 3.1	Pist (Aleph / Gen-4.5)
Birleşik çok modlu istem (metin+resim+video)	Evet (temel satış noktası). tek istekli çok modlu akışlar.	Kısmi — metin→video + referanslar mevcut; tek bir birleşik MVL'ye daha az vurgu yapılıyor.	Podyum, nesil + düzenlemeye odaklanıyor ancak çoğunlukla ayrı modlar olarak; en son Gen-4.5 aradaki farkı daraltıyor.
Konuşma / metin tabanlı piksel düzenlemeleri	Evet — “bir sohbet gibi düzenleme” (maske yok).	Kısmi — düzenleme mevcut ancak maske/anahtar kare iş akışları hala yaygın.	Runway'in güçlü düzenleme araçları var; Runway güçlü talimat dönüşümleri olduğunu iddia ediyor (sürüme göre değişir).
Başlangıç / bitiş kare kontrolü ve kamera referansı	Evet — açıkça başlangıç/bitiş karesi ve referans kamera hareketleri açıklanmıştır.	Sınırlı / gelişen	Pist: Kontrolleri geliştirmek; tam olarak aynı kullanıcı deneyimi değil.
Uzun klip üretimi (yüksek doğruluk)	ürün materyallerinde ve topluluk gönderilerinde ~2 dakikaya kadar (1080p, 30 fps);	Veo 3.1: güçlü tutarlılık ancak önceki sürümlerde varsayılanlar daha kısaydı; modele/ayarlara göre değişir.	Pist Gen-4.5: Kaliteyi yüksek tutuyor; uzunluk/sadakat değişiyor.

Sonuç:

Kling O1'in kamuoyundaki şöhreti iş akışı birleştirme: Tek bir modele metin, resim ve videoyu anlama ve aynı semantik sistem içinde hem oluşturma hem de zengin talimat tabanlı düzenleme yapma yetkisi vermek. "Oluştur", "düzenle" ve "genişlet" adımları arasında sık sık geçiş yapan içerik oluşturucular ve ekipler için bu konsolidasyon, yineleme hızını ve araç karmaşıklığını önemli ölçüde basitleştirebilir. Geliştirilmiş zamansal tutarlılık, başlangıç/bitiş karesi kontrolü ve içerik oluşturucuların erişimine olanak tanıyan pragmatik platform entegrasyonları.

Kling Video o1 API yakında CometAPI'de kullanıma sunulacak.

Geliştiriciler erişebilir Kling 2.5 Turbo ve Veo 3.1 API içinden Kuyrukluyıldız API'si, listelenen en son modeller makalenin yayınlanma tarihi itibarıyladır. Başlamak için, modelin yeteneklerini keşfedin Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.

Gitmeye hazır mısınız?→ Bugün CometAPI'ye kaydolun !

Yapay zeka hakkında daha fazla ipucu, kılavuz ve haber öğrenmek istiyorsanız bizi takip edin VK, X ve Katılın!