Kling O1: نیا "یونیفائیڈ" ملٹی موڈل ویڈیو ماڈل — یہ کیا ہے اور کیسے کام کرنا ہے۔ - CometAPI - ایک API میں تمام AI ماڈلز تک رسائی اور استعمال کرنے کا طریقہ

Kling O1 — Kling AI کے "Omni" لانچ ہفتہ کے حصے کے طور پر جاری کیا گیا — خود کو ایک واحد، متحد ملٹی موڈل ویڈیو فاؤنڈیشن ماڈل کے طور پر رکھتا ہے جو ایک ہی درخواست میں متن، تصاویر اور ویڈیوز کو قبول کرتا ہے اور ڈائریکٹر کی سطح، تکراری ورک فلوز میں ویڈیو تخلیق اور ترمیم دونوں کرسکتا ہے۔ Kling کی ٹیم O1 کو "دنیا کا پہلا متحد ملٹی موڈل ویڈیو بڑے پیمانے پر ماڈل" کے طور پر بل کرتی ہے۔ کلنگ کے اندرونی ٹیسٹ گوگل کے Veo 3.1 اور Runway Aleph کے مقابلے میں بڑی جیت کا دعویٰ کرتے ہیں۔

Kling O1 کیا ہے؟

کلنگ O1 (اکثر اس طرح مارکیٹ کیا جاتا ہے۔ ویڈیو O1 or اومنی ون) Kling AI کی طرف سے ایک نیا جاری کردہ ویڈیو فاؤنڈیشن ماڈل ہے جو ایک واحد، فوری طور پر چلنے والے فریم ورک کے اندر متن، تصاویر اور ویڈیو میں تخلیق اور ترمیم کو یکجا کرتا ہے۔ ٹیکسٹ ٹو ویڈیو، امیج ٹو ویڈیو، اور ویڈیو ایڈیٹنگ کو علیحدہ پائپ لائن کے طور پر سمجھنے کے بجائے، Kling O1 ایک ہی پرامپٹ میں مخلوط ان پٹس (متن + متعدد امیجز + اختیاری حوالہ ویڈیو) کو قبول کرتا ہے، ان کی وجوہات، اور مربوط شارٹ کلپس تیار کرتا ہے یا باریک کنٹرول کے ساتھ موجودہ فوٹیج میں ترمیم کرتا ہے۔ کمپنی نے رول آؤٹ کو "اومنی لانچ" کے حصے کے طور پر رکھا اور O1 کو ایک ملٹی موڈل ویژول لینگویج (MVL) پیراڈیم اور ایک چین آف تھاٹ (CoT) ریجننگ پاتھ وے کے ارد گرد بنائے گئے "ملٹی موڈل ویڈیو انجن" کے طور پر بیان کیا ہے تاکہ پیچیدہ، کثیر الجہتی تخلیقی ہدایات کی تشریح کی جاسکے۔

کلنگ کی میسجنگ تین عملی ورک فلوز پر زور دیتی ہے: (1) ٹیکسٹ → ویڈیو جنریشن، (2) امیج/عنصر → ویڈیو (واضح حوالہ جات کا استعمال کرتے ہوئے کمپوزٹنگ اور سبجیکٹ/پروپ سویپ)، اور (3) ویڈیو ایڈیٹنگ/شوٹ کنٹینشن (ری اسٹائلنگ، آبجیکٹ ایڈ/ ہٹانا، اسٹارٹ فریم/ اینڈ فریم کنٹرول)۔ یہ ماڈل ملٹی ایلیمنٹ پرامپٹس کو سپورٹ کرتا ہے (بشمول مخصوص حوالہ جات کی تصاویر کو نشانہ بنانے کے لیے ایک "@" نحو) اور ڈائرکٹر طرز کے کنٹرولز جیسے کہ شروع/اختتام فریم اینکرنگ اور ملٹی شاٹ سیکوینسز بنانے کے لیے ویڈیو تسلسل شامل کرتا ہے۔

Kling O1 کی 5 بنیادی جھلکیاں

1) حقیقی یونیفائیڈ ملٹی موڈل ان پٹ (MVL)

Kling O1 کی فلیگ شپ صلاحیت ٹیکسٹ، اسٹیل امیجز (متعدد حوالہ جات) اور ویڈیو کو فرسٹ کلاس، بیک وقت ان پٹ کے طور پر دیکھ رہی ہے۔ صارفین متعدد حوالہ جات کی تصاویر فراہم کر سکتے ہیں (یا ایک مختصر حوالہ کلپ) اور قدرتی زبان کی ہدایت؛ ماڈل ایک مربوط آؤٹ پٹ تیار کرنے یا ترمیم کرنے کے لیے تمام ان پٹ کو ایک ساتھ پارس کرے گا۔ یہ ٹول چین کی رگڑ کو کم کرتا ہے اور ورک فلو کو قابل بناتا ہے جیسے "اس سے موضوع استعمال کریں۔ @image1، سے ماحول میں رکھیں @image2، موشن سے میچ کریں۔ ref_video.mp4، اور سنیما کلر گریڈ X کا اطلاق کریں۔" یہ "ملٹی موڈل ویژول لینگویج" (MVL) فریمنگ کلنگ کی پچ کا مرکز ہے۔

یہ معاملہ کیوں ہے: حقیقی تخلیقی کام کے بہاؤ میں اکثر حوالہ جات کو یکجا کرنے کی ضرورت ہوتی ہے: ایک اثاثہ سے ایک کردار، دوسرے سے کیمرہ منتقل ہونا، اور متن میں بیانیہ ہدایت۔ ان پٹس کو یکجا کرنے سے ون پاس جنریشن اور کم مینوئل کمپ کے اقدامات قابل بنتے ہیں۔

2) ایک ماڈل میں ترمیم + نسل (ملٹی ایلیمنٹ موڈ)

زیادہ تر سابقہ نظاموں نے جنریشن (ٹیکسٹ → ویڈیو) کو فریم درست ایڈیٹنگ سے الگ کیا۔ O1 جان بوجھ کر ان کو یکجا کرتا ہے: وہی ماڈل جو شروع سے کلپ بناتا ہے موجودہ فوٹیج میں ترمیم بھی کر سکتا ہے — اشیاء کو تبدیل کرنا، کپڑوں کو دوبارہ اسٹائل کرنا، پرپس کو ہٹانا، یا شاٹ بڑھانا — یہ سب کچھ قدرتی زبان کی ہدایات کے ذریعے۔ یہ ہم آہنگی پروڈکشن ٹیموں کے لیے ایک بڑا ورک فلو آسان بنانے والا ہے۔

O1 ماڈل اپنے مرکز میں متعدد ویڈیو کاموں کا گہرا انضمام حاصل کرتا ہے:

ٹیکسٹ ٹو ویڈیو جنریشن
تصویر/موضوع کا حوالہ تیار کرنا
ویڈیو ایڈیٹنگ اور پینٹنگ
ویڈیو ری اسٹائل
اگلی/پچھلی شاٹ جنریشن
کلیدی فریم سے محدود ویڈیو جنریشن

اس ڈیزائن کی سب سے بڑی اہمیت اس میں مضمر ہے: پیچیدہ عمل جن کو پہلے متعدد ماڈلز یا آزاد ٹولز کی ضرورت ہوتی تھی اب ایک ہی انجن میں مکمل کی جا سکتی ہے۔ یہ نہ صرف تخلیق اور کمپیوٹیشنل اخراجات کو نمایاں طور پر کم کرتا ہے بلکہ "متحد ویڈیو تفہیم اور جنریشن ماڈل" کی ترقی کی بنیاد بھی رکھتا ہے۔

3) ویڈیو جنریشن کی ہم آہنگی۔

شناخت کی مطابقت: O1 ماڈل کراس موڈل مستقل مزاجی ماڈلنگ کی صلاحیتوں کو بڑھاتا ہے، جنریشن کے عمل کے دوران حوالہ موضوع کے ڈھانچے، مواد، روشنی اور انداز کے استحکام کو برقرار رکھتا ہے:

یہ سبجیکٹ ماڈلنگ کے لیے ملٹی ویو ریفرنس امیجز کو سپورٹ کرتا ہے۔
یہ کراس شاٹ موضوع کی مستقل مزاجی کی حمایت کرتا ہے (کردار، آبجیکٹ، اور منظر کی خصوصیات مختلف شاٹس میں مسلسل رہتی ہیں)؛
یہ ملٹی سبجیکٹ ہائبرڈ حوالہ جات کو سپورٹ کرتا ہے، گروپ پورٹریٹ جنریشن اور انٹرایکٹو سین کی تعمیر کو قابل بناتا ہے۔

یہ طریقہ کار ویڈیو جنریشن کے ہم آہنگی اور "شناخت کی مستقل مزاجی" کو نمایاں طور پر بہتر بناتا ہے، جو اسے انتہائی اعلی مستقل مزاجی کے تقاضوں، جیسے کہ اشتہارات اور فلم کی سطح پر شاٹ جنریشن کے لیے موزوں بناتا ہے۔

بہتر یادداشت: O1 ماڈل میں "میموری" بھی ہے، جو اس کے آؤٹ پٹ اسٹائل کو طویل سیاق و سباق یا بدلتی ہوئی ہدایات کی وجہ سے غیر مستحکم ہونے سے روکتی ہے۔ یہ بھی کر سکتا ہے:

بیک وقت متعدد حروف کو یاد رکھیں؛
ویڈیو میں مختلف کرداروں کو بات چیت کرنے کی اجازت دیں؛
انداز، لباس اور کرنسی میں مستقل مزاجی برقرار رکھیں۔

4) "@" نحو اور شروع/اختتام فریم کنٹرول کے ساتھ درست کمپوزٹنگ

کلنگ نے ایک کمپوزٹنگ شارٹ ہینڈ متعارف کرایا (جس کی رپورٹ "@" ذکر کے نظام کے طور پر کی گئی ہے) تاکہ آپ پرامپٹ میں مخصوص تصاویر کا حوالہ دے سکیں (جیسے، @image1, @image2) اثاثوں کو قابل اعتماد طریقے سے کردار تفویض کرنا۔ واضح سٹارٹ + اینڈ فریم تفصیلات کے ساتھ مل کر، یہ ڈائریکٹر کی سطح پر کنٹرول کو قابل بناتا ہے کہ کس طرح عناصر تخلیق شدہ کلپ میں منتقلی، منتقل، یا شکل اختیار کرتے ہیں - ایک پروڈکشن فوکسڈ فیچر سیٹ جو O1 کو بہت سے صارفین پر مبنی جنریٹرز سے ممتاز کرتا ہے۔

5) ہائی فیڈیلیٹی، لانگ ایش آؤٹ پٹس اور ملٹی ٹاسک اسٹیکنگ

Kling O1 کو سنیما 1080p آؤٹ پٹس (30fps) تیار کرنے کی اطلاع دی گئی ہے اور — Kling کے پہلے ورژن کے ساتھ اسٹیج کو ترتیب دے رہے ہیں — کمپنی طویل کلپس کی جنریشن کو ٹاؤٹ کرتی ہے (حالیہ پروڈکٹ رائٹ اپس میں 2 منٹ تک رپورٹ کرنا)۔ یہ ایک ہی درخواست میں متعدد تخلیقی کاموں کو اسٹیک کرنے کی بھی حمایت کرتا ہے (جنریٹ کریں، ایک موضوع شامل کریں، لائٹنگ تبدیل کریں، اور کمپوزیشن میں ترمیم کریں)۔ وہ خصوصیات اسے اعلی درجے کے متن → ویڈیو انجنوں کے ساتھ مسابقتی بناتی ہیں۔

یہ معاملہ کیوں ہے: طویل، اعلیٰ مخلص کلپس اور ترمیمات کو یکجا کرنے کی صلاحیت بہت سے مختصر کلپس کو ایک ساتھ سلائی کرنے کی ضرورت کو کم کرتی ہے اور آخر سے آخر تک پیداوار کو آسان بناتی ہے۔

Kling O1 کی تعمیر کیسے کی جاتی ہے اور اس کے بنیادی میکانزم کیا ہیں؟

O1 ارد گرد a ملٹی موڈل بصری زبان (MVL) کور: ایک ماڈل جو زبان + امیجز + موشن سگنلز (ویڈیو فریم اور آپٹیکل فلو اسٹائل فیچرز) کے لیے جوائنٹ ایمبیڈنگ سیکھتا ہے، اور پھر عارضی طور پر مربوط فریموں کی ترکیب کے لیے ڈفیوژن یا ٹرانسفارمر پر مبنی ڈیکوڈرز کا اطلاق کرتا ہے۔ ماڈل کو کارکردگی کے طور پر بیان کیا گیا ہے۔ کنڈیشنگ ایک سے زیادہ حوالوں پر (متن؛ ایک سے کئی تصاویر؛ مختصر ویڈیو کلپس) ایک خفیہ ویڈیو کی نمائندگی تیار کرنے کے لیے جسے پھر کراس فریم توجہ یا مخصوص وقتی ماڈیولز کے ذریعے عارضی مستقل مزاجی کو برقرار رکھتے ہوئے فی فریم امیجز میں ڈی کوڈ کیا جاتا ہے۔

1. ملٹی موڈل ٹرانسفارمر + لانگ سیاق و سباق کا فن تعمیر

O1 ماڈل کیلنگ کے خود تیار کردہ ملٹی موڈل ٹرانسفارمر فن تعمیر، متن، تصویر، اور ویڈیو سگنلز کو یکجا کرنے، اور طویل وقتی سیاق و سباق کی میموری (ملٹی موڈل لانگ سیاق و سباق) کی حمایت کرتا ہے۔

یہ ماڈل کو ویڈیو بنانے کے دوران عارضی تسلسل اور مقامی مستقل مزاجی کو سمجھنے کے قابل بناتا ہے۔

2. MVL: ملٹی موڈل بصری زبان

MVL اس فن تعمیر کی بنیادی اختراع ہے۔

یہ ٹرانسفارمر کے اندر زبان اور بصری سگنلز کو ایک متحد سیمنٹک انٹرمیڈیٹ پرت کے ذریعے سیدھ میں کرتا ہے، اس طرح:

ایک ان پٹ باکس کو ملٹی موڈل ہدایات کو ملانے کی اجازت دینا؛
قدرتی زبان کی وضاحت کے ماڈل کی درست سمجھ کو بہتر بنانا؛
انتہائی لچکدار انٹرایکٹو ویڈیو جنریشن کو سپورٹ کرنا۔

MVL کا تعارف ویڈیو جنریشن میں "ٹیکسٹ پر مبنی" سے "Semantic-visual co-driven" میں تبدیلی کی نشاندہی کرتا ہے۔

3. چین آف تھاٹ انفرنس میکانزم

O1 ماڈل ویڈیو جنریشن کے مرحلے کے دوران ایک "چین آف تھاٹ" انفرنس پاتھ متعارف کراتا ہے۔

یہ طریقہ کار ماڈل کو نسل سے پہلے ایونٹ کی منطق اور وقت کی کٹوتی کو انجام دینے کی اجازت دیتا ہے، اس طرح ویڈیو کے اندر کارروائیوں اور واقعات کے درمیان قدرتی تعلق کو برقرار رکھتا ہے۔

پائپ لائنوں کا اندازہ اور ترمیم کریں۔

نسل: فیڈ: (ٹیکسٹ + اختیاری امیج ریفز + اختیاری ویڈیو ریفز + جنریشن سیٹنگز) → ماڈل اویکت ویڈیو فریم تیار کرتا ہے → فریموں کو ڈی کوڈ → اختیاری رنگ / وقتی پوسٹ پروسیسنگ۔
ہدایات پر مبنی ترمیم: فیڈ: (اصل ویڈیو + ٹیکسٹ انسٹرکشن + اختیاری امیج ریف) → ماڈل اندرونی طور پر مطلوبہ ترمیم کو پکسل-اسپیس ٹرانسفارمیشن کے سیٹ پر نقشہ بناتا ہے اور پھر غیر تبدیل شدہ مواد کو محفوظ رکھتے ہوئے ترمیم شدہ فریموں کی ترکیب کرتا ہے۔ چونکہ سب کچھ ایک ماڈل میں ہے، اسی لیے ایک ہی کنڈیشنگ اور عارضی ماڈیولز تخلیق اور ترمیم دونوں کے لیے استعمال کیے جاتے ہیں۔

Kling Viedo o1 بمقابلہ Veo 3.1 بمقابلہ Runway Aleph

Kling O1: نیا "یونیفائیڈ" ملٹی موڈل ویڈیو ماڈل — یہ کیا ہے اور کیسے کام کرنا ہے۔

اندرونی تشخیص میں، Keling Video O1 نے کئی اہم جہتوں میں موجودہ بین الاقوامی ہم منصبوں کو نمایاں طور پر پیچھے چھوڑ دیا۔ کارکردگی کے نتائج (کیلنگ AI کے خود ساختہ تشخیصی سیٹ پر مبنی):

"تصویری حوالہ" ٹاسک: O1 نے 247% کی جیت کی شرح کے ساتھ مجموعی طور پر Google Veo 3.1 کو پیچھے چھوڑ دیا۔
"انسٹرکشن ٹرانسفارمیشن" ٹاسک: O1 نے 230% کی جیت کی شرح کے ساتھ، Runway Aleph کو پیچھے چھوڑ دیا۔

مسابقتی اسنیپ شاٹ (خصوصیت کی سطح کا موازنہ)

صلاحیت / ماڈل	کلنگ O1	گوگل ویو 3.1	رن وے (Aleph / Gen-4.5)
متحد ملٹی موڈل پرامپٹ (ٹیکسٹ + امیجز + ویڈیو)	ہاں (بنیادی سیلنگ پوائنٹ). سنگل درخواست ملٹی موڈل بہاؤ۔	جزوی — متن → ویڈیو + حوالہ جات موجود ہیں؛ واحد متحد MVL پر کم زور۔	رن وے جنریشن + ایڈیٹنگ پر فوکس کرتا ہے لیکن اکثر علیحدہ طریقوں کے طور پر۔ تازہ ترین Gen-4.5 فرق کو کم کرتا ہے۔
مکالماتی / متن پر مبنی پکسل ترامیم	جی ہاں - "بات چیت کی طرح ترمیم کریں" (کوئی ماسک نہیں)۔	جزوی - ترمیم موجود ہے لیکن ماسک/کی فریم ورک فلو اب بھی عام ہے۔	رن وے میں مضبوط ترمیمی ٹولنگ ہے۔ رن وے کا دعویٰ ہے کہ مضبوط ہدایات کی تبدیلی ہوتی ہے (ریلیز کے لحاظ سے مختلف ہوتی ہے)۔
شروع / اختتام فریم کنٹرول اور کیمرے حوالہ	جی ہاں - واضح آغاز/اختتام فریم اور حوالہ کیمرے کی چالیں بیان کی گئی ہیں۔	محدود / ترقی پذیر	رن وے: کنٹرول کو بہتر بنانا؛ بالکل وہی UX نہیں ہے۔
لمبی کلپ نسل (اعلی مخلص)	مصنوعات کے مواد اور کمیونٹی پوسٹس میں ~2 منٹ (1080p، 30fps) تک؛	Veo 3.1: مضبوط ہم آہنگی لیکن پہلے کے ورژن میں کم ڈیفالٹس تھے۔ ماڈل/ترتیب کے ساتھ مختلف ہوتی ہے۔	رن وے Gen-4.5: اعلیٰ معیار کا مقصد؛ لمبائی/وفاداری مختلف ہوتی ہے۔

نتیجہ:

Kling O1 کی شہرت کا عوامی دعویٰ ہے۔ ورک فلو اتحاد: ایک ہی ماڈل کو متن، تصاویر اور ویڈیو کو سمجھنے اور ایک ہی سیمنٹک سسٹم کے اندر جنریشن اور بھرپور ہدایات پر مبنی ایڈیٹنگ کرنے کا مینڈیٹ دینا۔ تخلیق کاروں اور ٹیموں کے لیے جو اکثر "تخلیق"، "ترمیم" اور "توسیع" کے مراحل کے درمیان چلتے رہتے ہیں، وہ استحکام ڈرامائی طور پر تکرار کی رفتار اور ٹولنگ کی پیچیدگی کو آسان بنا سکتا ہے۔ بہتر وقتی مستقل مزاجی، آغاز/اختتام کے فریم کنٹرول، اور عملی پلیٹ فارم کے انضمام جو اسے تخلیق کاروں کے لیے قابل رسائی بناتے ہیں۔

Kling Video o1 API جلد ہی CometAPI پر دستیاب ہوگا۔

ڈویلپرز رسائی حاصل کر سکتے ہیں۔ کلنگ 2.5 ٹرب اور Veo 3.1 API کے ذریعے CometAPI, درج کردہ تازہ ترین ماڈلز مضمون کی اشاعت کی تاریخ کے مطابق ہیں۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔

جانے کے لیے تیار ہیں؟→ CometAPI کے لیے آج ہی سائن اپ کریں۔ !

اگر آپ AI پر مزید ٹپس، گائیڈز اور خبریں جاننا چاہتے ہیں تو ہمیں فالو کریں۔ VK, X اور Discord!