Kling O1: نموذج الفيديو المتعدد الوسائط "الموحد" الجديد - ما هو وكيف يعمل - CometAPI -جميع نماذج الذكاء الاصطناعي في واجهة برمجة تطبيقات واحدة

يُقدّم Kling O1، الذي أُطلق ضمن أسبوع إطلاق "Omni" من Kling AI، نفسه كنموذج أساسي موحد ومتعدد الوسائط للفيديو، يقبل النصوص والصور ومقاطع الفيديو في نفس الطلب، ويمكنه إنشاء وتحرير الفيديو في سير عمل تكرارية على مستوى المخرج. يصف فريق Kling O1 بأنه "أول نموذج فيديو موحد متعدد الوسائط واسع النطاق في العالم". تُشير الاختبارات الداخلية لشركة Kling إلى تحقيقها انتصارات كبيرة مقارنةً بـ Veo 3.1 وRunway Aleph من Google.

ما هو كلينج O1؟

Kling O1 (يتم تسويقه غالبًا باسم فيديو O1 or أومني وان) هو نموذج أساسي جديد للفيديو من Kling AI، يُوحّد عملية التوليد والتحرير عبر النصوص والصور والفيديو ضمن إطار عمل واحد قائم على الأوامر. بدلاً من التعامل مع تحويل النص إلى فيديو، وتحويل الصورة إلى فيديو، وتحرير الفيديو كخطوط أنابيب منفصلة، يقبل Kling O1 مدخلات مختلطة (نص + صور متعددة + فيديو مرجعي اختياري) في أمر واحد، ويحللها، ويُنتج مقاطع قصيرة متماسكة أو يُحرّر لقطات موجودة بتحكم دقيق. وضعت الشركة هذا الإطلاق كجزء من "إطلاق شامل"، وتصف O1 بأنه "محرك فيديو متعدد الوسائط" مبني على نموذج لغة بصرية متعددة الوسائط (MVL) ومسار تفكيري قائم على سلسلة الأفكار (CoT) لتفسير التعليمات الإبداعية المعقدة متعددة الأجزاء.

تُركّز رسائل كلينج على ثلاثة مسارات عمل عملية: (1) النص ← إنشاء الفيديو، (2) الصورة/العنصر ← الفيديو (التركيب وتبادل العناصر/الدعائم باستخدام مراجع واضحة)، و(3) تحرير الفيديو/متابعة اللقطات (إعادة التصميم، إضافة/إزالة العناصر، التحكم في إطار البداية/النهاية). يدعم النموذج أوامر متعددة العناصر (بما في ذلك استخدام رمز "@" لاستهداف صور مرجعية محددة)، ويتميز بعناصر تحكم شبيهة بعناصر المخرج، مثل تثبيت إطار البداية/النهاية، ومتابعة الفيديو لإنشاء تسلسلات لقطات متعددة.

5 نقاط أساسية في Kling O1

1) مدخل متعدد الوسائط موحد حقيقي (MVL)

الميزة الرئيسية لجهاز Kling O1 هي معالجة النصوص والصور الثابتة (مراجع متعددة) والفيديو كمدخلات متزامنة عالية الجودة. يمكن للمستخدمين توفير عدة صور مرجعية (أو مقطع مرجعي قصير). و تعليمة بلغة طبيعية؛ سيقوم النموذج بتحليل جميع المدخلات معًا لإنتاج أو تحرير مخرجات متماسكة. هذا يُقلل من احتكاك سلسلة الأدوات ويُمكّن سير العمل مثل "استخدام الموضوع من" @image1، ضعهم في البيئة من @image2, تطابق الحركة مع ref_video.mp4"، وتطبيق درجة اللون السينمائي X." هذا الإطار "لغة بصرية متعددة الوسائط" (MVL) هو جوهر عرض كلينج.

لماذا يهم: غالبًا ما تتطلب سير العمل الإبداعي الحقيقي دمج المراجع: شخصية من أحد الأصول، وحركة كاميرا من أصل آخر، وتعليمات سردية في نص. يُمكّن توحيد هذه المدخلات من إنشاء محتوى في خطوة واحدة وتقليل خطوات التجميع اليدوية.

2) التحرير + التوليد في نموذج واحد (وضع العناصر المتعددة)

كانت معظم الأنظمة السابقة تفصل بين عملية الإنتاج (النص ← الفيديو) والتحرير الدقيق للإطارات. أما نظام O1، فيجمع بينهما عمدًا: فالنموذج نفسه الذي يُنتج مقطعًا من الصفر يمكنه أيضًا تحرير لقطات موجودة - تبديل العناصر، إعادة تصميم الملابس، إزالة الدعائم، أو تمديد اللقطة - كل ذلك باستخدام تعليمات باللغة الطبيعية. هذا التقارب يُبسط سير العمل بشكل كبير لفرق الإنتاج.

يحقق نموذج O1 تكاملاً عميقًا لمهام الفيديو المتعددة في جوهره:

إنشاء نص إلى فيديو
إنشاء مرجع للصورة/الموضوع
تحرير الفيديو والرسم
إعادة تصميم الفيديو
الجيل التالي/السابق من اللقطات
إنشاء فيديو مقيد بالإطارات الرئيسية

تكمن الأهمية الكبرى لهذا التصميم في إمكانية إنجاز العمليات المعقدة التي كانت تتطلب سابقًا نماذج متعددة أو أدوات مستقلة، باستخدام محرك واحد. وهذا لا يقلل تكاليف الإنشاء والحساب بشكل كبير فحسب، بل يُرسي أيضًا الأساس لتطوير "نموذج موحد لفهم الفيديو وتوليده".

3) تماسك إنتاج الفيديو

اتساق الهوية: يعمل نموذج O1 على تعزيز قدرات نمذجة الاتساق عبر الوسائط، والحفاظ على استقرار بنية الموضوع المرجعي، والمادة، والإضاءة، والأسلوب أثناء عملية التوليد:

ويدعم صور مرجعية متعددة العرض لنمذجة الموضوع؛
يدعم اتساق موضوع اللقطات المتقاطعة (تظل ميزات الشخصية والهدف والمشهد مستمرة عبر اللقطات المختلفة)؛
إنه يدعم المراجع الهجينة متعددة الموضوعات، مما يتيح إنشاء صورة جماعية وبناء مشهد تفاعلي.

تعمل هذه الآلية على تحسين التماسك و"تناسق الهوية" في عملية إنشاء الفيديو بشكل كبير، مما يجعلها مناسبة للسيناريوهات ذات متطلبات التناسق العالية للغاية، مثل الإعلانات وتوليد اللقطات على مستوى الفيلم.

تحسين الذاكرة: يتمتع نموذج O1 أيضًا بذاكرة، مما يمنع نمط إخراجه من أن يصبح غير مستقر بسبب السياقات الطويلة أو التعليمات المتغيرة. بل إنه قادر على:

تذكر شخصيات متعددة في نفس الوقت؛
السماح لشخصيات مختلفة بالتفاعل في الفيديو؛
الحفاظ على الاتساق في الأسلوب والملابس والوضعية.

4) التركيب الدقيق باستخدام صيغة "@" والتحكم في إطار البداية/النهاية

قدم كلينج اختصارًا للتركيب (تم الإبلاغ عنه كنظام ذكر "@") حتى تتمكن من الإشارة إلى صور محددة في المطالبة (على سبيل المثال، @image1, @image2) لتعيين أدوار الأصول بشكل موثوق. مع تحديد إطار البداية والنهاية بشكل واضح، يُمكّن هذا المخرج من التحكم في كيفية انتقال العناصر أو حركتها أو تحولها عبر المقطع المُولّد - وهي مجموعة ميزات مُركّزة على الإنتاج تُميّز O1 عن العديد من المولدات المُوجّهة للمستهلكين.

5) مخرجات عالية الدقة وطويلة الأمد وتكديس متعدد المهام

يُقال إن Kling O1 يُنتج مخرجات سينمائية بدقة 1080 بكسل (30 إطارًا في الثانية)، ومع إصدارات Kling السابقة التي مهدت الطريق، تُروّج الشركة لإنشاء مقاطع أطول (تصل مدتها إلى دقيقتين في تقارير المنتج الحديثة). كما يدعم تجميع مهام إبداعية متعددة في طلب واحد (إنشاء، إضافة موضوع، تغيير الإضاءة، وتحرير التركيبة). هذه الخصائص تجعله منافسًا قويًا لمحركات النصوص والفيديو عالية المستوى.

لماذا يهم: إن المقاطع الأطول والأكثر دقة والقدرة على الجمع بين التعديلات تقلل من الحاجة إلى تجميع العديد من المقاطع القصيرة معًا وتبسط الإنتاج من البداية إلى النهاية.

كيف يتم تصميم Kling O1 وما هي الآليات الأساسية؟

O1 حول اللغة البصرية متعددة الوسائط (MVL) النواة: نموذج يتعلم تضمينات مشتركة للغة + الصور + إشارات الحركة (إطارات الفيديو وخصائص التدفق البصري)، ثم يطبق فك تشفير قائم على الانتشار أو المحولات لتوليف إطارات متماسكة زمنيًا. يُوصف النموذج بأنه يؤدي تكييف على مراجع متعددة (نص؛ صور من واحد إلى عدة؛ مقاطع فيديو قصيرة) لإنتاج تمثيل فيديو كامن يتم فك تشفيره بعد ذلك إلى صور لكل إطار مع الحفاظ على الاتساق الزمني من خلال الاهتمام عبر الإطارات أو وحدات زمنية متخصصة.

1. محول متعدد الوسائط + بنية سياق طويل

يستخدم نموذج O1 بنية المحول المتعدد الوسائط التي طورتها شركة Keling بنفسها، والتي تدمج إشارات النص والصورة والفيديو، وتدعم ذاكرة السياق الزمني الطويل (السياق الطويل متعدد الوسائط).

يتيح هذا للنموذج فهم الاستمرارية الزمنية والاتساق المكاني أثناء إنشاء الفيديو.

2. MVL: لغة بصرية متعددة الوسائط

MVL هو الابتكار الأساسي لهذه الهندسة المعمارية.

يقوم بمحاذاة الإشارات اللغوية والبصرية بشكل عميق داخل المحول من خلال طبقة وسيطة دلالية موحدة، وبالتالي:

السماح لصندوق إدخال واحد بخلط التعليمات المتعددة الوسائط؛
تحسين فهم النموذج الدقيق لأوصاف اللغة الطبيعية؛
دعم إنشاء فيديو تفاعلي عالي المرونة.

يمثل تقديم MVL تحولاً في توليد الفيديو من "المدفوع بالنص" إلى "المدفوع بالدلالات البصرية المشتركة".

3. آلية استدلال سلسلة الأفكار

يقدم نموذج O1 مسار استنتاج "سلسلة الأفكار" أثناء مرحلة إنشاء الفيديو.

تسمح هذه الآلية للنموذج بتنفيذ منطق الحدث واستنتاج التوقيت قبل التوليد، وبالتالي الحفاظ على اتصال طبيعي بين الإجراءات والأحداث داخل الفيديو.

خطوط الاستدلال والتحرير

توليد: التغذية: (نص + مراجع صور اختيارية + مراجع فيديو اختيارية + إعدادات التوليد) → ينتج النموذج إطارات فيديو كامنة → فك التشفير إلى إطارات → معالجة لاحقة اختيارية للألوان/الوقت.
التحرير المبني على التعليمات: التغذية: (فيديو أصلي + تعليمات نصية + مراجع صور اختيارية) → يُطابق النموذج داخليًا التعديل المطلوب مع مجموعة من تحويلات مساحة البكسل، ثم يُركّب الإطارات المُحررة مع الحفاظ على المحتوى دون تغيير. ولأن كل شيء في نموذج واحد، تُستخدم نفس وحدات التكييف والزمن لكلٍّ من الإنشاء والتعديل.

Kling Viedo o1 vs Veo 3.1 vs Runway Aleph

Kling O1: نموذج الفيديو المتعدد الوسائط "الموحد" الجديد - ما هو وكيف يعمل

في التقييمات الداخلية، تفوقت Keling Video O1 بشكل ملحوظ على نظيراتها الدولية الحالية في عدة جوانب رئيسية. نتائج الأداء (بناءً على مجموعة التقييمات التي أعدتها Keling AI بنفسها):

مهمة "مرجع الصورة": يتفوق O1 على Google Veo 3.1 بشكل عام، بمعدل فوز يبلغ 247%؛
مهمة "تحويل التعليمات": يتفوق O1 على Runway Aleph، بمعدل فوز يبلغ 230%.

لقطة للمنافسين (مقارنة على مستوى الميزات)

القدرة / النموذج	كلينج O1	جوجل فيو 3.1	المدرج (أليف / الجيل 4.5)
موجه متعدد الوسائط موحد (نص + صور + فيديو)	نعم (نقطة البيع الأساسية). تدفقات متعددة الوسائط بناءً على طلب واحد.	جزئي - النص→الفيديو + المراجع موجودة؛ التركيز أقل على MVL موحدة واحدة.	يركز Runway على التوليد + التحرير ولكن غالبًا كأوضاع منفصلة؛ ويعمل أحدث إصدار من Gen-4.5 على تضييق الفجوة.
تعديلات البكسل المحادثة/النصية	نعم — "تعديل مثل المحادثة" (بدون أقنعة).	جزئيًا - التحرير موجود ولكن سير عمل القناع/الإطار الرئيسي لا يزال شائعًا.	يتمتع Runway بأدوات تحرير قوية؛ ويزعم Runway أنه يحتوي على تحويلات تعليمات قوية (تختلف حسب الإصدار).
التحكم في إطار البداية / النهاية ومرجع الكاميرا	نعم - إطار البداية/النهاية الواضح وحركات الكاميرا المرجعية الموصوفة.	محدودة / متطورة	المدرج: تحسين عناصر التحكم؛ ليس نفس تجربة المستخدم تمامًا.
إنشاء مقطع طويل (دقة عالية)	ما يصل إلى دقيقتين تقريبًا (1080 بكسل، 30 إطارًا في الثانية) في مواد المنتج ومنشورات المجتمع؛	Veo 3.1: تماسك قوي ولكن الإصدارات السابقة كانت بها إعدادات افتراضية أقصر؛ تختلف حسب الطراز/الإعداد.	Runway Gen-4.5: يهدف إلى الجودة العالية؛ يختلف الطول/الدقة.

الخلاصة:

إن شهرة Kling O1 العامة هي توحيد سير العمل: منح نموذج واحد القدرة على فهم النصوص والصور والفيديو، وإجراء عمليات التوليد والتحرير الغني القائم على التعليمات داخل النظام الدلالي نفسه. بالنسبة للمبدعين والفرق الذين يتنقلون باستمرار بين خطوات "الإنشاء" و"التحرير" و"التوسيع"، يُمكن لهذا الدمج أن يُبسط بشكل كبير سرعة التكرار وتعقيد الأدوات. كما يُحسّن الاتساق الزمني، والتحكم في إطار البداية والنهاية، وتكامل المنصات العملي، مما يجعله في متناول المبدعين.

ستكون واجهة برمجة تطبيقات Kling Video o1 متاحة قريبًا على CometAPI.

يمكن للمطورين الوصول كلينج 2.5 توربو و واجهة برمجة تطبيقات Veo 3.1 من خلال كوميت ايه بي ايأحدث الموديلات المدرجة هي اعتبارًا من تاريخ نشر المقال. للبدء، استكشف إمكانيات الموديل في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

هل أنت مستعد للذهاب؟→ سجل في CometAPI اليوم !

إذا كنت تريد معرفة المزيد من النصائح والإرشادات والأخبار حول الذكاء الاصطناعي، فتابعنا على VK, X و ديسكورد!