Kling 3.0 — الجيل الرئيسي التالي ضمن عائلة نماذج الفيديو بالذكاء الاصطناعي من Kling — يولّد موجة اهتمام عبر مجتمعات المبدعين والوكالات وفرق المنتجات. يصف البائعون ومحللو المجتمع خطوة جيلية: مخرجات أطول، توليف صوت-صورة أصلي، حفظ أقوى للهوية والشخصيات عبر تسلسلات متعددة اللقطات، وتحكم أشد إحكاماً للسرد السينمائي.
ما هو Kling 3.0؟
محرك فيديو بالذكاء الاصطناعي من الجيل التالي
Kling 3.0 هو التكرار الرئيسي التالي ضمن عائلة Kling للفيديو التوليدي. حيث منحت الإصدارات السابقة الأولوية للمقاطع القصيرة عالية الجودة والالتزام الأسلوبي، يضع Kling 3.0 نفسه كنموذج فيديو موحّد مع سير عمل سردي محسّن متعدد اللقطات، واتساق أفضل للموضوع عبر الإطارات، ومدد مخرجات موسعة، واقتران أوثق بين المخرجات الصوتية والبصرية. يتم تسويق الإصدار الجديد كلاً من كونه محركاً للمقاطع السينمائية القصيرة (4K حتى حدود المنصة) وأداة للوح قصص متعددة اللقطات تتطلب استمرارية موثوقة.
لماذا تُعد قفزة 3.0 مهمة
يشير ملصق “3.0” إلى ما هو أكثر من مكاسب تدريجية في الجودة. عبر الصناعة، عادة ما تجلب قفزات الإصدارات بهذا الحجم تحسينات في الاتساق الزمني (اهتزاز وخفقان أقل)، وتعامل أفضل مع الشخصيات أو الدعائم المتكررة عبر لقطات متعددة، ودعماً أصلياً لتوليد الصوت أو مواءمته، ومسارات عمل تتيح للمبدعين وصل المقاطع أو تمديدها دون فقدان الهوية والإضاءة. يبدو توجه Kling متسقاً مع هذه الأولويات—يهدف إلى الانتقال من “لقطات مفردة جيدة” إلى “تسلسلات متعددة اللقطات موثوقة” تلائم خطوط الإنتاج الفعلية.
كيف يعمل Kling 3.0؟
البنية الأساسية (نظرة عامة)
يواصل Kling 3.0 الاتجاه متعدد الوسائط: تستقبل النماذج مطالبات نصية وصوراً (إطارات مفردة أو معارض مرجعية) وعند الدعم مدخلات حركة/تحكم لإنتاج تسلسلات إطارات. بينما تبقى تفاصيل البنية المحددة (عدد المعاملات، مزيج الانتشار/المحوّل الداخلي، مجموعات التدريب) ملكية خاصة، يوحي سلوك النموذج بمزيج من الانتشار على مستوى الإطار مع وحدات زمنية متخصصة تفرض الاتساق وتماسك الوضعيات عبر الزمن. تؤكد Kling على واجهات “التحكم في الحركة” و“لوحة القصة” الجديدة المُضافة فوق النواة التوليدية.
المُدخلات وآليات التحكم
عملياً، يقبل Kling 3.0 مزيجاً من:
- مطالبات نصية تصف المشهد، نوع اللقطة، الإضاءة، والفعل.
- مراجع صور لملامح الشخصية، الدعائم، أو إطارات البداية/النهاية.
- توجيهات حركة (دوللي، تتبّع، بان، مواضع الإطارات المفتاحية) تُخبر النموذج بكيفية تحرّك الكاميرا الافتراضية.
- أزواج إطار البداية والنهاية (ارفع إطاراً أولياً وإطاراً هدفاً ودع Kling يولّد الجسر). تم تسليط الضوء على هذه الميزة في المعاينات المبكرة كأداة مفيدة لاستمرارية لوحة القصة.
استراتيجيات الاتساق الزمني
يبدو أن Kling 3.0 يجمع بين توليد إطار-بإطار وتقنيات تفرض الهوية عبر الإطارات: تخزين مؤقت لتضمينات المراجع، تنعيم زمني في الفضاء الكامن، ومعرّفات صريحة لكل شخصية تستمر عبر اللقطات. الأثر العملي هو تقليل تبدلات الهوية (مثلاً، اختلاف مظهر الشخصية بين القطعات) وواقعية حركة أفضل عند دوران الشخصيات أو إيمائها أو حديثها. هذا يجعله أكثر فائدة لمسارات العمل الإبداعية التي تتطلب استمرارية عبر لقطات متعددة.
الصوت ومزامنة الشفاه
أحد أبرز التطورات هو الصوت الأصلي: يقدّم Kling 3.0 مخرجات صوتية متزامنة مع اللقطات المُولَّدة (صوت بيئي، مؤثرات، وأصوات الشخصيات أو مزامنة الشفاه) بدلاً من الاعتماد على خياطة صوتية لاحقة منفصلة في مرحلة ما بعد الإنتاج. إذا تم تنفيذه على نطاق واسع، يُقلّل هذا من العمل اللازم لإنتاج المسودات ويُحسّن التكرارات السريعة التي يجب فيها محاذاة الصورة والصوت للمراجعة.
أبرز ميزات نموذج Kling VIDEO 3.0؟
ما الذي يجب أن يتوقعه المبدعون وفرق المنتجات أن يكونوا قادرين على فعله مع Kling VIDEO 3.0؟ أدناه أبرز ميزات النموذج العملية — الخصائص التي ستلحظها في الاستخدام اليومي.
1. مقاطع فيديو أطول مع اتساق محسن
تفيد التقارير بأن Kling 3.0 يمدّد طول التوليد الفعّال — ما يعني أن المشاهد التي تتضمن عدة قطعات كاميرا أو لقطات مفردة أطول ستحافظ على اتساق الشخصية والخلفية بشكل أفضل من قبل. يترجم ذلك إلى تقليل التحرير اليدوي وتقليل الدمج المركّب. تشير تقارير الوصول المبكر ومعاينات المنصة إلى خطوة ملموسة في “معدل النجاح” للتسلسلات الأطول.
2. صوت أصلي وتصميم صوتي أساسي
بدلاً من تصدير مقاطع صامتة أو الاعتماد على مسارات TTS/ADR منفصلة، يُقال إن Kling 3.0 ينتج صوتاً متزامناً: حوار/TTS، أجواء شبيهة بالفولي، وإشارات موسيقية أولية تتوافق مع الإيقاع وقطعات الكاميرا. هذا يسرّع التكرار في المشاهد السردية والإعلانات القصيرة حيث تكون الإشارات الصوتية أساسية للإيقاع العاطفي.
3. تركيب سينمائي وسلسلة تفكير بصرية
تعني فكرة سلسلة التفكير البصرية (vCoT) أن النموذج “يفكّر” في التركيب والإضاءة عبر الإطارات قبل التصيير. عملياً، تنتج عن ذلك تحولات تأطير أقل إرباكاً، واستمرارية أفضل في عمق المجال، وإضاءة أكثر تصديقاً عبر الحركة. النتيجة مخرجات أكثر سينمائية مع عدد أقل من العيوب البصرية.
4. دقة أعلى وأوضاع جودة (حتى 4K أصلية)
يروج البائعون لدقة 4K أصلية وتحسين الاحتفاظ بالتفاصيل، وهو أمر ذو صلة خاصة لفيديوهات المنتجات في التجارة الإلكترونية والمواد الدعائية حيث تهم الخامة والتفاصيل الدقيقة. توقّع وضع معاينة/تصيير سريع للتكرار السريع ووضع تصيير عالي التكلفة للمخرجات الإنتاجية.
5. ضوابط إنتاج: الكاميرا، الحركة، تحريك الشخصيات
تسمح الضوابط الصريحة للمبدعين بتحديد حركة الكاميرا، حجم اللقطة، وسلوك البؤرة. كما يتم التشديد على ضوابط تحريك الشخصيات للأفعال والنبضات العاطفية: بدلاً من مطالبات فضفاضة مثل “اجعل هذه الشخصية حزينة”، يمكنك تعريف وضعيات مرساة وأقواس حركة. هذا يقلّل العشوائية التي ابتُليت بها مولّدات الفيديو السابقة.
لماذا تهم هذه التغييرات (مبررات تقنية ومسارات عمل)
تعاني مسارات عمل الفيديو التوليدي تاريخياً من أربع نقاط ألم متكررة: قِصر المدة، ضعف الاتساق الزمني (انحراف الشخصيات/الأشياء بين الإطارات)، الانفصال بين الفيديو والصوت المُولَّدين، ومسارات تحرير مربكة تفرض إعادة التوليد. تبدو اختيارات تطوير Kling 3.0 موجّهة مباشرة لهذه المشكلات.
- توليد لقطة واحدة أطول يقلل عبء التحرير الخاص بالوصل ويساعد على الحفاظ على الإيقاع السردي وكوريغرافيا الكاميرا داخل تمرير نموذجي واحد. هذا أساسي للسرد الموجّه اجتماعياً حيث تهيمن المقاطع 6–15 ثانية على أنماط الاستهلاك.
- الصوت الأصلي يسد فجوة الاحتكاك بين الصورة وتصميم الصوت — ما يتيح للمبدعين إنتاج مسودات متماسكة صوتياً منذ البداية بدلاً من تركيب الصوت لاحقاً.
- التحرير الموضعي والتحكم في إطار البداية/النهاية يتيحان للمحررين المحترفين التعامل مع مخرجات الذكاء الاصطناعي كأصول قابلة للتحرير بدلاً من لقطات صندوق أسود — ما يعني أن دورات التحرير التكرارية تصبح أسرع وأكثر دقة.
- ذاكرة المخرج وثبات المشهد يعالجان الاستمرارية: لأي عمل سردي متعدد اللقطات (إعلانات، حلقات قصيرة، تسلسلات مدفوعة بالشخصيات)، الحفاظ على هوية الشخصية والإضاءة غير قابل للتنازل. تهدف بُنى الذاكرة في Kling إلى إنتاج تجانس عبر اللقطات.
تعكس هذه الاختيارات توجهاً صريحاً نحو الاندماج مع خطوط الإنتاج الاحترافية بدلاً من إبقاء Kling محصوراً في مقاطع طريفة.
حالة Kling 3.0 الحالية
إصدارات الوصول المبكر وتكاملات المنصات
وقت كتابة هذه السطور، يتم تقديم Kling 3.0 عبر إتاحة مرحلية: معاينات وصول مبكر، تكاملات شركاء، وصفحات منصة تعلن الإتاحة أو التجارب. تفيد عدة منصات ذكاء اصطناعي ومنافذ مراجعة بأن Kling 3.0 في وضع الوصول المبكر/المعاينة للمستخدمين المحترفين وشركاء محددين، مع طرح أوسع مخطط على مراحل.
القيود المعروفة والتحذيرات
- سلوك الوصول المبكر: غالباً ما تعطي الإصدارات التجريبية أولوية لعروض الميزات وقد تظهر لا تزال عيوباً في الحالات الحدّية، خاصة في الكوريغرافيا المعقدة، التغيرات السريعة في الخلفية، والمشاهد المكتظة. تحذّر المنصات من أن المزج الصوتي المتقدم، وتصميم الصوت، وتصحيح الألوان من الدرجة الأولى ستظل مهاماً بشرية للإصدارات الإنتاجية.
- التكلفة والحوسبة: إن 4K الأصلية مع تسلسلات طويلة وتوليف الصوت ستكون مكثفة الحوسبة وبالتالي مسعّرة في مستويات أعلى أو خلف خطط إنتاج. توقّع وضع معاينة فريميوم للمسودات السريعة وخطاً مدفوعاً لتصييرات الإنتاج.
التكوين الموصى به على CometAPI: استخدم Kling 2.6(في الـ API، اختر إصدار المطالبة؛ CometAPI يدعم جميع تأثيرات Kling.) أولاً، ثم نفّذ ترقية نظيفة إلى 3.0.
قوالب وأمثلة مطالبات لـ Kling 3.0
هذا أفضل قالب أُعدّ لـ Kling 3.0، ويعمل أيضاً مع Kling 2.6. قبل إطلاق Kling 3.0، يمكنك استخدامه على Kling 2.6. أدناه قوالب مطالبات عملية صُممت لتكون متوافقة عبر Kling 2.6 و3.0 مع الاستفادة من ميزات 3.0 للقطات المتعددة والصوت.
هندسة المطالبات: تشريح مطالبة رائعة لـ Kling 3.0
بنِ مطالباتك في كتل صريحة — يساعد ذلك المحرك على فهم النية، نية الكاميرا، وقيود الاستمرارية.
- النية الأساسية: وصف من جملة واحدة لغرض المشهد.
- الموضوع والفعل: من/ما، الفعل الأساسي (التزم بفعل أساسي واحد).
- اللقطة والكاميرا: حجم اللقطة (واسعة/متوسطة/قريبة)، حركة الكاميرا (دوللي للداخل / تتبّع يسار / رافعة للأعلى)، تفاصيل العدسة (50 مم، عمق مجال ضحل).
- الإضاءة والأجواء: وقت اليوم، أسلوب الإضاءة، مزاج تصحيح الألوان.
- توجيه الصوت: محتوى الحوار (أو معرّف صوت TTS)، الصوت المحيطي، مزاج وسرعة الموسيقى.
- قيود الاستمرارية: مرساة مظهر الشخصية، مرساة الخلفية، ضبط البذرة/التباين.
- وضع التصيير: معاينة سريعة / إنتاج 4K / تصدير بلا فقدان.
- قيود سلبية: ما يجب تجنبه (لا تراكب نصوص، لا علامات مائية، تجنب العيوب السريالية).
قدّم دائماً “خطة تحرير” قصيرة للمخرجات متعددة القطعات (مثل: القطعة 1: 0–6 ث متوسطة؛ القطعة 2: 6–10 ث قريبة) وحيثما أمكن، أعِد استخدام معرفات مسار الكاميرا لضمان الاستمرارية بين القطعات.
النص إلى الفيديو — لقطة واحدة (سينمائية)
المطالبة:
“الموضوع: [محققة، في منتصف الثلاثينيات، بشرة زيتونية، قصة شعر بوب قصيرة]. المشهد: زقاق نيوني ممطر ليلاً، برك تعكس لافتات النيون. اللقطة: لقطة قريبة متوسطة، عدسة 35 مم، حركة دوللي خفيفة للداخل على مدى 3 ثوانٍ. الفعل: تشعل سيجارة، ترفع نظرها، تسمع صفيراً بعيداً، تُظهر عزماً هادئاً. الإضاءة: تباين عالٍ، إضاءة خلفية حافّة، أزرق بارد وإضاءات أرجوانية عملية. الأسلوب: سينمائي، حبيبات فيلم، عمق مجال ضحل. الصوت: مطر خفيف، صفير بعيد، أجواء مدينة مكتومة، موسيقى تصويرية خفيفة؛ جملة صوتية لأنثى: ‘لم ننته بعد.’ مزامنة الشفاه مع مقطع الصوت المزوّد [أرفق ملفاً أو نصاً] إن توفر. المخرج: 12 ثانية H.264، 4096×2160، 24fps.”
لماذا ينجح:
- يحدد الموضوع والمشهد والكاميرا والفعل والإضاءة والأسلوب والصوت والمخرج.
- يحافظ على فعل مدمج (فعل رئيسي واحد) لزيادة الاتساق.
لوحة قصة متعددة اللقطات — 3 لقطات
قائمة اللقطات (بنية المطالبة):
- اللقطة 1 — “لقطة تأسيسية واسعة: أفق المدينة، الغسق، سحب رافعة للخلف 5 ثوانٍ، دوللي بطيء يسار. الفعل: ظل البطل على السطح.”
- اللقطة 2 — “لقطة متوسطة: البطل على السطح، 35 مم، دوللي للداخل 3 ثوانٍ، تتحقق من جهازها وتعبس. الإضاءة: حافّة دافئة، تعبئة باردة.”
- اللقطة 3 — “لقطة قريبة: يدا البطل، شاشة الجهاز، تفصيل 2 ثانية، بان سريع إلى اليسار. الصوت: أجواء المدينة مستمرة عبر اللقطات؛ صلة مؤثرات صوتية طفيفة بين اللقطة 2 و3.”
نصائح التنفيذ:
- استخدم واجهة لوحة القصة في المنصة لإضافة هذه اللقطات كعناصر متتابعة.
- ارفع صورة مرجعية للوجه وسمِّها “Protagonist_ID_01” حتى يحافظ Kling على ملامح الشخصية عبر اللقطات.
الجسر بين إطار البداية → إطار النهاية
حالة استخدام: حمّل صورة بداية (A) وصورة نهاية (B).
المطالبة:
“ولّد جسراً مدته 6 ثوانٍ من Start=A (صورة شارع، نهار) إلى End=B (نفس الموضوع، ليل، إسفلت مبلل)، مع انتقال سلس في وقت اليوم، مرور حركة مرور في الخلفية. حافظ على ملابس وملامح الموضوع. حافظ على تأطير الكاميرا عند مستوى الصدر وأضِف تحويلاً خفيفاً للبؤرة بين الموضوعات.”
لماذا يساعد:
يوفر لـ Kling مراسي بصرية ملموسة، ما يقلل انجراف الهوية ويمكّن انتقالات إضاءة متسقة.
صورة إلى فيديو (تحريك الشخصية)
المطالبة:
“خذ الصورة المرجعية [file] وحَرّك حلقة مدتها 10 ثوانٍ حيث تدير الشخصية وجهها من 45° يساراً إلى الوسط، تبتسم، وتنطق الجملة: ‘مرحباً، أهلاً بعودتك.’ استخدم شدة حركة 50% وتابعاً شعرياً خفيفاً. زامِن الشفاه مع [text or audio file]، وصدّر كـ MP4 مدته 8 ثوانٍ مع مسار صوتي منفصل.”
إضافي:
إذا كنت تحتاج تعبيرات متعددة، قدّم نصاً قصيراً وإطارات مفتاحية منفصلة لكل تعبير للحصول على تحكم أفضل.
الخلاصة
يمثل Kling 3.0 دفعاً قوياً نحو توليف سمعي بصري متكامل مع تركيز على اتساق متعدد اللقطات، حفظ الهوية، ومخرجات أعلى جودة. تشير البنية ورسائل البائعين إلى انتقال من توليد بصري للقطات المفردة إلى توليد ملائم للمخرجين قادر على السرد. تُظهر معاينات الوصول المبكر قدرات واعدة—صوتاً أصلياً، اتساقاً محسناً للشخصيات، نصاً داخل الإطار قابلاً للقراءة، ودقة أعلى.
بالنسبة للمبدعين والمسوقين وفرق الإنتاج، يستحق Kling 3.0 الإضافة لقائمة المتابعة: فهو يقلّص دورات الإنتاج للسرد القصير ويفتح مسارات عمل جديدة للتوطين والتكرار السريع.
كيف تبدأ توليد الفيديو فوراً؟
إذا كنت تريد البدء بإنشاء الفيديو على الفور، يمكنك استخدام Blendspace. إنها نقطة انطلاق ممتازة؛ كل ما عليك تقديمه فكرة لتوليد فيديو، ثم تحسينها وتكرارها حتى تحقق هدفك.
بالنسبة للواجهات البرمجية، يمكن للمطورين الوصول إلى kling video عبر CometAPI الآن. للبدء، استكشف قدرات النموذج في Playground واطلع على دليل API للحصول على إرشادات مفصلة. قبل الوصول، يرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. CometAPI يقدّم سعراً أقل بكثير من السعر الرسمي لمساعدتك على الاندماج.
هل أنت مستعد للانطلاق؟→ سجّل في kling اليوم !
إذا أردت معرفة المزيد من النصائح والإرشادات والأخبار حول الذكاء الاصطناعي، تابعنا على VK، X و Discord!
