شرح Kling 2.6: ما الجديد هذه المرة؟

وصل Kling 2.6 كواحد من أكبر التحديثات التدريجية في مجال فيديو الذكاء الاصطناعي سريع الحركة: بدلاً من إنشاء فيديو صامت وترك الصوت لأدوات منفصلة، يقوم Kling 2.6 بإنشاء صور مرئية و صوت متزامن (أصوات، مؤثرات صوتية، أجواء) في تمريرة واحدة. هذا التغيير الهيكلي الوحيد - التوليد المتزامن للصوت والصورة - له آثار واسعة على كيفية قيام المبدعين بإنشاء نماذج أولية للوسائط القصيرة، وتكرارها، وتقديمها.

ما هو Kling Video 2.6؟

Kling Video 2.6 هو أحدث إصدار مهم في عائلة Kling من مولدات الفيديو التي تعمل بالذكاء الاصطناعي - أول إصدار عام تم الإبلاغ عنه على نطاق واسع يجمع توليد الصوت الأصلي مع إخراج فيديو متزامن في استدلال واحد. أُعلن عن Kling 2.6 في أوائل ديسمبر 2025، وهو يُوسّع قدرات المنصة في تحويل النص إلى فيديو (T2V) والصورة إلى فيديو (I2V) من خلال إنتاج حوار وصوت محيطي ومؤثرات تتوافق زمنيًا مع العناصر المرئية المُولّدة، مما يُتيح سير عمل لإنشاء الصوت والصورة في خطوة واحدة بدلاً من النهج السابق ذي الخطوتين "الفيديو ثم إضافة الصوت". تم دمج الإصدار بالفعل في بعض المنصات الإبداعية (على سبيل المثال، Kling 2.6 Pro على CometAPI)، ويُعدّ نموذجًا مُوجّهًا لصانعي الأفلام، مع خيارات مُعدّلة للسرعة (سير عمل المسودة) والدقة السينمائية.

يُقدّم Kling 2.6 بإصدارات متعددة - عادةً ما يكون إصدارًا احترافيًا أو استوديوًا مُصمّمًا للمُبدعين المحترفين، وإصدارًا أسرع/مسودة للتكرار - ويدعم وضعي التوليد النصي والمرجعي. يُحسّن اتساق الشخصيات في اللقطات، ودقة الحركة، وعناصر تحكم "صانع الأفلام" التي تجعل النموذج أكثر قابلية للتنبؤ للمشاهد متعددة اللقطات والأعمال السردية.

يدعم Kling 2.6 كل من إنشاء الصورة→الفيديو والنص→الفيديو وينتج مسارات صوتية متزامنة تتضمن:

خطاب يبدو طبيعيا (حوار، سرد).
الغناء والراب (الإخراج الصوتي اللحني).
الأجواء البيئية والمؤثرات الصوتية غير الكلامية.
مسارات صوتية مختلطة تجمع بين الحوار والإشارات الموسيقية والمؤثرات.

يقوم بإخراج مقاطع فيديو قصيرة (عادةً ما يتم الاستشهاد بها بما يصل إلى 10 ثوانٍ بدقة 1080 بكسل في العديد من تطبيقات الشركاء) مخصصة للتنسيقات الاجتماعية والإعلانية، إلى جانب واجهات برمجة التطبيقات والتكاملات المستضافة من خلال خدمات الطرف الثالث.

ما هي الميزات الرئيسية لبرنامج Kling Video 2.6؟

الصوت الأصلي + الفيديو في تمريرة واحدة

تتمثل القدرة المميزة لبرنامج Kling 2.6 في توليد صوت متزامن (كلام، مؤثرات صوتية، أجواء، وحتى الغناء/الراب) في نفس الوقت يتم إنتاج الإطارات. يهدف هذا النموذج إلى مزامنة دقيقة للشفاه وإيقاعات صوتية تتوافق مع إيقاع الكاميرا وحركات الشخصية، مما يُزيل الشعور الشائع بعدم التزامن بين الصورة والصوت. هذا هو جوهر الفارق التقني والمنتجي الذي تم التأكيد عليه في هذا الإصدار. PR

أصوات مدمجة ثنائية اللغة (الإنجليزية والصينية)

يوفر إصدار Kling 2.6، المُدمج، خاصية توليد صوت باللغتين الصينية والإنجليزية، مع خيارات للحوار متعدد الشخصيات والتحكم في النغمة والعاطفة. وقد كرّر الإعلان الرسمي ومنصات الشركاء هذا التركيز على ثنائية اللغة كنقطة جذب لأسواق شرق آسيا والمبدعين الناطقين باللغة الإنجليزية حول العالم.

مساران للإدخال: النص→AV والصورة→AV

يدعم Kling 2.6 (1) تحويل النص إلى صوت وصورة - اكتب مشهدًا + حوارًا اختياريًا واحصل على مقطع مكتمل - و (2) تحويل الصورة إلى صوت وصورة تحريك صورة ثابتة بصوت متزامن. المسار الثاني مفيد لتحويل صور المنتجات أو الملصقات الفنية إلى مقاطع متحركة مع تعليق صوتي وأجواء طبيعية. تُبرز منصات متعددة تستخدم Kling 2.6 هاتين العمل الرئيسيتين.

صور عالية الدقة وتناسق الحركة

ركزت سلسلة Kling (2.5 والإصدارات المختلفة) على عمل الكاميرا المستقر وهوية الشخصية المتسقة والحركة التي تحترم الفيزياء. يحتفظ 2.6 بهذا الاستقرار البصري مع إضافة الصوت، لذلك يمكن للمبدعين توقع مقاطع سينمائية ووجوه/ملابس متسقة وأخطاء "انحراف الهوية" أقل عبر المقاطع الصغيرة وفقًا للمراجعين الأوائل.

حدود التنسيق ومواصفات الإخراج (القيود العملية)

يستهدف Kling 2.6 حاليًا مقاطع قصيرة (يبلغ الحد الأقصى المُشار إليه عادةً لطول الجيل حوالي ١٠ ثوانٍ لكل جيل)، وعادةً ما يُنتج بدقة ١٠٨٠ بكسل للحصول على نتائج عالية الدقة. أما بالنسبة للتسلسلات الأطول، فيُتوقع من المُبدعين دمج مقاطع مُولّدة متعددة أو استخدام سير عمل تحرير مُبني على مخرجات كلينج. تُعدّ هذه الحدود العملية بالغة الأهمية لتخطيط الإنتاج.

كيف يعمل Kling 2.6 فعليًا تحت الغطاء

كيف يعمل Kling 2.6 على تحسين التعاون السمعي البصري؟

Kling 2.6 باعتباره يتيح "التعاون السمعي البصري"، فإنهم يقصدون أن النموذج ينسق جيل من كلا النمطين الحسيين، بحيث يكونان مترابطين عند إنتاجهما، بدلاً من إنتاج المرئيات أولاً وإضافة الصوت لاحقاً. عملياً، يعني هذا إنتاج مسارات حركة الشفاه، والمؤثرات الصوتية، وأجواء الخلفية بما يتناسب مع الحركة، والإيقاع، والإيقاع الموسيقي من مُوجِّه أو صورة واحدة. هذا يُغني عن المزامنة اليدوية، ويُقلل من وقت إنتاج المقاطع القصيرة عالية الجودة.

على المستوى المفاهيمي، يُدمج Kling 2.6 الصوت في بيئة تكييف النموذج وإخراجه، بدلاً من اعتباره خطوة فك تشفير أو معالجة لاحقة منفصلة. عملياً:

يأخذ النموذج مطالبة واحدة (نص فقط، أو نص + صور مرجعية) ويقوم بشكل مشترك بأخذ عينات من الإطارات المرئية وموجة صوتية (أو رموز صوتية) يتم تدريبها على التوافق زمنيًا مع الأحداث على مستوى الإطار (حركات الشفاه، والإجراءات التي تظهر على الشاشة، وقطع الكاميرا).
أثناء التدريب، يتعرض النموذج لأمثلة فيديو + صوت مقترنة حتى يتعلم المحاذاة الدلالية - على سبيل المثال، ربط "ضرب الباب" بكل من الإطار الذي يظهر إغلاق الباب والصوت القصير والإيقاعي المقابل لهذا الفعل.
ثم يقوم النظام بفك تشفير مخرجات مركبة تتضمن طبقات صوتية متزامنة: مسارات الكلام الأساسية، والمؤثرات الصوتية المتعددة الطبقات، والضوضاء المحيطة/الصوتية.

تُركّز المواد الرسمية والتقارير التقنية على تناغم دلالي عميق لضمان تناغم إيقاعات الصوت مع الحركة البصرية، والعكس صحيح - وهو السبب الرئيسي الذي يدفع كلينج للقول بأن المنتج يبدو أكثر "تكاملاً". هذه أوصاف رفيعة المستوى من الإعلان وشركاء النظام البيئي؛ ولم ينشر كلينج (حتى منشورات الإطلاق العامة) ورقة بيضاء كاملة تتضمن مخططات معمارية للتحقق المستقل.

توليد الصوت الأصلي: لماذا هو مهم؟

هناك ثلاث مزايا عملية لتوليد الصوت الأصلي:

مزامنة مثالية بمجرد إخراجها من الصندوق. يمكن محاذاة الحوار وتوقيت المقطع وحركة الفم أثناء التوليد، مما يقلل الحاجة إلى الإطارات الرئيسية اليدوية أو مرحلة ما بعد الإنتاج.
أسرة صوتية غنية بدون خلط. يمكن للنموذج إضافة طبقات وتأثيرات محيطة (على سبيل المثال، الرياح، والطنين الميكانيكي، وهمهمات الجمهور)، مما يعطي شعورًا سينمائيًا للمقاطع القصيرة دون الحاجة إلى مهندس صوت.
تكرار أسرع. يمكن للمبدعين تجربة الاختلافات (النغمة أو الصوت أو المؤثرات الصوتية) والحصول على نتائج فورية في خطوة جيل واحدة - مما يؤدي إلى تسريع اختبار A/B الإبداعي وسير العمل الاجتماعي.

المدخلات والمطالبات ومفاتيح التحكم

يدعم Kling 2.6:

مطالبات وصفية بسيطة مقسمة إلى كتل المشهد / الفعل / الشخصية / الصوت (استراتيجية المطالبات الموصى بها في مستندات الشريك).
صور مرجعية اختيارية (1-4) لتثبيت هوية الشخصية، أو الزي، أو الدعائم، أو الأسلوب المرئي.
تعليمات خاصة بالصوت داخل المطالبة: نوع الصوت، وأسلوب الكلام (همس / درامي / سردي)، وأوصاف الصوت المحيط (المطر، ثرثرة الشارع)، وإشارات المؤثرات الصوتية.
نكهات النماذج (على بعض المنصات): الاختيارات بين المخرجات الأسرع ذات الجودة الأولية والمتغيرات السينمائية "الاحترافية" الأبطأ التي تعطي الأولوية للتفاصيل والتعبير.

كيف تتم مقارنة Kling 2.6 مع نماذج الفيديو AI الرائدة الأخرى؟

ما هم المنافسين الأقرب؟

يضم السوق الحالي العديد من عائلات تحويل النصوص إلى فيديو المتطورة: Google Veo (Veo 3.x)، وOpenAI Sora (Sora 2)، ومشتقات Hailuo/Nano Banana. ويهيمن على هذا الإصدار موضوعان للمقارنة:

الواقعية البصرية، والفيزياء، والترابط طويل الأمد (المجالات التي تتم مناقشة Veo وSora فيها بشكل متكرر).
قدرات الصوت المتكاملة مقابل الأساليب البصرية أولاً (يتميز Kling 2.6 بكونه صوتًا أولاً بمعنى توليد الصوت المتكامل).

نقاط القوة والضعف جنبًا إلى جنب

نظرة موجزة مدعومة بمقارنات بين المنصات:

كلينج 2.6 — نقاط القوة: إنشاء مواد سمعية وبصرية أصلية، أصوات ثنائية اللغة، النماذج الأولية السريعة؛ نقاط الضعف: تم تحسينه حاليًا للمقاطع القصيرة (≈10 ثوانٍ) وقد يتطلب التجميع للسرد الأطول.
Veo 3.1 (نظام جوجل البيئي) — القوة: الواقعية السينمائية، والحركة الدقيقة للفيزياء، والملمس/التفاصيل القوية في فترات زمنية أطول؛ الضعف: قد تعتمد سير عمل الصوت على TTS/SFX منفصلة أو حلول متكاملة لاحقة.
Sora 2 / Sora 2 Pro (OpenAI / المنصات المتحالفة) - القوة: دقة عالية، تماسك قوي للمشهد؛ الضعف: تطور تكامل الصوت - بعض إصدارات Sora تدعم الآن الصوت ولكن وضع المنتج يختلف.

Kling 2.6 كخيار تنافسي عندما يكون هدفك هو تم الانتهاء من المقاطع القصيرة بسرعة (الاجتماعية، والإعلانات، والتجارة الإلكترونية) بدلاً من تسلسلات سينمائية طويلة ذات لقطة واحدة حيث تقود النماذج الأخرى حاليًا إلى الواقعية الممتدة.

الاختيار الواقعي: الأداة المناسبة للوظيفة المناسبة

اختر Kling 2.6 إذا كنت بحاجة إلى نماذج أولية لمشاهد تجريبية مع صوت متزامن، أو تريد إصدارات لغوية سريعة، أو تقوم ببناء محتوى سينمائي قصير مع حوار.
اختر Sora/Veo أو المنصات ذات الأولوية البصرية إذا كانت احتياجاتك الأساسية هي الحصول على أقصى قدر من الدقة البصرية الواقعية، أو ميزات تحرير متقدمة محددة، أو إذا كان تكامل النظام البيئي مدمجًا بالفعل في خط الأنابيب الخاص بك.

ما الذي يمكن للمبدعين صنعه بالفعل باستخدام Kling 2.6 - حالات الاستخدام وسير العمل النموذجية؟

الإعلانات الاجتماعية السريعة وعروض المنتجات

يمكن لمُنتجي الإعلانات والأفلام الاجتماعية القصيرة والحلقات السردية القصيرة إنتاج مشاهد كاملة - بما في ذلك الحوار والمؤثرات - برسالة واحدة، مما يُقلل من تكلفة الإنتاج والوقت اللازم لسرد القصص القصيرة. يُناسب هذا الشكل بشكل خاص المقاطع الكوميدية القصيرة والمحتوى المُصمّم الذي يحمل علامة تجارية.

مثال: صورة منتج + مُطالبة ← مقطع فيديو مدته 6-10 ثوانٍ مع راوٍ يصف الميزات، ونقرات أزرار متزامنة، وأجواء هادئة. هذا يُغني عن جلسة تسجيل صوتي + مكتبة مؤثرات صوتية + مسار تحرير. مسار كلينج من الصورة إلى الفيديو مُوجّه بشكل واضح للتجارة الإلكترونية وإنشاء إعلانات قصيرة.

رسم القصة المصورة / التصور المسبق (التصور المسبق)

لأن Kling 2.6 يُنتج صوتًا وصورةً متزامنين، يُمكن للفرق الحصول على مشهد شبه كامل - حجب بصري بالإضافة إلى حوار مؤقت وصوت - في تكرار واحد. يُسرّع هذا من عملية توليد الأفكار، مما يسمح للمخرجين وكتّاب الإعلانات والمنتجين بتقييم الإيقاع والنبرة وأسلوب الحوار مُبكرًا. بالنسبة للمُعلنين الذين يختبرون سباقات الأفكار أو الاستوديوهات الصغيرة التي تُطوّر نماذج أولية للأفلام القصيرة، يُعدّ هذا الضغط الزمني بالغ الأهمية.

محتوى نصي قصير ورسومات متعددة الشخصيات

يدعم Kling 2.6 الحوار متعدد المتحدثين، والأصوات المميزة، وأجواء المشاهد، مما يتيح إنتاج رسومات قصيرة، ومقابلات، أو تفاعلات بين الشخصيات، مناسبة لـ TikTok، وReels، وYouTube Shorts. يُوسّع دعم الصوت ثنائي اللغة نطاق وصول المبدعين الذين يرغبون في الوصول إلى السوقين الإنجليزية والصينية.

مقتطفات من الموسيقى والغناء والأداء

يُقال إن قدرات كلينج الصوتية تشمل الغناء وتوليد موسيقى الراب، وهو أمر مفيد للعروض التوضيحية، والأفكار الموسيقية المدعومة بالذكاء الاصطناعي، أو مقاطع الأغاني (مع مراعاة الحقوق والجودة). تُظهر المراجعات الأولية تنوعًا مذهلاً في أنواع الصوت، مع اختلاف الجودة باختلاف النوع وخصوصية الصوت.

كيفية البدء: أفضل ممارسات سير العمل والمطالبة

أين يمكنك الوصول إلى Kling 2.6 اليوم؟

يتوفر Kling 2.6 عبر عدة منافذ: إعلانات البائعين المباشرة، وسوق الشركاء CometAPI. CometAPI هي منصة تجميع واجهات برمجة التطبيقات (API) القائمة على الذكاء الاصطناعي، والتي تدمج واجهات برمجة التطبيقات بتكلفة أقل من واجهات برمجة التطبيقات الرسمية.

الهندسة الفورية: أمثلة عملية

لأن لغة كلينج 2.6 أقوى دلاليًا، فإن الإشارات التي تُقدّم إشارات مُركّزة وسردية تُؤدّي أداءً جيدًا. أمثلة على الأنماط:

إعلان اجتماعي قصير (نص → سمعي بصري):

"A 10s 1080p scene: close-up of a young woman smiling in a sunlit café, slow camera tilt out to show bustling street, soft acoustic guitar riff under, female narrator (warm, mid) says: 'Find moments that make you stay.' Add light cafe ambient and distant traffic SFX."

الصورة → مقطع سينمائي مع حوار:

قم بتحميل الصورة المرجعية.
موجه: "Turn this portrait into a 10s cinematic clip: subject turns head to camera, looks wistful; low-volume ocean ambience; male voiceover (calm, low) reads: 'We always find a way.' Slight swell of strings at end. Include soft footsteps and distant gulls."

نصيحة:

كن صريحا بشأن أسلوب الصوت (الجنس، العمر، النبرة)، العناصر المحيطةو توقيت (على سبيل المثال، "يبدأ الصوت عند 1.2 ثانية، ويستمر لمدة 3.8 ثانية" للمزامنة الدقيقة).
بالنسبة لتسلسلات اللقطات المتعددة، قم بتوفير قائمة مرقمة للمشاهد بدلاً من فقرة واحدة لتحسين الاتساق بين المشاهد.

قائمة التحقق من الإنتاج للمبدعين

تحديد تنسيق الهدف (عمودي/أفقي، 10 ثوانٍ/مقطع قصير).
اختر الصوت واللغة بوضوح.
صياغة قائمة المشاهد لمخرجات متعددة اللقطات.
اختلافات الاختبار من الحالة المزاجية/الإيقاع للإبداعات A/B.
التدقيق على سلامة المحتوى (لا يوجد انتحال، تحقق من حقوق التشابه).

النتيجة: هل Kling Video 2.6 يغير قواعد اللعبة؟

إن برنامج Kling Video 2.6 ليس برنامجًا مثاليًا لـ"صانع أفلام الذكاء الاصطناعي" في نهاية المطاف — ولا يوجد نموذج حالي مثالي لذلك — ولكنه برنامج واضح تغيير قواعد سير العمل للمحتوى القصير. بدمج الصوت والصورة في جيل واحد، يُزيل كلينج نقطة احتكاك رئيسية (مرحلة ما بعد الإنتاج الصوتي) ويفتح آفاقًا إبداعية لسرعة توليد الأفكار وإنتاج منخفض التكلفة. يُعدّ كلينج 2.6 خيارًا قيّمًا للغاية لمُنشئي المحتوى على مواقع التواصل الاجتماعي، والاستوديوهات الصغيرة، وفرق التجارة الإلكترونية، وكل من يحتاج إلى مقاطع صوتية سريعة وسلسة. أما بالنسبة للأعمال السينمائية الراقية، فهذا النموذج واعد، ولكنه لا يزال يتطلب عادةً صقلًا بشريًا، وتسلسلًا، وإشرافًا تحريريًا.

تم إطلاق Kling Video 2.6 .

يمكن للمطورين الوصول فيو 3.1, سورا 2 و كلينج 2.5 توربوإلخ من خلال CometAPI، أحدث إصدار للنموذج يتم تحديثه دائمًا بالموقع الرسمي. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

هل أنت مستعد للذهاب؟→ نسخة تجريبية مجانية من Kling 2.6 !

إذا كنت تريد معرفة المزيد من النصائح والإرشادات والأخبار حول الذكاء الاصطناعي، فتابعنا على VK, X و ديسكورد!