كيف يتم تدريب سورا؟

نموذج توليد الفيديو الخاص بـ OpenAI سورا يمثل قفزة نوعية في مجال الذكاء الاصطناعي التوليدي، إذ يتيح إنتاج فيديوهات عالية الدقة بالكامل من خلال نصوص بسيطة. منذ إطلاقه في فبراير 2024، أثار سورا حماسًا وإعجابًا بإمكانياته الإبداعية، وأثار قلقًا بشأن آثاره الأخلاقية والقانونية. فيما يلي استكشاف شامل لـ كيف يتم تدريب سورا، بالاعتماد على أحدث التقارير والإفصاحات الفنية.

ما هو سورا؟

سورا هو برنامج تحويل النصوص إلى فيديو الرائد من OpenAI، ويُنتج مقاطع فيديو واقعية وعالية الدقة من أوصاف نصية موجزة. بخلاف النماذج السابقة التي كانت تقتصر على بضع ثوانٍ من اللقطات منخفضة الدقة، يُمكن لسورا إنتاج مقاطع فيديو تصل مدتها إلى دقيقة واحدة بدقة Full HD (1×1920)، مع حركة سلسة ومشاهد مُفصّلة.

ما هي الإمكانيات التي يقدمها سورا؟

إنشاء فيديو قائم على النص:يقوم المستخدمون بإدخال مطالبة (على سبيل المثال، "تساقط ثلوج هادئ في حديقة طوكيو")، ويقوم Sora بإخراج مقطع فيديو يطابق هذا الوصف.
التحرير والتمديد:يمكن لـSora توسيع مقاطع الفيديو الموجودة وملء الإطارات المفقودة وتغيير اتجاه التشغيل أو نمطه.
من الثبات إلى الحركة:يمكن للنموذج تحريك الصور الثابتة، وتحويل الصور الفوتوغرافية أو الرسوم التوضيحية إلى مشاهد متحركة.
التنوع الجمالي:من خلال رموز الأسلوب، يمكن للمستخدمين ضبط الإضاءة، وتصنيف الألوان، والتأثيرات السينمائية.

ما هي الهندسة المعمارية التي تدعم سورا؟

يعتمد Sora على أسس المحولات المشابهة لـ GPT-4، لكنه يتكيف مع تمثيل المدخلات الخاص به للتعامل مع الأبعاد الزمنية والمكانية للفيديو:

رموز التصحيح المكانية والزمانية:يتم تقسيم إطارات الفيديو إلى بقع ثلاثية الأبعاد تلتقط مناطق البكسل وتطورها بمرور الوقت.
الانتشار التدريجي:بدءًا من الضوضاء، يقوم Sora بإزالة الضوضاء بشكل متكرر، مما يؤدي إلى تحسين التفاصيل المكانية والحركة المتماسكة في انسجام تام.
التكييف متعدد الوسائط:تساعد تضمينات النصوص من نموذج لغة كبير في توجيه عملية الانتشار، مما يضمن التوافق الدلالي مع مطالبات المستخدم.

كيف تم تدريب سورا؟

ما هي مجموعات البيانات التي تم استخدامها؟

لم تكشف OpenAI بشكل كامل عن مجموعات البيانات الملكية التي تدعم Sora، ولكن الأدلة والتقارير المتاحة تشير إلى مجموعة تدريب مركبة:

مستودعات الفيديو العامة:ملايين الساعات من مقاطع الفيديو غير المقيدة بحقوق الطبع والنشر من منصات مثل Pexels وInternet Archive ومكتبات لقطات الفيديو المرخصة.
يوتيوب ومحتوى الألعابتشير التحقيقات إلى أنه لإثراء السيناريوهات الديناميكية (على سبيل المثال، حركة الشخصية، والفيزياء)، قامت OpenAI بدمج لقطات من البث المباشر للألعاب وتسجيلات اللعب - بما في ذلك مقاطع فيديو Minecraft - مما أثار تساؤلات حول الامتثال للترخيص.
مقاطع الفيديو التي ساهم بها المستخدمون:خلال مرحلة الإصدار التجريبي، قدم مختبرو Sora مقاطع فيديو شخصية كمراجع للأسلوب، والتي استخدمتها OpenAI للضبط الدقيق.
التدريب المسبق الاصطناعي:قام الباحثون بإنشاء تسلسلات حركة خوارزمية (على سبيل المثال، الأشكال المتحركة والمشاهد الاصطناعية) لتعزيز فهم النموذج للفيزياء قبل تقديم لقطات من العالم الحقيقي.

ما هي المعالجة المسبقة التي تمت؟

قبل التدريب، خضعت جميع بيانات الفيديو لمعالجة مكثفة لتوحيد التنسيق وضمان استقرار التدريب:

تطبيع الدقة:تم تغيير حجم المقاطع وتبطينها بدقة موحدة تبلغ 1920×1080، مع مزامنة معدلات الإطارات بمعدل 30 إطارًا في الثانية.
التجزئة الزمنية:تم تقطيع مقاطع الفيديو الطويلة إلى أجزاء مدتها دقيقة واحدة لتتناسب مع أفق جيل سورا.
زيادة البيانات:أدت تقنيات مثل القص العشوائي، وتذبذب اللون، والانعكاس الزمني، وحقن الضوضاء إلى إثراء مجموعة البيانات، مما أدى إلى تحسين المتانة في مواجهة أنماط الإضاءة والحركة المتنوعة.
وضع علامات على البيانات الوصفية:تم تحليل النصوص المصاحبة (العناوين، التسميات التوضيحية) لإنشاء أمثلة مقترنة (فيديو، نص)، مما يتيح تكييف النص الخاضع للإشراف.
تدقيق التحيز:في وقت مبكر من العملية، تمت مراجعة مجموعة فرعية من المقاطع يدويًا لتحديد وتخفيف التحيزات الواضحة في المحتوى (على سبيل المثال، الصور النمطية الجنسانية)، على الرغم من أن التحليلات اللاحقة تكشف عن استمرار التحديات.

كيف يقوم OpenAI بتنظيم منهجية تدريب Sora؟

بناءً على الرؤى المستمدة من إطار عمل إنشاء الصور الخاص بـ DALL·E 3، يدمج خط أنابيب تدريب Sora بنيات متخصصة ووظائف خسارة مصممة خصيصًا للتماسك الزمني ومحاكاة الفيزياء.

هندسة النموذج وأهداف ما قبل التدريب

يستخدم سورا بنيةً مبنيةً على المحول مُحسّنةً لبيانات الفيديو، مع آليات انتباه مكانية زمانية تلتقط تفاصيل مستوى الإطار ومسارات الحركة. خلال مرحلة ما قبل التدريب، يتعلم النموذج التنبؤ بالبقع المُقنّعة عبر الإطارات المتسلسلة، مما يُوسّع الإطارات المُقنّعة للأمام والخلف لفهم الاستمرارية.

مقتبس من DALL·E 3

تُستمدّ وحدات تركيب الصور الأساسية في سورا من تقنيات الانتشار في DALL·E 3، المُحسّنة للتعامل مع البُعد الزمني الإضافي. يتضمن هذا التعديل تكييف كلٍّ من تضمينات النصوص وإطارات الفيديو السابقة، مما يُتيح إنشاء مقاطع جديدة بسلاسة أو توسيع المقاطع الموجودة.

محاكاة العالم المادي

من الأهداف الرئيسية للتدريب إنشاء "نموذج عالمي" بديهي قادر على محاكاة التفاعلات الفيزيائية، مثل الجاذبية، وتصادم الأجسام، وحركة الكاميرا. يُسلّط التقرير الفني لشركة OpenAI الضوء على استخدام مصطلحات خسارة مستمدة من الفيزياء المساعدة، والتي تُعاقِب على النتائج غير المعقولة فيزيائيًا، مع أن النموذج لا يزال يُعاني من ديناميكيات مُعقّدة، مثل الحركة السلسة والظلال الدقيقة.

ما هي التحديات والخلافات التي واجهتها؟

المخاوف القانونية والأخلاقية؟

لقد أدى استخدام المحتوى المتاح للعامة والذي ينشئه المستخدمون إلى تدقيق قانوني:

نزاعات حقوق النشر:لقد مارست الصناعات الإبداعية في المملكة المتحدة ضغوطًا ضد السماح لشركات الذكاء الاصطناعي بالتدريب على أعمال الفنانين دون موافقة صريحة، مما أثار نقاشًا برلمانيًا بينما تم إطلاق Sora في المملكة المتحدة في فبراير 2025.
شروط خدمة المنصة:أشار موقع YouTube إلى خروقات محتملة ناجمة عن استخراج مقاطع فيديو المستخدمين للتدريب على الذكاء الاصطناعي، مما دفع شركة OpenAI إلى مراجعة سياسات الاستيعاب الخاصة بها.
الدعاوى القضائية:بعد السوابق التي أرستها القضايا ضد نماذج النصوص والصور، قد تواجه أدوات إنشاء الفيديو مثل Sora دعاوى قضائية جماعية بسبب الاستخدام غير المصرح به للقطات المحمية بحقوق الطبع والنشر.

التحيزات في بيانات التدريب؟

على الرغم من جهود التخفيف، فإن سورا يظهر تحيزات منهجية:

الصور النمطية المتعلقة بالجنسين والمهن:وجد تحليل WIRED أن مقاطع الفيديو التي تم إنشاؤها بواسطة Sora تصور الرؤساء التنفيذيين والطيارين بشكل غير متناسب على أنهم رجال، بينما تظهر النساء بشكل رئيسي في أدوار الرعاية أو الخدمة.
التمثيل العنصري:تواجه العارضة صعوبة في التعامل مع درجات لون البشرة وملامح الوجه المتنوعة، وغالبًا ما تلجأ إلى صور ذات بشرة أفتح أو ذات طابع غربي.
قدرة بدنية:في أغلب الأحيان، يظهر الأشخاص ذوو الإعاقة وهم يستخدمون الكراسي المتحركة، مما يعكس فهمًا ضيقًا للإعاقة.
مسار الحل:استثمرت OpenAI في فرق الحد من التحيز وتخطط لدمج بيانات تدريب أكثر تمثيلاً وتقنيات التعزيز المضادة للوقائع.

ما هي التطورات التي أدت إلى تحسين التدريب؟

المحاكاة ونمذجة العالم؟

تعتمد قدرة سورا على تقديم مشاهد واقعية على وحدات محاكاة العالم المتقدمة:

المقدمات المستنيرة بالفيزياء:تم تدريب Sora مسبقًا على مجموعات بيانات اصطناعية تحاكي الجاذبية وديناميكيات السوائل واستجابات الاصطدام، كما يبني محركًا فيزيائيًا بديهيًا داخل طبقات المحول الخاصة به.
شبكات التماسك الزمني:تعمل الوحدات الفرعية المتخصصة على تعزيز الاتساق عبر الإطارات، مما يقلل من الوميض واهتزاز الحركة الشائع في طرق تحويل النص إلى فيديو السابقة.

تحسينات الواقعية المادية؟

أدت الإنجازات التقنية الرئيسية إلى تعزيز دقة إنتاج Sora:

انتشار عالي الدقة:تعمل استراتيجيات الانتشار الهرمي أولاً على توليد أنماط حركة منخفضة الدقة، ثم رفعها إلى الدقة العالية الكاملة، مع الحفاظ على الحركة العالمية والتفاصيل الدقيقة.
الاهتمام عبر الزمن:يسمح الاهتمام الذاتي الزمني للنموذج بالإشارة إلى إطارات بعيدة، مما يضمن الاتساق على المدى الطويل (على سبيل المثال، يتم الحفاظ على اتجاه الشخصية ومسارها على مدى عدة ثوانٍ).
نقل الأسلوب الديناميكي:تمزج محولات النمط في الوقت الفعلي بين العديد من الجماليات البصرية، مما يتيح التحولات بين المظهر السينمائي أو الوثائقي أو المتحرك داخل مقطع واحد.

ما هي الاتجاهات المستقبلية لتدريب سورا؟

تقنيات لتقليل التحيز؟

تستكشف OpenAI ومجتمع الذكاء الاصطناعي الأوسع نطاقًا طرقًا لمعالجة التحيزات الراسخة:

تعزيز البيانات المضادة للواقع:تجميع إصدارات بديلة من مقاطع التدريب (على سبيل المثال، تبديل الجنسين أو الأعراق) لإجبار النموذج على فصل السمات عن الأدوار.
إزالة التحيز العدائي:دمج المميزات التي تعاقب على المخرجات النمطية أثناء التدريب.
مراجعة إنسانية:شراكة مستمرة مع مجموعات مختلفة من المستخدمين لمراجعة وتقديم ملاحظات حول مخرجات النموذج قبل الإصدار العام.

توسيع تنوع مجموعة البيانات؟

إن ضمان وجود مجموعات تدريبية أكثر ثراءً أمر حيوي:

شراكات الفيديو العالمية:ترخيص المحتوى من مؤسسات الإعلام غير الغربية لتمثيل مجموعة أوسع من الثقافات والبيئات والسيناريوهات.
الضبط الدقيق الخاص بالمجال:تدريب إصدارات متخصصة من Sora على اللقطات الطبية أو القانونية أو العلمية - مما يتيح إنشاء فيديو دقيق وملائم للمجال.
معايير مفتوحة:التعاون مع اتحادات الأبحاث لإنشاء مجموعات بيانات موحدة ومتاحة للعامة لتقييم النص إلى الفيديو، وتعزيز الشفافية والمنافسة.

الخاتمة

يتصدر سورا مجال توليد النصوص إلى مقاطع فيديو، حيث يجمع بين الانتشار القائم على المحولات، ومجموعات الفيديو واسعة النطاق، ومحاكاة العالم المسبقة لإنتاج مقاطع واقعية بشكل غير مسبوق. ومع ذلك، فإن مسار تدريبه - المبني على مجموعات بيانات ضخمة وغامضة جزئيًا - يثير تحديات قانونية وأخلاقية ملحة، بالإضافة إلى تحديات تتعلق بالتحيز. مع تطوير OpenAI والمجتمع الأوسع لتقنيات إزالة التحيز، والامتثال للترخيص، وتنويع مجموعات البيانات، تَعِد الإصدارات القادمة من سورا بتوليف فيديو أكثر واقعية، مما يفتح المجال لتطبيقات إبداعية واحترافية جديدة، مع ضرورة وجود حوكمة يقظة لحماية الحقوق الفنية والعدالة الاجتماعية.

كيف تبدأ

يوفر CometAPI واجهة REST موحدة تجمع مئات نماذج الذكاء الاصطناعي - بما في ذلك عائلة Gemini من Google - ضمن نقطة نهاية متسقة، مع إدارة مدمجة لمفاتيح واجهة برمجة التطبيقات، وحصص الاستخدام، ولوحات معلومات الفوترة. بدلاً من إدارة عناوين URL وبيانات اعتماد متعددة للموردين، يمكنك توجيه عميلك إلى https://api.cometapi.com/v1 وتحديد النموذج المستهدف في كل طلب.

يمكن للمطورين الوصول واجهة برمجة تطبيقات سورا من خلال كوميت ايه بي اي. للبدء، استكشف قدرات النموذج في ساحة اللعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة.