Genie 3: هل يمكن لنموذج DeepMind الجديد للعالم في الوقت الحقيقي إعادة تعريف الذكاء الاصطناعي التفاعلي؟

في خطوة تؤكد على مدى سرعة انتقال الذكاء الاصطناعي التوليدي إلى ما هو أبعد من النصوص والصور، كشفت شركة Google DeepMind اليوم الجني 3، وهو "نموذج عالمي" متعدد الأغراض قادر على تحويل النصوص أو الصور البسيطة إلى بيئات تفاعلية ثلاثية الأبعاد قابلة للتصفح تعمل في الوقت الفعلي. يمثل النظام قفزة نوعية من تجارب الفيديو التوليدي ونماذج العالم السابقة: يستطيع Genie 3 إنتاج بيئات متعددة الدقائق بدقة 3 بكسل بمعدل 720 إطارًا في الثانية تقريبًا، والأهم من ذلك، أنه يمكنه الحفاظ على الذاكرة الفراغية بحيث تستمر التغييرات التي يُجريها المستخدم مع تطور المشهد. تُصنّف DeepMind Genie 3 كنقطة تحول بحثية في بناء وكلاء مُجسّدين أكثر كفاءة، ولإنشاء بيئات تدريب اصطناعية يُمكنها، على سبيل المثال، تسريع تعلم الروبوتات أو ابتكار أشكال جديدة من الوسائط التفاعلية.

ما هو جيني 3؟ ما هي مميزاته؟

ما يفعله Genie 3 والذي لم تتمكن النماذج السابقة من فعله: وصف DeepMind Genie 3 بأنه أول نموذج عالمي في عائلته قادر على التفاعل في الوقت الحقيقي مع مشاهد مُولَّدة تبقى ثابتة لعدة دقائق. بينما أنتجت الأنظمة السابقة (بما في ذلك نماذج DeepMind الأولية وأدوات توليد الفيديو الأخرى) مقاطع قصيرة أو عروض تقديمية ثابتة، يتيح Genie 3 للمستخدم الدخول إلى المشهد، وتغيير كائن، وتعديل الطقس، أو تحريك شخصية - وسيتذكر النموذج هذه التغييرات مع استمرار تطور البيئة. في العروض التوضيحية التي أصدرتها DeepMind، أنتج النموذج بيئات بدقة 720 بكسل و24 إطارًا في الثانية تحافظ على ديناميكيات متماسكة على مدار دقائق بدلاً من ثوانٍ، وهو يدعم "أحداث عالمية قابلة للتوضيح" حتى يتمكن المبدعون من استخدام المطالبات المتابعة لتغيير ما يفعله العالم.

كيف يعمل

DeepMind يعتبر Genie 3 بمثابة الجيل القادم النموذج العالمي: بنية عصبية مُدرَّبة على فهم ومحاكاة ديناميكيات البيئة بدلاً من مجرد توليد إطارات ثابتة. يجمع النظام بين قدرات توليد الفيديو والذاكرة المكانية ونمذجة الديناميكيات، مما يُمكِّنه من توليف مشاهد ثلاثية الأبعاد مُحكمة ومحاكاة سلوك الكائنات والضوء والعوامل بمرور الوقت. عمليًا، يُقدِّم المستخدم نصًا أو صورةً قصيرةً؛ فيُوسِّع النموذج ذلك إلى مشهد قابل للتشغيل، يتم عرضه وتحديثه بمعدلات إطارات تفاعلية. على الرغم من أن منشور مدونة DeepMind التقنية لا ينشر أحجام النماذج الأساسية أو وصفات التدريب الكاملة بالتفصيل العام، إلا أن التقدم الأساسي يكمن في تحسين قدرة النموذج على الحفاظ على... دوام الكائن، تخطيط المشهد، والاتساق السببي عبر الدقائق.

القدرات التي تم إثباتها

في المواد التي أصدرتها DeepMind بالتزامن مع الإعلان، أظهرت Genie 3 العديد من القدرات الرئيسية التي أثارت حماس الباحثين والصحافة:

استكشاف تفاعلي بمعدلات في الوقت الحقيقي. تعمل البيئات المولدة بسرعة 24 إطارًا في الثانية تقريبًا ويمكن التنقل فيها في الوقت الفعلي، مما يتيح تجارب "قابلة للتشغيل" بدلاً من مقاطع الفيديو لمرة واحدة.
التغيرات المستمرة والذاكرة المكانية. تظل الإجراءات مثل طلاء الحائط أو تحريك الكرسي مستمرة ويتم ملاحظتها لاحقًا في الجلسة، مما يشير إلى مستوى الذاكرة لمواقع الأشياء وحالتها.
أحداث عالمية قابلة للتوضيح. يمكن للمستخدمين حقن تعليمات جديدة أثناء الجلسة (على سبيل المثال، "اجعل المطر يهطل" أو "إنشاء شخصية")، ويقوم النموذج بتحديث المشهد بشكل متماسك.
وقت تشغيل ممتد. حيث تم قياس النماذج السابقة في ثوانٍ من الاستمرارية، يظهر Genie 3 سلوكًا متسقًا عبر دقائق من التفاعل.

إن هذه الميزات مجتمعة تجعل Genie 3 يبدو وكأنه محرك للمحتوى التفاعلي والمحاكاة وليس مجرد عرض فيديو توليدي.

التوفر والقيود الحالية

من الواضح أن DeepMind والتغطية الصحفية المصاحبة لها تؤكد أن Genie 3 هو لست منتجٌ مُوجّهٌ مباشرةً للمستهلك. يخضع النموذج حاليًا لبرنامج بحث واختبار، وهو متاحٌ فقط لمجموعةٍ محدودةٍ من الشركاء الداخليين والخارجيين للتقييم؛ ولم يُحدَّد موعدٌ عامٌّ للإصدار العام بعد. إضافةً إلى ذلك، تُشير شركة DeepMind ومحللون مستقلون إلى قيودٍ تقنيةٍ مهمة: فبينما تُتيح المشاهد التفاعلية لدقائق، فإن النظام غير قادرٍ بعدُ على محاكاة حقائق جغرافيةٍ غير مُحدّدة أو واسعة النطاق، ولا يزال من المُحتمل أن يُخطئ أو يُصاب بالهلوسة - خاصةً فيما يتعلق بالحقائق الواقعية الدقيقة أو الفيزياء المُعقّدة.

باختصار، يُعدّ جيني 3 إنجازًا بحثيًا، وليس منصةً مكتملة. وقد نُشرت عروض توضيحية عامة ووسائط توضيحية، ولكن لا يوجد جدول زمني فوري لإطلاقه للمستهلكين.

الحلول المقترحة

أحد أهم حالات الاستخدام التي تسلط DeepMind الضوء عليها هو بيئات التدريب الاصطناعية للوكلاء المجسدين والروبوتات. يمكن للعوالم المُحاكاة - إذا كانت واقعية بما يكفي ومتسقة داخليًا - أن تُشكل مجموعات بيانات ضخمة ومنخفضة التكلفة لتعليم الروبوتات الملاحة، وإدارة المخزون، أو التنسيق بين الوكلاء المتعددين قبل نقل هذه السياسات إلى العالم الحقيقي. تُصوّر DeepMind Genie 3 صراحةً كأداة لتسريع البحث في الوكلاء الذين يتعلمون من خلال التفاعل مع البيئات، مما قد يُختصر الحلقة بين المحاكاة والنشر في العالم الحقيقي. وقد أشارت التغطية الإعلامية مرارًا وتكرارًا إلى روبوتات المستودعات، والخدمات اللوجستية، وغيرها من التطبيقات الصناعية حيث يُمكن للكميات الكبيرة من الخبرة الاصطناعية أن تُقلل من الحاجة إلى تجارب واقعية باهظة الثمن.

إلى جانب الروبوتات، ستستفيد الصناعات الإبداعية - الألعاب، والواقع الافتراضي/الواقع المعزز، وتصوير الأفلام، والتعليم - من هذا الوضع. تخيّل مصمم ألعاب يرسم مشهدًا بلغة طبيعية، ثم يدخل فورًا في نموذج أولي قابل للعب، أو مُعلّمًا يُنشئ بيئة تاريخية غامرة ليستكشفها الطلاب. هذه الإمكانيات تُثير بالفعل حماسًا في مجتمعات الألعاب والواقع المعزز.

السلامة والمسؤولية والحوكمة - تسليط الضوء الضروري

يتضمن إعلان ديب مايند بندًا للمسؤولية: يُقرّ الفريق بالمخاطر التي تنشأ عند قدرة النماذج على توليد عوالم افتراضية مُقنعة. تتراوح هذه المخاطر بين سوء الاستخدام (مثل بيئات التزييف العميق أو عمليات المحاكاة المُزيّفة بشكل مُقنع) وفشل السلامة في التطبيقات اللاحقة (مثل الإفراط في الثقة بنتائج التدريب المُحاكي في الأنظمة الروبوتية الحيوية). تُصرّح ديب مايند بأنها ستواصل البحث في سبل التخفيف من هذه المخاطر - بما في ذلك أطر التقييم، وتشكيل فرق عمل مُتخصصة، وإطلاق برامج محدودة مع الشركاء - وستكون الضمانات الإجرائية، والشفافية بشأن القيود، والتقييم الدقيق، أمورًا أساسية مع انتشار نماذج العالم.

المجهولات التقنية والأسئلة العالقة

مدونة DeepMind وموادها الصحفية رفيعة المستوى بالضرورة؛ فهم يتجنبون عمدًا نشر التفاصيل المعمارية الكاملة، أو مجموعات بيانات التدريب، أو إحصاءات معلمات النموذج. تبقى الأسئلة التقنية المهمة مفتوحة أمام مجتمع البحث العلمي:

كيف يتم تحقيق الاتساق على المدى الطويل؟ تتم مناقشة الآليات التي يحافظ بها Genie 3 على ثبات الكائن على مدار الدقائق (وحدات الذاكرة، والمخازن المؤقتة المتقطعة، والرسم الصريح) من الناحية المفاهيمية بواسطة DeepMind، ولكن التفاصيل الفنية القابلة للتكرار والمعايير ستكون مهمة للتحقق.
ما مدى نجاح نقلها إلى الروبوتات؟ إن نقل المحاكاة إلى الواقع أمر صعب للغاية؛ لذا فإن التأكد من أن الفيزياء والديناميكيات المحاكاة في Genie 3 "قريبة بما يكفي" لنقل السياسات إلى الأجهزة الحقيقية يتطلب التحقق التجريبي.
ما هي أوضاع الفشل؟ قد يُوهم النموذج الجغرافيا، أو يُخطئ في التنبؤ بالفيزياء، أو ينحرف بطرق خفية وخطيرة إذا لم يُؤخذ في الاعتبار. ستكون هناك حاجة إلى مجموعات تقييم قوية وعمليات تدقيق مستقلة.

إن الإجابة على هذه الأسئلة سوف تحدد مدى سرعة انتقال Genie 3 من العروض البحثية إلى الأدوات العملية للصناعة.

التأثيرات الصناعية: الألعاب وإنشاء المحتوى والمنصات السحابية

إذا تم توسيع نطاق قدرات Genie 3 وأصبحت متاحة ضمن واجهات برمجة التطبيقات للمطورين أو الخدمات السحابية، فإن التأثيرات التجارية ستكون واسعة النطاق:

تطوير اللعبة: يمكن للنمذجة السريعة وتوليد المحتوى أن يُقلّصا دورات التطوير؛ ويمكن إعداد المحتوى الإجرائي باستخدام اللغة الطبيعية، ثم يُحسّنه مصممون بشريون. وتشير التعليقات المبكرة في صحافة الألعاب ومدونات الواقع المعزز إلى أن هذه الأدوات قد تُغيّر طريقة بناء الفرق الصغيرة والمطورين المستقلين للعوالم.
الإنتاج والإعلام الافتراضي: يمكن لصناع الأفلام وفناني المؤثرات البصرية استخدام إنشاء المشهد التفاعلي للتصور المسبق، ورسم القصة المصورة، وحتى كمساعد إبداعي في إنتاج بيئات خلفية أو إضافات افتراضية.
الطلب على السحابة والحوسبة: إن النمذجة العالمية التفاعلية في الوقت الفعلي على نطاق واسع سوف تتطلب بنية تحتية ضخمة للخدمة؛ وقد يرى مزودو الخدمات السحابية وبائعو وحدات معالجة الرسومات طلبًا على أنواع مجموعات الاستدلال منخفضة الكمون التي تدعم إنشاء معدلات إطارات عالية.

تتضمن حالات الاستخدام هذه نماذج جديدة للمنتجات والتسعير - من واجهات برمجة التطبيقات للمطورين الذين يدفعون مقابل اللعب إلى عقود محاكاة المؤسسات للروبوتات والخدمات اللوجستية.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

كوميت ايه بي اي يعد بمتابعة أحدث ديناميكيات النماذج، بما في ذلك Genie 3، الذي سيصدر بالتزامن مع الإصدار الرسمي. ترقبوه وتابعوا CometAPI. أثناء الانتظار، يمكنكم متابعة نماذج أخرى واستكشاف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. يمكن للمطورين الوصول إلى GPT-5 ،GPT-5 Nano وGPT-5 Mini من خلال كوميت ايه بي ايأحدث نماذج CometAPI المدرجة هي تلك المُدرجة بتاريخ نشر المقال. قبل الوصول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API.

ملاحظة ختامية

يُذكرنا جيني 3 بأن قصة الذكاء الاصطناعي التوليدي آخذة في الاتساع: فنحن لم نعد نُؤتمت النصوص والصور فحسب، بل نُدرّب أنظمةً قادرة على تخيّل عوالم كاملة، وعرضها، وصيانتها. ويُمثّل إعلان ديب مايند نقطة تحول مهمة في هذه الرحلة، رحلة تجمع بين الفرص والمسؤولية على قدم المساواة. وبينما يُطوّر الباحثون والممارسون هذه النماذج، ستُحدّد الشفافية، والتحقق الدقيق، والحوكمة ما إذا كانت العوالم المُحاكاة ستصبح مختبرات آمنة للابتكار أم مصادر لمخاطر مجتمعية جديدة.

Genie 3 هو دليل مذهل على أن الذكاء الاصطناعي التوليدي يتجه إلى عالم عوالم تفاعلية ومستمرةيُمثل الجمع بين العرض الفوري، والاتساق في عدة دقائق، والأحداث القابلة للتوجيه، تقدمًا ملموسًا في نمذجة العالم، وتطبيقاته في أبحاث الروبوتات، والألعاب، والإنتاج الافتراضي واضحة تمامًا. باختصار: لقد وصلنا إلى آفاق جديدة في نمذجة العالم - وسيُشكل مسار هذا التقدم إلى المنتجات اليومية من خلال الهندسة والحوكمة والتحقق الدقيق.