في 20 مايو 2025، كشفت شركة Google DeepMind بهدوء انتشار الجوزاء، وهو نموذج تجريبي لنشر النصوص يَعِد بإعادة صياغة مشهد الذكاء الاصطناعي التوليدي. عُرض هذا النموذج البحثي المتطور خلال مؤتمر جوجل للمطورين 2025، وهو يستفيد من تقنيات النشر - التي كانت شائعة سابقًا في توليد الصور والفيديو - لإنتاج نصوص ورموز متماسكة من خلال تحسين الضوضاء العشوائية بشكل متكرر. تشير المعايير الأولية إلى أنه ينافس، وفي بعض الحالات يتفوق، على نماذج جوجل الحالية القائمة على المحولات من حيث السرعة والجودة.
ما هو انتشار الجوزاء؟
كيف يتم تطبيق الانتشار على توليد النصوص والرموز؟
تعتمد نماذج اللغات الكبيرة التقليدية (LLMs) على هياكل الانحدار الذاتي، حيث تُولّد محتوىً واحدًا تلو الآخر من خلال التنبؤ بالكلمة التالية بناءً على جميع المخرجات السابقة. في المقابل، انتشار الجوزاء يبدأ بحقل من "الضوضاء" العشوائية، ويُحسّن هذه الضوضاء بشكل متكرر إلى نص متماسك أو شيفرة قابلة للتنفيذ من خلال سلسلة من خطوات إزالة الضوضاء. يعكس هذا النموذج طريقة إنشاء نماذج الانتشار مثل Imagen وStable Diffusion للصور، ولكنها المرة الأولى التي يُطبّق فيها هذا النهج لتوليد النصوص بسرعات تُضاهي سرعات الإنتاج.
لماذا يُعد "تحويل الضوضاء إلى سرد" أمرًا مهمًا؟
تخيّل التشويش على شاشة التلفزيون في غياب الإشارة - ومضات عشوائية بلا شكل. في الذكاء الاصطناعي القائم على الانتشار، يُشكّل هذا التشويش نقطة البداية؛ إذ يُنحت النموذج المعنى من الفوضى، مُرسِخًا تدريجيًا البنية والدلالات. تتيح هذه الرؤية الشاملة في كل مرحلة من مراحل التحسين تصحيحًا ذاتيًا متأصلًا، مُخففةً من مشكلات مثل عدم الاتساق أو "الهلوسة" التي قد تُصيب نماذج الرموز.
الابتكارات والقدرات الرئيسية
- الجيل المتسارع:يمكن لـ Gemini Diffusion إنتاج كتل كاملة من النص في وقت واحد، مما يقلل بشكل كبير من زمن الوصول مقارنة بطرق توليد الرمز تلو الآخر. ()
- تعزيز التماسك:من خلال إنشاء أجزاء نصية أكبر مرة واحدة، يحقق النموذج اتساقًا سياقيًا أكبر، مما يؤدي إلى مخرجات أكثر تماسكًا وهيكلًا منطقيًا. ()
- صقل متكرر:تسمح بنية النموذج بتصحيح الأخطاء في الوقت الفعلي أثناء عملية التوليد، مما يؤدي إلى تحسين دقة وجودة الناتج النهائي. ()
لماذا قامت جوجل بتطوير Gemini Diffusion؟
معالجة مشاكل السرعة والزمن الكامن
رغم قوة نماذج الانحدار الذاتي، إلا أنها تواجه قيودًا جوهرية على السرعة: فكل رمز يعتمد على السياق السابق، مما يُنشئ اختناقًا تسلسليًا. يُعطل انتشار جيميني هذا القيد بتمكين التحسين المتوازي في جميع المواضع، مما يؤدي إلى: توليد أسرع من البداية إلى النهاية بمقدار 4 إلى 5 مرات مقارنةً بنظيراتها الانحدارية الذاتية ذات الحجم المماثل. يمكن أن يُترجم هذا التسارع إلى زمن وصول أقل للتطبيقات الفورية، من برامج الدردشة الآلية إلى مساعدي البرمجة.
ريادة مسارات جديدة للذكاء الاصطناعي العام
إلى جانب السرعة، تتوافق الرؤية الشاملة التكرارية لتقنية الانتشار مع القدرات الأساسية للذكاء الاصطناعي العام (AGI): التفكير، ونمذجة العالم، والتوليف الإبداعي. تتصور قيادة جوجل ديب مايند تقنية جيميني ديفيشن كجزء من استراتيجية أوسع لبناء أنظمة ذكاء اصطناعي أكثر وعيًا بالسياق وأكثر استباقية، قادرة على العمل بسلاسة عبر البيئات الرقمية والمادية.
كيف يعمل Gemini Diffusion تحت الغطاء؟
حلقة حقن الضوضاء وإزالة الضوضاء
- التهيئة:يبدأ النموذج بموتر ضوضاء عشوائي.
- خطوات إزالة الضوضاء:في كل تكرار، تتنبأ الشبكة العصبية بكيفية تقليل الضوضاء بشكل طفيف، مسترشدة بأنماط اللغة أو الكود المكتسبة.
- التنقيح:تتقارب الخطوات المتكررة نحو إخراج متماسك، حيث تسمح كل خطوة بتصحيح الأخطاء عبر السياق الكامل بدلاً من الاعتماد فقط على الرموز السابقة.
الابتكارات المعمارية
- تماثل:من خلال فصل تبعيات الرمز، يعمل الانتشار على تمكين التحديثات المتزامنة، مما يؤدي إلى تعظيم الاستفادة من الأجهزة.
- كفاءة المعلمة:تظهر المعايير المبكرة أداءً على قدم المساواة مع نماذج الانحدار التلقائي الأكبر حجمًا على الرغم من البنية الأكثر إحكاما.
- تصحيح الذات:تدعم الطبيعة التكرارية بطبيعتها التعديلات التي تتم في منتصف الجيل، وهو أمر بالغ الأهمية للمهام المعقدة مثل تصحيح أخطاء التعليمات البرمجية أو المشتقات الرياضية.
ما هي المعايير التي تثبت أداء Gemini Diffusion؟
سرعة أخذ العينات الرمزية
تشير تقارير الاختبارات الداخلية لشركة Google إلى متوسط معدل أخذ العينات 1,479 رمزًا في الثانية، قفزة هائلة مقارنةً بنماذج Gemini Flash السابقة، وإن كان متوسط تكلفة بدء التشغيل 0.84 ثانية لكل طلب. يُبرز هذا المقياس قدرة الانتشار على تلبية التطبيقات عالية الإنتاجية.
تقييمات الترميز والاستدلال
- HumanEval (ترميز):نسبة النجاح 89.6%، وهي قريبة من نسبة النجاح في Gemini 2.0 Flash-Lite البالغة 90.2%.
- MBPP (الترميز): 76.0%، مقابل 75.8% لـ Flash-Lite.
- BIG-Bench Extra Hard (استدلال): 15.0%، أقل من 21.0% لـ Flash-Lite.
- جامعة MMLU العالمية (متعددة اللغات): 69.1%، مقارنة بـ 79.0% لـ Flash-Lite.
تكشف هذه النتائج المختلطة عن قدرة استثنائية للانتشار على أداء المهام التكرارية والموضعية (على سبيل المثال، الترميز) وتسلط الضوء على مجالات - التفكير المنطقي المعقد والفهم المتعدد اللغات - حيث تظل التحسينات المعمارية ضرورية.
كيف تتم مقارنة Gemini Diffusion مع نماذج Gemini السابقة؟
فلاش لايت مقابل برو مقابل ديفيشون
- جيميني 2.5 فلاش لايت يقدم استنتاجًا فعالاً من حيث التكلفة ومُحسَّنًا من حيث زمن الوصول للمهام العامة.
- الجوزاء 2.5 برو يركز على التفكير العميق والترميز، ويتميز بوضع "التفكير العميق" لتحليل المشكلات المعقدة.
- انتشار الجوزاء تتخصص في توليد النتائج السريعة والتصحيح الذاتي، وتضع نفسها كنهج تكميلي وليس بديلاً مباشرًا.
نقاط القوة والضعف
- نقاط القوة:السرعة، وإمكانيات التحرير، وكفاءة المعلمات، والأداء القوي في مهام التعليمات البرمجية.
- القيود:أداء أضعف في التفكير المجرد ومعايير التعدد اللغوي؛ بصمة ذاكرة أكبر بسبب عمليات إزالة الضوضاء المتعددة؛ نضج النظام البيئي متأخر عن الأدوات الانحدارية التلقائية.
كيف يمكنك الوصول إلى Gemini Diffusion؟
الانضمام إلى برنامج الوصول المبكر
فتحت جوجل قائمة الانتظار للعرض التجريبي لتقنية Gemini Diffusion، يمكن للمطورين والباحثين التسجيل عبر مدونة Google DeepMind. يهدف الوصول المبكر إلى جمع الملاحظات، وتحسين بروتوكولات السلامة، وتحسين زمن الوصول قبل إطلاقها على نطاق أوسع.
التوفر والتكامل المستقبلي
في حين لم يتم الإعلان عن تاريخ الإصدار الثابت، تلمح Google إلى توافر العام متوافق مع تحديث Gemini 2.5 Flash-Lite القادم. تشمل مسارات التكامل المتوقعة ما يلي:
- استوديو جوجل للذكاء الاصطناعي للتجربة التفاعلية.
- الجوزاء API لنشر سلس في خطوط الإنتاج.
- منصات الطرف الثالث (على سبيل المثال، Hugging Face) استضافة نقاط تفتيش تم إصدارها مسبقًا للبحث الأكاديمي والمعايير التي يقودها المجتمع.
بإعادة تصور توليد النصوص والرموز من خلال منظور الانتشار، تُرسي جوجل ديب مايند لنفسها مكانة في الفصل التالي من ابتكارات الذكاء الاصطناعي. سواءً أكانت جيميني ديفيشن تُرسي معيارًا جديدًا أم تُواكب عمالقة الانحدار التلقائي، فإن مزيجها من السرعة والقدرة على التصحيح الذاتي يَعِد بإعادة تشكيل كيفية بناء أنظمة الذكاء الاصطناعي التوليدية وتحسينها والثقة بها.
كيف تبدأ
يوفر CometAPI واجهة REST موحدة تجمع مئات نماذج الذكاء الاصطناعي، بما في ذلك عائلة Gemini، ضمن نقطة نهاية موحدة، مع إدارة مدمجة لمفاتيح واجهة برمجة التطبيقات، وحصص الاستخدام، ولوحات معلومات الفواتير. بدلاً من إدارة عناوين URL وبيانات اعتماد متعددة للموردين.
يمكن للمطورين الوصول واجهة برمجة تطبيقات Gemini 2.5 Flash Pre (نموذج:gemini-2.5-flash-preview-05-20) و واجهة برمجة تطبيقات Gemini 2.5 Pro (نموذج:gemini-2.5-pro-preview-05-06)إلخ من خلال كوميت ايه بي اي. للبدء، استكشف قدرات النموذج في ساحة اللعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API.
