أحدث تقنيات الذكاء الاصطناعي على الأجهزة من Google، جيما 3نيمثل Gemma 2025n نقلة نوعية في جعل النماذج التوليدية الحديثة أكثر تكاملاً وكفاءةً وحفاظاً على الخصوصية. أُطلقت Gemma 3n كنسخة تجريبية في مؤتمر Google I/O أواخر مايو XNUMX، وهي تُثير حماس المطورين والباحثين لأنها تُتيح قدرات ذكاء اصطناعي متعدد الوسائط مُتقدمة مباشرةً للأجهزة المحمولة والأجهزة الطرفية. تُلخص هذه المقالة أحدث الإعلانات، ورؤى المطورين، والمعايير المستقلة.
ما هو جيما 3ن؟
Gemma 3n هو أحدث عضو في عائلة Gemma من نماذج الذكاء الاصطناعي التوليدية من Google، والمصممة خصيصًا لـ على الجهاز الاستدلال على الأجهزة محدودة الموارد، مثل الهواتف الذكية والأجهزة اللوحية والأنظمة المدمجة. على عكس سابقاتها - Gemma 3 والإصدارات السابقة، والتي صُممت بشكل أساسي للاستخدام السحابي أو استخدام وحدة معالجة رسومية واحدة - تُعطي بنية Gemma 3n الأولوية لـ منخفض الكمون, تقليل حجم الذاكرةو استخدام الموارد الديناميكي، مما يتيح للمستخدمين تشغيل ميزات الذكاء الاصطناعي المتقدمة دون الحاجة إلى اتصال دائم بالإنترنت.
لماذا "3ن"؟
يشير الحرف "n" في Gemma 3n إلى "متداخلة"، مما يعكس استخدام النموذج لـ ماتريوشكا ترانسفورمرز (أو مات فورمر) هندسة معمارية. يُدمج هذا التصميم نماذج فرعية أصغر داخل نموذج أكبر، على غرار دمى التعشيش الروسية، مما يسمح بتنشيط المكونات المطلوبة فقط لمهمة معينة بشكل انتقائي. بهذا، يُمكن لـ Gemma 3n تقليل استهلاك الحوسبة والطاقة بشكل كبير مقارنةً بالنماذج التي تُفعّل جميع المعلمات عند كل طلب.
إصدار المعاينة والنظام البيئي
فتحت جوجل معاينة جيما 3n في مؤتمر I/O، أصبح متاحًا عبر Google AI Studio، وGoogle GenAI SDK، وعلى منصات مثل Hugging Face بموجب ترخيص معاينة. مع أن الأوزان ليست مفتوحة المصدر بالكامل بعد، إلا أنه يمكن للمطورين تجربة متغيرات مُعدّلة للتعليمات داخل المتصفح أو دمجها في نماذج أولية عبر واجهات برمجة التطبيقات التي تعمل Google على توسيعها بسرعة.
كيف يعمل Gemma 3n؟
يُعد فهم آليات Gemma 3n أمرًا بالغ الأهمية لتقييم مدى ملاءمتها للتطبيقات على الأجهزة. نستعرض هنا ابتكاراتها التقنية الأساسية الثلاثة.
هندسة محولات الماتريوشكا (MatFormer).
في قلب Gemma 3n يكمن مات فورمر، وهو نوع من المحولات يتكون من النماذج الفرعية المتداخلة بأحجام مختلفة. بالنسبة للمهام البسيطة، مثل توليد النصوص بمطالبات قصيرة، يتم تنشيط أصغر نموذج فرعي فقط، مما يستهلك الحد الأدنى من وحدة المعالجة المركزية والذاكرة والطاقة. أما بالنسبة للمهام الأكثر تعقيدًا، مثل توليد الشيفرة أو التفكير متعدد الوسائط، فيتم تحميل النماذج الفرعية "الخارجية" الأكبر حجمًا ديناميكيًا. هذه المرونة تجعل Gemma 3n التكيف مع الحوسبة، قياس استخدام الموارد حسب الطلب.
التخزين المؤقت للتضمين لكل طبقة (PLE)
للحفاظ على الذاكرة بشكل أكبر، تستخدم Gemma 3n تخزين PLE المؤقت، تفريغ تضمينات الطبقة الواحدة النادرة الاستخدام إلى وحدة تخزين خارجية سريعة أو مخصصة. بدلاً من تخزينها بشكل دائم في ذاكرة الوصول العشوائي (RAM)، يتم تخزين هذه المعلمات تم جلبها على الطاير أثناء الاستدلال فقط عند الحاجة. يقلل تخزين PLE المؤقت من بصمة الذاكرة القصوى بنسبة تصل إلى 40% مقارنةً بالتضمينات المحملة دائمًا، وفقًا للاختبارات المبكرة.
تحميل المعلمات الشرطية
إلى جانب التخزين المؤقت لـ MatFormer وPLE، يدعم Gemma 3n تحميل المعلمات الشرطيةيمكن للمطورين تحديد الوسائط (النص، الرؤية، الصوت) التي يتطلبها تطبيقهم مسبقًا؛ ثم Gemma 3n يتخطى التحميل أوزان خاصة بالوسائط غير المستخدمة، مما يُقلل استخدام ذاكرة الوصول العشوائي (RAM) بشكل أكبر. على سبيل المثال، يُمكن لروبوت الدردشة النصية فقط استبعاد معلمات الرؤية والصوت تمامًا، مما يُبسط أوقات التحميل ويُقلل حجم التطبيق.
ماذا تظهر معايير الأداء؟
تسلط المعايير المبكرة الضوء على التوازن المذهل بين السرعة والكفاءة والدقة في Gemma 3n.
مقارنات وحدة معالجة الرسومات الفردية
على الرغم من أن Gemma 3n مصمم لأجهزة الحافة، إلا أنه لا يزال يُقدم أداءً تنافسيًا على وحدة معالجة رسومية واحدة. أفاد موقع The Verge أن Gemma 3 (قرينه الأكبر) تفوق على الطرز الرائدة مثل LLaMA وGPT في إعدادات وحدة معالجة الرسوميات الواحدة، مما يُظهر براعة جوجل الهندسية في اختبارات الكفاءة والسلامة. وشكفي حين أن التقارير الفنية الكاملة لـ Gemma 3n قادمة قريبًا، تشير الاختبارات الأولية إلى مكاسب في الإنتاجية تبلغ 20-30٪ مقابل Gemma 3 على الأجهزة المماثلة.
نتائج Chatbot Arena
تشير التقييمات المستقلة على منصات مثل Chatbot Arena إلى متغير Gemma 3n's 4 B-parameter يتفوق GPT-4.1 Nano في مهام متنوعة، بما في ذلك التفكير الرياضي وجودة المحادثة. أشار مساعد محرر KDnuggets إلى قدرة Gemma 3n على الحفاظ على حوارات متماسكة وغنية بالسياق مع 1.5 × درجات ELO أفضل من سابقتها، مع خفض زمن الاستجابة إلى النصف تقريبًا.
معدل نقل البيانات وزمن الوصول على الجهاز
في الهواتف الذكية الرائدة الحديثة (على سبيل المثال، Snapdragon 8 Gen 3، Apple A17)، يحقق Gemma 3n 5-10 رموز/ثانية على الاستدلال على وحدة المعالجة المركزية فقط، والتوسع إلى 20-30 رموز/ثانية عند استخدام وحدات المعالجة العصبية (NPU) أو معالجات الإشارات الرقمية (DSPs) على الجهاز، يبلغ استخدام الذاكرة ذروته عند 2 جيجا بايت من ذاكرة الوصول العشوائي (RAM) أثناء المهام المتعددة الوسائط المعقدة، مما يتناسب بشكل مريح مع معظم ميزانيات الأجهزة المحمولة المتطورة.
ما هي الميزات التي يقدمها Gemma 3n؟
تتجاوز مجموعة ميزات Gemma 3n الأداء الخام إلى حد كبير، مع التركيز على إمكانية التطبيق في العالم الحقيقي.
فهم متعدد الوسائط
- نص:دعم كامل لإنشاء النصوص الموجهة وفقًا للتعليمات، والتلخيص، والترجمة، وتوليد التعليمات البرمجية.
- الرؤية:تحليل الصور وإضافة التعليقات التوضيحية إليها، مع دعم المدخلات غير المربعة وعالية الدقة.
- Audio:التعرف التلقائي على الكلام (ASR) على الجهاز وترجمة الكلام إلى نص عبر أكثر من 140 لغة.
- فيديو (قريبا):أشارت Google إلى دعم قادم لمعالجة إدخال الفيديو في تحديثات Gemma 3n المستقبلية.
الخصوصية أولاً وجاهزة للاستخدام دون اتصال بالإنترنت
من خلال التشغيل بالكامل على الجهاز، يضمن Gemma 3n البيانات لا تترك أجهزة المستخدم أبدًا، مما يُعالج مخاوف الخصوصية المتزايدة. كما أن جاهزية التطبيقات للعمل دون اتصال بالإنترنت تعني بقاء التطبيقات تعمل في بيئات الاتصال الضعيفة، وهو أمر بالغ الأهمية للعمل الميداني والسفر وتطبيقات المؤسسات الآمنة.
استخدام الموارد الديناميكي
- تنشيط النموذج الفرعي الانتقائي عبر MatFormer
- تحميل المعلمات الشرطية لحذف أوزان الوسائط غير المستخدمة
- تخزين PLE المؤقت لتفريغ التضمينات
تعمل هذه الميزات مجتمعة على تمكين المطورين من تخصيص ملف تعريف الموارد الخاص بهم لتلبية احتياجاتهم الدقيقة - سواء كان ذلك يعني الحد الأدنى من المساحة للتطبيقات الحساسة للبطارية أو نشر الميزات الكاملة لمهام الوسائط المتعددة.
التميز متعدد اللغات
يمتد نطاق تدريب Gemma 3n على 140 لغة منطوقةمع تسجيل أداء قوي بشكل خاص في الأسواق ذات التأثير العالي مثل الأسواق اليابانية والكورية والألمانية والإسبانية. تشير الاختبارات الأولية إلى 2 × تحسينات الدقة في المهام غير الإنجليزية مقارنة بالنماذج السابقة على الجهاز.
السلامة وتصفية المحتوى
يتضمن Gemma 3n مُصنِّفًا مدمجًا لسلامة الصور (يشبه ShieldGemma 2) لتصفية المحتوى الصريح أو العنيف. يضمن تصميم جوجل المُركِّز على الخصوصية تشغيل هذه المُرشِّحات محليًا، مما يمنح المُطوِّرين ثقةً في أن المحتوى الذي يُنشئه المستخدمون يبقى متوافقًا مع المعايير دون الحاجة إلى استدعاءات خارجية لواجهات برمجة التطبيقات.
ما هي حالات الاستخدام النموذجية لـ Gemma 3n؟
من خلال الجمع بين براعة الوسائط المتعددة والكفاءة على الجهاز، يفتح Gemma 3n المجال لتطبيقات جديدة عبر الصناعات.
ما هي التطبيقات الاستهلاكية التي تستفيد أكثر؟
- المساعدون المدعمون بالكاميرات:وصف المشهد في الوقت الفعلي أو ترجمته مباشرة على الجهاز، دون تأخير في السحابة.
- واجهات الصوت أولاً:مساعدون كلاميون خاصون وغير متصلين بالإنترنت في السيارات أو أجهزة المنزل الذكية.
- الحقيقة المدمجة (AR):التعرف المباشر على الكائنات وتراكب التسمية التوضيحية على نظارات الواقع المعزز.
كيف يتم استخدام Gemma 3n في سيناريوهات المؤسسات؟
- التفتيش الميداني:أدوات التفتيش غير المتصلة بالإنترنت للمرافق والبنية الأساسية، والاستفادة من التفكير بالنص والصورة على الأجهزة المحمولة.
- معالجة المستندات بشكل آمن:الذكاء الاصطناعي المحلي لتحليل المستندات الحساسة في القطاعات المالية أو الرعاية الصحية، مما يضمن عدم خروج البيانات من الجهاز أبدًا.
- دعم متعدد اللغات:ترجمة فورية وتلخيص الاتصالات الدولية في الوقت الحقيقي.
ما هي القيود والاعتبارات؟
ورغم أن هذا يمثل خطوة كبيرة إلى الأمام، ينبغي للمطورين أن يكونوا على دراية بالقيود الحالية.
ما هي التنازلات الموجودة؟
- الجودة مقابل السرعة:توفر النماذج الفرعية ذات المعلمات المنخفضة استجابة أسرع ولكنها تقلل من دقة الإخراج قليلاً؛ ويعتمد اختيار المزيج المناسب على احتياجات التطبيق.
- إدارة نافذة السياقعلى الرغم من أن 128 ألف رمز يعد عددًا كبيرًا، إلا أن التطبيقات التي تتطلب حوارات أطول أو معالجة مكثفة للمستندات قد تتطلب نماذج تعتمد على السحابة.
- توافق الأجهزة:قد تواجه الأجهزة القديمة التي تفتقر إلى وحدات المعالجة العصبية أو وحدات معالجة الرسومات الحديثة استدلالًا أبطأ، مما يحد من حالات الاستخدام في الوقت الفعلي.
ماذا عن الذكاء الاصطناعي المسؤول؟
يأتي إصدار Google مصحوبًا ببطاقات نموذجية توضح تقييمات التحيز، وتخفيف المخاطر المتعلقة بالسلامة، وإرشادات الاستخدام الموصى بها لتقليل الضرر وضمان النشر الأخلاقي.
الخاتمة
جيما 3ن تبشر بعصر جديد في الذكاء الاصطناعي التوليدي على الجهاز، يجمع بين ابتكارات المحولات المتطورة وتحسينات النشر في العالم الحقيقي. مات فورمر هندسة معمارية، تخزين PLE المؤقتو تحميل المعلمات الشرطية أطلق العنان لاستنتاجات عالية الجودة على مختلف الأجهزة، من الهواتف الرائدة إلى أجهزة الحافة المدمجة. بفضل إمكانياتها المتعددة الوسائط، وحماية الخصوصية القوية، ومعاييرها الأولية القوية، بالإضافة إلى سهولة الوصول عبر Google AI Studio وحزم تطوير البرامج (SDKs) وHugging Face، تدعو Gemma 3n المطورين إلى إعادة تصور تجارب الذكاء الاصطناعي أينما كان المستخدمون.
سواءً كنت تُنشئ مساعدًا لغويًا مُجهّزًا للسفر، أو أداةً لتعليق الصور دون اتصال بالإنترنت، أو روبوت دردشة خاصًا بمؤسستك، فإن Gemma 3n يُقدّم لك الأداء والمرونة اللازمين دون المساس بالخصوصية. مع استمرار جوجل في توسيع برنامج المعاينة وإضافة ميزات مثل فهم الفيديو، حان الوقت لاستكشاف إمكانات Gemma 3n في مشروعك القادم في مجال الذكاء الاصطناعي.
كيف تبدأ
يوفر CometAPI واجهة REST موحدة تجمع مئات نماذج الذكاء الاصطناعي، بما في ذلك عائلة Gemini، ضمن نقطة نهاية موحدة، مع إدارة مدمجة لمفاتيح واجهة برمجة التطبيقات، وحصص الاستخدام، ولوحات معلومات الفواتير. بدلاً من إدارة عناوين URL وبيانات اعتماد متعددة للموردين.
يمكن للمطورين الوصول واجهة برمجة تطبيقات Gemini 2.5 Flash Pre (نموذج:gemini-2.5-flash-preview-05-20) و واجهة برمجة تطبيقات Gemini 2.5 Pro (نموذج:gemini-2.5-pro-preview-05-06)إلخ من خلال كوميت ايه بي اي. للبدء، استكشف قدرات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API.
