Gemini 3 Pro (Preview) هو أحدث نموذج رئيسي متعدد الوسائط للاستدلال من Google/DeepMind ضمن عائلة Gemini 3. يُقدَّم بوصفه "أذكى نماذجهم حتى الآن"، ومُصمَّم للاستدلال العميق، وسير عمل وكيلية، والبرمجة المتقدمة، وفهم متعدد الوسائط بسياقات طويلة (نص، صور، صوت، فيديو، كود وتكاملات الأدوات).
الميزات الرئيسية
- الأنماط: نص، صورة، فيديو، صوت، ملفات PDF (ومخرجات أدوات مُنظَّمة).
- الوكلاء/الأدوات: استدعاء الدوال المدمج، البحث كأداة، تنفيذ الكود، سياق URL، ودعم تنسيق وكلاء متعدد الخطوات. آلية Thought-signature تحفظ الاستدلال متعدد الخطوات عبر الاستدعاءات.
- البرمجة و“vibe coding”: مُحسَّن لتوليد الواجهات الأمامية، وإنشاء واجهات مستخدم تفاعلية، والبرمجة الوكيلية (يتصدر القوائم ذات الصلة وفقًا لما أبلغت عنه Google). يتم تسويقه كأقوى نموذج لديهم لـ“vibe-coding” حتى الآن.
- عناصر تحكم جديدة للمطورين:
thinking_level(low|high) لموازنة التكلفة/الزمن مقابل عمق الاستدلال، وmedia_resolutionللتحكم بجودة الوسائط لكل صورة أو إطار فيديو. تساعد هذه العناصر في تحقيق توازن بين الأداء وزمن الاستجابة والتكلفة.
أداء الاختبارات القياسية
- حقق Gemini3Pro المركز الأول في LMARE بدرجة 1501، متجاوزًا Grok-4.1-thinking بدرجة 1484، ومتقدمًا أيضًا على Claude Sonnet 4.5 وOpus 4.1.
- كما حقق المركز الأول في ساحة البرمجة WebDevArena بدرجة 1487.
- في اختبار Humanity’s Last Exam للاستدلال الأكاديمي، حقق 37.5% (بدون أدوات)؛ وفي GPQA Diamond للعلوم، 91.9%؛ وفي مسابقة الرياضيات MathArena Apex، 23.4%، مُسجِّلاً رقمًا قياسيًا جديدًا.
- في القدرات متعددة الوسائط، حقق MMMU-Pro نسبة 81%؛ وفي Video-MMMU لفهم الفيديو، 87.6%.

التفاصيل التقنية والبنية
- معامل “Thinking level”: يوفّر Gemini 3 عنصر التحكم
thinking_levelالذي يسمح للمطورين بالمفاضلة بين عمق الاستدلال الداخلي وزمن الاستجابة/التكلفة. يتعامل النموذج معthinking_levelكإتاحة نسبية للاستدلال متعدد الخطوات داخليًا وليس كضمان صارم لعدد الرموز. الإعداد الافتراضي عادةً يكونhighلإصدار Pro. هذا عنصر تحكم جديد وصريح لضبط التخطيط متعدد الخطوات وعمق سلسلة الاستدلال. - المخرجات المُنظَّمة والأدوات: يدعم النموذج مخرجات JSON مُنظَّمة ويمكن دمجه مع أدوات مدمجة (إسناد إلى Google Search، سياق URL، تنفيذ الكود، إلخ). بعض ميزات المخرجات المُنظَّمة+الأدوات متاحة بوضع المعاينة فقط مع
gemini-3-pro-preview. - تكاملات متعددة الوسائط ووكلائية: صُمِّم Gemini 3 Pro صراحةً لسير العمل الوكيلي (أدوات + عدة وكلاء عبر الكود/المحطات/المتصفح).
القيود والمحاذير المعروفة
- ليست مثالية من حيث الحقائقيّة — ما زالت الهلوسات ممكنة. رغم التحسينات القوية في الحقائقيّة وفقًا لـGoogle، تبقى المراجعة المؤسَّسة على مصادر والتحقق البشري ضرورية في السياقات عالية المخاطر (القانونية، الطبية، المالية).
- أداء السياقات الطويلة يتفاوت حسب المهمة. دعم نافذة إدخال بحجم 1M هو قدرة ثابتة، لكن الفعالية التجريبية قد تنخفض في بعض المعايير عند الأطوال القصوى (لوحظت انخفاضات موضعية عند 1M في بعض اختبارات السياق الطويل).
- مفاضلات التكلفة وزمن الاستجابة. السياقات الكبيرة وإعدادات
thinking_levelالأعلى تزيد الحساب، وزمن الاستجابة، والتكلفة؛ تُطبَّق مستويات تسعير بحسب حجم الرموز. استخدمthinking_levelواستراتيجيات التجزئة لإدارة التكاليف. - السلامة ومرشحات المحتوى. تواصل Google تطبيق سياسات السلامة وطبقات المراقبة؛ بعض المحتوى والإجراءات ستظل مقيدة أو قد تُفعّل أوضاع الرفض.
كيف يقارن Gemini 3 Pro Preview مع النماذج الكبرى الأخرى
مقارنة عالية المستوى (المعاينة → نوعية):
مقارنة بـ Gemini 2.5 Pro: قفزة ملحوظة في الاستدلال، استخدام الأدوات الوكيلية، والتكامل متعدد الوسائط؛ تعامل أفضل مع سياقات أوسع وفهم محسّن للنصوص الطويلة. تُظهر DeepMind مكاسب متسقة عبر الاستدلال الأكاديمي، والبرمجة، والمهام متعددة الوسائط.
مقارنة بـ GPT-5.1 وClaude Sonnet 4.5 (بحسب التقارير): ضمن مجموعة معايير Google/DeepMind يُقدَّم Gemini 3 Pro كمتصدر في عدة مقاييس للوكلاء، ومتعددة الوسائط، والسياقات الطويلة (انظر Terminal-Bench، MMMU-Pro، AIME). تختلف النتائج المقارنة حسب المهمة.
حالات الاستخدام النموذجية وعالية القيمة
- تلخيص المستندات/الكتب الكبيرة وسؤال وجواب: دعم السياق الطويل يجعله جاذبًا للفرق القانونية والبحثية والامتثال.
- فهم الكود وتوليده على نطاق المستودع: التكامل مع سلاسل أدوات البرمجة وتحسين الاستدلال يساعد في إعادة هيكلة قواعد كود كبيرة وتدفقات مراجعة الكود المؤتمتة.
- مساعدات منتجات متعددة الوسائط: تدفقات صورة + نص + صوت (دعم العملاء الذي يستوعب لقطات شاشة، مقتطفات مكالمات، ومستندات).
- إنشاء الوسائط وتحريرها (صورة → فيديو): ميزات عائلة Gemini السابقة تشمل الآن قدرات photo→video بأسلوب Veo / Flow؛ وتشير المعاينة إلى توليد وسائط متعددة أعمق للنماذج الأولية وتدفقات الوسائط.