Gemini 3 Pro (Preview) هو أحدث نموذج استدلال متعدد الوسائط رائد من Google/DeepMind ضمن عائلة Gemini 3. يتموضع على أنه «أذكى نموذج لديهم حتى الآن»، ومصمم للاستدلال العميق، وسير العمل الوكيلية، والبرمجة المتقدمة، وفهم متعدد الوسائط بسياق طويل (النصوص، الصور، الصوت، الفيديو، الكود، وتكاملات الأدوات).
الميزات الرئيسية
- الوسائط: النص، الصورة، الفيديو، الصوت، ملفات PDF (ومخرجات الأدوات المنظمة).
- الوكيلية/الأدوات: استدعاء وظائف مدمج، والبحث كأداة، وتنفيذ الكود، وسياق URL، ودعم تنسيق وكلاء متعددين الخطوات. تحافظ آلية Thought-signature على الاستدلال متعدد الخطوات عبر الاستدعاءات.
- البرمجة و“vibe coding”: مُحسَّن لتوليد الواجهات الأمامية، وتوليد واجهات المستخدم التفاعلية، والبرمجة الوكيلية (ويتصدّر لوحات الترتيب ذات الصلة وفقًا لما أعلنته Google). ويتم تسويقه على أنه أقوى نموذج لديهم حتى الآن في “vibe-coding”.
- عناصر تحكم جديدة للمطورين:
thinking_level(low|high) للموازنة بين التكلفة/زمن الاستجابة وعمق الاستدلال، وعناصر تحكمmedia_resolutionلضبط دقة الوسائط المتعددة لكل صورة أو إطار فيديو. تساعد هذه العناصر في تحقيق التوازن بين الأداء وزمن الاستجابة والتكلفة.
أداء المقاييس
- حقق Gemini3Pro المركز الأول في LMARE بنتيجة 1501، متفوقًا على Grok-4.1-thinking الذي سجل 1484 نقطة، كما تصدّر أيضًا Claude Sonnet 4.5 وOpus 4.1.
- كما حقق المركز الأول في ساحة البرمجة WebDevArena بنتيجة 1487.
- في اختبار الاستدلال الأكاديمي Humanity’s Last Exam، حقق 37.5% (من دون أدوات)؛ وفي GPQA Diamond العلمي، 91.9%؛ وفي مسابقة الرياضيات MathArena Apex، 23.4%، مسجلًا رقمًا قياسيًا جديدًا.
- في القدرات متعددة الوسائط، حقق MMMU-Pro نسبة 81%؛ وفي فهم الفيديو ضمن Video-MMMU، حقق 87.6%.
التفاصيل التقنية والبنية
- معامل “Thinking level”: يوفّر Gemini 3 عنصر التحكم
thinking_levelالذي يتيح للمطورين الموازنة بين عمق الاستدلال الداخلي وزمن الاستجابة/التكلفة. يتعامل النموذج معthinking_levelعلى أنه سماحية نسبية للاستدلال الداخلي متعدد الخطوات، وليس ضمانًا صارمًا لعدد الرموز. تكون القيمة الافتراضية عادةًhighفي Pro. ويُعد هذا عنصر تحكم جديدًا وصريحًا للمطورين لضبط التخطيط متعدد الخطوات وعمق سلسلة التفكير. - المخرجات المنظمة والأدوات: يدعم النموذج مخرجات JSON منظمة ويمكن دمجه مع أدوات مدمجة (الاستناد إلى Google Search، وسياق URL، وتنفيذ الكود، وغير ذلك). بعض ميزات الجمع بين المخرجات المنظمة والأدوات متاحة فقط في المعاينة لـ
gemini-3-pro-preview. - التكاملات متعددة الوسائط والوكيلية: صُمم Gemini 3 Pro صراحةً لسير العمل الوكيلية (الأدوات + وكلاء متعددون عبر الكود/الطرفيات/المتصفح).
القيود والملاحظات المعروفة
- ليست الدقة الواقعية مثالية — لا تزال الهلوسات ممكنة. رغم التحسينات القوية في الدقة الواقعية التي تدّعيها Google، لا تزال هناك حاجة إلى التحقق المستند إلى مصادر ومراجعة بشرية في السياقات عالية المخاطر (القانونية، الطبية، المالية).
- يختلف أداء السياق الطويل حسب المهمة. دعم نافذة إدخال بحجم 1M هو قدرة فعلية، لكن الفعالية التجريبية قد تنخفض في بعض المقاييس عند الأطوال القصوى (ولوحظت تراجعات نقطية عند 1M في بعض اختبارات السياق الطويل).
- مفاضلات التكلفة وزمن الاستجابة. تؤدي السياقات الكبيرة وإعدادات
thinking_levelالأعلى إلى زيادة الحوسبة وزمن الاستجابة والتكلفة؛ وتُطبق شرائح تسعير بناءً على أحجام الرموز. استخدمthinking_levelواستراتيجيات التقسيم إلى أجزاء لإدارة التكاليف. - فلاتر السلامة والمحتوى. تواصل Google تطبيق سياسات السلامة وطبقات الإشراف؛ ولا يزال بعض المحتوى والإجراءات مقيدًا أو سيؤدي إلى تفعيل أوضاع الرفض.
كيف يقارن Gemini 3 Pro Preview بالنماذج الرائدة الأخرى
مقارنة عالية المستوى (المعاينة ← نوعية):
مقارنةً مع Gemini 2.5 Pro: تحسينات نوعية كبيرة في الاستدلال، واستخدام الأدوات الوكيلية، والتكامل متعدد الوسائط؛ مع معالجة سياق أكبر بكثير وفهم أفضل للمحتوى الطويل. تُظهر DeepMind مكاسب متسقة عبر الاستدلال الأكاديمي، والبرمجة، والمهام متعددة الوسائط.
مقارنةً مع GPT-5.1 وClaude Sonnet 4.5 (بحسب المعلن): ضمن مجموعة المقاييس التي عرضتها Google/DeepMind، يُقدَّم Gemini 3 Pro على أنه متصدر في عدة مؤشرات وكيلية ومتعددة الوسائط ومرتبطة بالسياق الطويل (انظر Terminal-Bench وMMMU-Pro وAIME). وتختلف النتائج المقارنة بحسب المهمة.
حالات الاستخدام النموذجية وعالية القيمة
- تلخيص المستندات/الكتب الكبيرة والإجابة عن الأسئلة: يجعل دعم السياق الطويل هذا النموذج جذابًا للفرق القانونية والبحثية وفرق الامتثال.
- فهم الكود وتوليده على مستوى المستودع: يساعد التكامل مع سلاسل أدوات البرمجة وتحسين الاستدلال في عمليات إعادة هيكلة قواعد الكود الكبيرة وسير عمل مراجعة الكود الآلية.
- مساعدو المنتجات متعددة الوسائط: سير عمل يجمع بين الصورة + النص + الصوت (مثل دعم العملاء الذي يستوعب لقطات الشاشة، ومقاطع المكالمات، والمستندات).
- إنشاء الوسائط وتحريرها (صورة → فيديو): تتضمن ميزات عائلة Gemini السابقة الآن قدرات على نمط Veo / Flow لتحويل الصورة إلى فيديو؛ وتشير المعاينة إلى توليد وسائط متعددة أعمق للنماذج الأولية وسير عمل الوسائط.
كيفية الوصول إلى واجهة Gemini 3 Pro API
الخطوة 1: التسجيل للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولًا. سجّل الدخول إلى لوحة تحكم CometAPI الخاصة بك. احصل على بيانات اعتماد الوصول، أي مفتاح API الخاص بالواجهة. انقر على “Add Token” في قسم API token داخل المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.
الخطوة 2: إرسال الطلبات إلى واجهة Gemini 3 Pro API
حدّد نقطة النهاية “gemini-3-pro” لإرسال طلب API واضبط نص الطلب. يتم الحصول على طريقة الطلب ونص الطلب من وثائق API على موقعنا. كما يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان base url هو Gemini Generating Content وChat
أدرج سؤالك أو طلبك في حقل content — فهذا هو ما سيرد عليه النموذج. عالج استجابة API للحصول على الإجابة المُولَّدة.
الخطوة 3: استرجاع النتائج والتحقق منها
عالج استجابة API للحصول على الإجابة المُولَّدة. بعد المعالجة، تستجيب API بحالة المهمة وبيانات المخرجات.