Gemini 3 Pro (Preview) هو أحدث نموذج رئيسي للاستدلال متعدد الوسائط من Google/DeepMind ضمن عائلة Gemini 3. يُقدَّم باعتباره «أذكى نماذجهم حتى الآن»، ومصمَّم للاستدلال العميق، وسير العمل العَملاني (agentic)، والبرمجة المتقدمة، وفهم السياقات الطويلة متعدد الوسائط (النص، الصور، الصوت، الفيديو، الشيفرة وعمليات تكامل الأدوات).
الميزات الرئيسية
- الأنماط: نص، صورة، فيديو، صوت، ملفات PDF (ومخرجات أدوات منظمة).
- القدرات العاملية/الأدوات: استدعاء الدوال المدمج، البحث كأداة، تنفيذ الشيفرة، سياق عناوين URL، ودعم تنظيم الوكلاء متعددي الخطوات. آلية توقيع التفكير تحافظ على الاستدلال متعدد الخطوات بين الاستدعاءات.
- البرمجة و«vibe coding»: محسّن لتوليد الواجهات الأمامية، وتوليد واجهات مستخدم تفاعلية، والبرمجة العاملية (يتصدر لوائح التصنيف ذات الصلة وفق تقارير Google). يُسوَّق له كأقوى نموذج لديهم في «vibe-coding» حتى الآن.
- ضوابط جديدة للمطورين:
thinking_level(low|high) للموازنة بين التكلفة/كمون الاستجابة وعمق الاستدلال، وmedia_resolutionللتحكم في دقة الوسائط لكل صورة أو إطار فيديو. تساعد هذه الضوابط في موازنة الأداء والكمون والتكلفة.
الأداء على مقاييس القياس
- حقق Gemini3Pro المركز الأول في LMARE بدرجة 1501، متجاوزًا Grok-4.1-thinking الذي حصل على 1484 نقطة ومتقدمًا أيضًا على Claude Sonnet 4.5 وOpus 4.1.
- كما حقق المركز الأول في ساحة البرمجة WebDevArena بدرجة 1487.
- في Humanity’s Last Exam للاستدلال الأكاديمي، حقق 37.5% (من دون أدوات)؛ وفي GPQA Diamond للعلوم، 91.9%؛ وفي منافسة الرياضيات MathArena Apex، 23.4%، مسجلًا رقمًا قياسيًا جديدًا.
- في القدرات متعددة الوسائط، حقق MMMU-Pro نسبة 81%؛ وفي Video-MMMU لفهم الفيديو، 87.6%.

التفاصيل التقنية والبنية
- معامل «مستوى التفكير»: يوفّر Gemini 3 عنصر تحكم
thinking_levelيتيح للمطورين المقايضة بين عمق الاستدلال الداخلي مقابل الكمون/التكلفة. يتعامل النموذج معthinking_levelكحصة نسبية للاستدلال متعدد الخطوات داخليًا وليس كضمان صارم لعدد الرموز. الإعداد الافتراضي عادةhighفي Pro. هذا تحكم جديد صريح يتيح للمطورين ضبط التخطيط متعدد الخطوات وعمق سلسلة التفكير. - المخرجات المنظمة والأدوات: يدعم النموذج مخرجات JSON منظمة ويمكن دمجه مع أدوات مدمجة (إسناد Google Search، سياق URL، تنفيذ الشيفرة، إلخ). بعض ميزات المخرجات المنظمة+الأدوات متاحة بوضع المعاينة فقط لـ
gemini-3-pro-preview. - تكاملات متعددة الوسائط وعاملية: تم بناء Gemini 3 Pro صراحةً لسير عمل عاملية (أدوات + وكلاء متعددون عبر الشيفرة/الأطر/المتصفح).
- يقبل نصًا وصورة وفيديو وصوتًا وملفات PDF كمدخلات؛ ومخرجات نصية.
القيود والملاحظات المعروفة
- ليست الواقعية مثالية — يظل احتمال الهلوسة قائمًا. على الرغم من التحسينات القوية في الواقعية بحسب Google، تبقى الحاجة إلى تحقق مؤسَّس ومراجعة بشرية في السياقات عالية المخاطر (القانونية، الطبية، المالية).
- يختلف الأداء في السياقات الطويلة حسب المهمة. دعم نافذة إدخال 1M قدرة صلبة، لكن الفاعلية التجريبية قد تنخفض في بعض المقاييس عند الأطوال القصوى (لوحظت تراجعات نقطية عند 1M في بعض اختبارات السياق الطويل).
- مقايضات التكلفة والكمون. تؤدي السياقات الكبيرة وإعدادات
thinking_levelالأعلى إلى زيادة الحوسبة والكمون والتكلفة؛ تسري شرائح تسعير بناءً على أحجام الرموز. استخدمthinking_levelواستراتيجيات التجزئة لإدارة التكاليف. - سياسات السلامة ومرشحات المحتوى. تواصل Google تطبيق سياسات السلامة وطبقات الإشراف؛ سيظل بعض المحتوى والإجراءات مقيدًا أو يُفعّل أوضاع الرفض.
مقارنة Gemini 3 Pro Preview بأفضل النماذج الأخرى
مقارنة عالية المستوى (معاينة → نوعية):
مقارنة بـ Gemini 2.5 Pro: قفزة نوعية في الاستدلال، واستخدام الأدوات العاملية، والتكامل متعدد الوسائط؛ معالجة سياقات أكبر وفهم أفضل للنصوص الطويلة. تُظهر DeepMind مكاسب متسقة عبر الاستدلال الأكاديمي والبرمجة والمهام متعددة الوسائط.
مقارنة بـ GPT-5.1 وClaude Sonnet 4.5 (كما ورد): في مجموعة مقاييس Google/DeepMind، يُعرض Gemini 3 Pro بوصفه متقدمًا في العديد من مقاييس العاملية ومتعددة الوسائط والسياقات الطويلة (انظر Terminal-Bench وMMMU-Pro وAIME). تختلف النتائج المقارنة باختلاف المهمة.
حالات الاستخدام النموذجية وعالية القيمة
- تلخيص المستندات/الكتب الكبيرة والأسئلة والأجوبة: يتيح دعم السياق الطويل جاذبية للفِرق القانونية والبحثية والامتثال.
- فهم الشيفرة وتوليدها على مستوى المستودعات: التكامل مع سلاسل أدوات البرمجة والاستدلال المُحسّن يساعد في إعادة هيكلة قواعد الشيفرة الكبيرة وتدفقات المراجعة الآلية.
- مساعدين للمنتج متعدد الوسائط: تدفقات عمل تجمع الصورة + النص + الصوت (دعم العملاء الذي يستوعب لقطات شاشة ومقاطع مكالمات ومستندات).
- توليد الوسائط وتحريرها (صورة → فيديو): ميزات عائلة Gemini السابقة تشمل قدرات Veo / Flow لنقل الصورة إلى فيديو؛ وتوحي المعاينة بتوليد وسائط أعمق للنماذج الأولية وتدفقات العمل الإعلامية.
كيفية استدعاء واجهة gemini-3-pro-preview عبر CometAPI
تسعير Gemini 3 Pro Preview في CometAPI، خصم 20% عن السعر الرسمي:
| رموز الإدخال | $1.60 |
| رموز الإخراج | $9.60 |
الخطوات المطلوبة
- سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا.
- سجّل الدخول إلى CometAPI console.
- احصل على مفتاح واجهة برمجة التطبيقات (API) الخاص بالاعتماد. انقر “Add Token” ضمن رموز API في المركز الشخصي، لتحصل على مفتاح الرمز: sk-xxxxx ثم قدّمه.

طريقة الاستخدام
- اختر نقطة النهاية “
gemini-3-pro-preview” لإرسال طلب API واضبط جسم الطلب. تُستمد طريقة الطلب وجسم الطلب من وثائق API على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. - استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك.
- أدخل سؤالك أو طلبك في حقل المحتوى — هذا ما سيستجيب له النموذج.
- . عالج استجابة API للحصول على الإجابة المولدة.
يوفّر CometAPI واجهة REST متوافقة بالكامل — لانتقال سلس. تفاصيل رئيسية لـ Chat :
- عنوان الأساس (Base URL): v1/chat/completions
- أسماء النماذج:
gemini-3-pro-preview - المصادقة: ترويسة
Bearer YOUR_CometAPI_API_KEY - نوع المحتوى:
application/json.
اطلع أيضًا على GPT-5.1 API
