GPT-5.5 مقابل Claude Sonnet 4.6 مقابل Gemini 3.1 Pro: ما لا يخبرك به أي اختبار معياري

هناك نوع معيّن من الاجتماعات يحدث في كل فريق يبني فوق نماذج اللغة الضخمة الرائدة. يشارك أحدهم أحدث لوحة صدارة القياس. يلاحظ شخص آخر أنّ التصنيفات تغيّرت منذ الشهر الماضي. يشير ثالث إلى أن النموذج الذي يستخدمه فريقهم حالياً قد تراجع مركزين على مقياس لم يكن أيّ منهم قد سمع به قبل ثلاثة أسابيع. بنهاية الاجتماع، لا أحد متأكد مما إذا كان ينبغي الانتقال إلى نموذج آخر، فتُحجز المحادثة مجدداً للربع القادم.

المشكلة في ذلك الاجتماع ليست في الأشخاص الحاضرين. المشكلة أن المعايير القياسية تقيس مهاماً اصطناعية، ومنتجك ليس مهمة اصطناعية. تخبرك لوحة الصدارة كيف يؤدي نموذج ما على MMLU، وعلى SWE-bench Verified، وعلى GPQA Diamond — اختبارات صممها الباحثون بحيث تكون قابلة للقياس عبر النماذج. ولا واحد من تلك الاختبارات يشبه المطالبات التي يرسلها تطبيقك فعلياً في بيئة الإنتاج. ولا واحد منها يلتقط كيف يتعامل النموذج مع النوع المحدد من المدخلات الفوضوية والمشكّلة حسب المجال التي ينتجها مستخدموك.

هذه المقالة تستعرض التمرين الدقيق الذي لا تستطيع المعايير القياسية القيام به. ثلاث مطالبات ملموسة، مصممة لإرسالها إلى GPT-5.5 وClaude Sonnet 4.6 وGemini 3.1 Pro عبر نقطة نهاية متوافقة مع OpenAI نفسها، وبإعدادات درجة العشوائية نفسها ومن دون توجيه إضافي. تمتد المطالبات عبر ثلاث فئات تمس معظم أعمال الإنتاج: استخلاص مُنظّم من مستند فوضوي، مهمة تخطيط ثقيلة الاستدلال، وتوليد الشيفرة تحت قيود. الملاحظات أدناه هي أنماط سلوكية يُبلغ عنها الفرق التي تُجري هذا النوع من المقارنات باستمرار — الأنماط التي سترىها بنفسك إذا شغّلت هذه المطالبات على إعدادك الخاص.

على لوحات الصدارة، تسجل هذه النماذج الثلاثة ضمن 0.8 نقطة مئوية من بعضها على SWE-bench Verified. في الممارسة، تتصرف بشكل مختلف جداً. الاختيار بينها ليس حول من يسجل أعلى في المعايير — بل حول نمط السلوك الذي يلائم عبء عملك.

ما الذي تقيسه المعايير القياسية وما الذي تُغفِله

المعايير القياسية موجودة لأنها ضرورية. مزودو النماذج يحتاجون اختبارات معيارية ليقدموا ادعاءات حول القدرات، والباحثون يحتاجونها لنشر المقارنات، ونحن الباقون نحتاجها لتكون لدينا أي نقطة بداية موضوعية لتقييم النماذج. إنها مفيدة. لكنها أيضاً ناقصة بطرق مهمة للاستخدام الإنتاجي.

ثلاثة قيود محددة يجدر توضيحها، لأن كل واحد منها يظهر في أمثلة المطالبات أدناه.

المعايير القياسية تقيس القدرة المعزولة، لا أنماط السلوك. SWE-bench Verified يخبرك ما إذا كان النموذج يستطيع حل نوع معيّن من مشكلات GitHub. لكنه لا يخبرك ما إذا كان النموذج يميل إلى الإفراط في هندسة الحلول البسيطة، أو ما إذا كان يطرح أسئلة توضيحية عندما يكون الطلب غامضاً، أو ما إذا كان ينتج مخرجات تطابق البنية التي طلبتها من المرة الأولى. هذه هي الأشياء التي ستلاحظها يومياً في الإنتاج.
تتم مواءمة النماذج مع المعايير. عندما تتصدر إصدار نموذج نتيجةً على معيار معيّن، فذلك إشارة إلى أن النموذج قد تم تحسينه جزئياً لذلك المعيار. يمكن أن تتباعد الأداءات الواقعية وأداءات المعايير — أحياناً بشكل كبير — بمجرد أن يغادر النموذج ظروف المعيار الذي صُمم له.
المعايير تُجمِّع. قد تُخفي فجوة 0.8 نقطة مئوية في نتيجة SWE-bench Verified حقيقة أن النموذج A أفضل بكثير في فئة بعينها وأسوأ في أخرى، بينما النموذج B متسق عبر الفئات. التجميع يطوي معلومات تحتاجها لاتخاذ قرار.

التمرين أدناه مصمم لإبراز تماماً نوع المعلومات التي تطويها المعايير. الهدف ليس إعلان فائز — بل إظهار الأسئلة التي ينبغي أن تطرحها عندما تشغّل التمرين نفسه على مطالباتك الخاصة.

الإعداد

ثلاث مطالبات، اختيرت لأنها تُطابق فئات تضرب معظم أعباء العمل الإنتاجية. الإعداد: إرسال كل مطالبة إلى النماذج الثلاثة بالمعلمات نفسها (درجة عشوائية 0.3، من دون تجاوز لتوجيه النظام، تنسيق استجابة افتراضي)، عبر نقطة نهاية واحدة متوافقة مع OpenAI بحيث تبقى المقارنة متكافئة — لا عُقد خاصة بمجموعات تطوير مزود معيّن، ولا خرائط معلمات مختلفة، ولا خطر في أن يحصل نموذج على معاملة خاصة بسبب كيفية بناء الطلب.

المطالبات نفسها أدناه، ككتل برمجية يمكنك نسخها وتشغيلها. الأوصاف السلوكية التي تتبع كل واحدة هي الأنماط التي يبلغ عنها الفرق باستمرار عند تشغيل هذا النوع من المقارنات — أنماط موثقة عبر دراسات طرف ثالث متعددة في 2026، وهي نوع الأشياء التي ينبغي أن تتوقع رؤيتها بنفسك عندما تشغّل هذه المطالبات على إعدادك. تشغيلها بنفسك هو الهدف؛ المقالة موجودة لتمنحك الإطار والمطالبات الابتدائية للقيام بذلك.

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # or replace with your API key
    base_url="https://api.cometapi.com/v1",  # one endpoint, multiple models
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Send the same prompt to all three models and return their responses.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Example usage
if __name__ == "__main__":
    prompt = "Summarise the key risks in this contract."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

الموجّه 1: استخلاص منظَّم من مستند فوضوي

هذا هو المهمة الأساسية لنصف ميزات النماذج اللغوية التي شُحنت في 2026. خذ مدخلاً غير منظّم — بريد إلكتروني، تذكرة دعم، محضر اجتماع، نموذجاً ممسوخاً — واستخلص حقولاً محددة إلى كائن منظَّم. يطلب الموجّه أدناه من كل نموذج استخراج سبعة حقول من رسالة دعم عملاء فوضوية عمداً تحتوي على معلومات جزئية، وإشارات متضاربة، وحقل واحد غير موجود في النص المصدر من الأساس.

الموجّه

You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys:&nbsp;- customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",&nbsp;&nbsp;"returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)&nbsp;

Email:---Hi there,&nbsp;I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened.&nbsp;Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester.&nbsp;Margaret W.---&nbsp;Return only the JSON object. No commentary, no markdown code fences.

ما الذي ينبغي مراقبته

ثلاثة أمور. أولاً، ما إذا كان النموذج يلتزم بمخطط JSON المطلوب من دون اختراع. ثانياً، كيف يتعامل النموذج مع الحقل غير الموجود في المصدر (escalation_history — العميل لا يذكر أي تواصل سابق حول هذه المشكلة تحديداً) — هل يعترف بغيابه، أم يختلق شيئاً بشكل معقول؟ ثالثاً، ما إذا كان النموذج ينتج تعليقاً إضافياً خارج JSON، ما يتطلب من معالجة لاحقة تجريد الغلاف. كما أن حقل "الاستعجال" يستحق الانتباه: "5 أيام" ليست فورية لكن العميل واضح القلق، وهذا يترك مجالاً للتفسير.

ما الذي يبلغه الفرق التي تشغّل هذا باستمرار

GPT-5.5. عادةً ما ينتج JSON نظيفاً من المحاولة الأولى. الالتزام بالمخطط قوي؛ كل حقل مطلوب موجود، والصيغة قابلة للتحليل دون معالجة مسبقة. بالنسبة للحقول المفقودة، يميل GPT-5.5 إلى إعادة null صراحة. عادةً لا يغلف JSON بأسوار تعليمات برمجية Markdown ولا يضمّن شرحاً نثرياً، ما يجعل المعالجة اللاحقة تافهة. في القرارات التفسيرية الملتبسة مثل تصنيف الاستعجال هنا، يميل GPT-5.5 إلى أن يكون أكثر تحفظاً من الاثنين الآخرين — حيث قد يصنف Claude وGemini التذكرة "high" بناءً على النبرة العاطفية للعميل، غالباً ما يرتكز GPT-5.5 على نافذة 5 أيام الملموسة ويستقر على "medium".

Claude Sonnet 4.6. ينتج أيضاً JSON نظيفاً، وعادةً ما يكون الأدق بين الثلاثة في اتباع المخطط المطلوب. حيث يترك GPT-5.5 الحقل المفقود كـ null، يضيف Claude غالباً حقولاً غير مطلوبة تشير إلى مشكلات جودة البيانات — مفتاح "notes" أو "data_quality_notes" لم يُطلب لكنه يحتوي معلومات مفيدة فعلاً. هذا الحقل الإضافي مفيد للمراجعين البشريين لكنه يسبب فشلاً إذا كان محللك اللاحق صارماً بشأن المخطط. هذا نمط متكرر مع Claude: جودة عالية، لكنه أحياناً أدق مما طلبه الموجّه، ويتطلب تعليمات صريحة لتقييده.

Gemini 3.1 Pro. عادةً ما ينتج الخرج الأكثر اقتصادية بين الثلاثة. كل حقل مطلوب، دون حقول إضافية، ولا نثر محيط. الالتزام بالمخطط تماماً كما طُلب. الأمر الجدير بالمعرفة: للحقول المفقودة، يميل Gemini إلى إرجاع سلسلة فارغة بدلاً من null. محللات JSON الصارمة التي تميّز بينهما ستلتقط الفرق؛ المتساهلة لن تفعل. السلوك متسق بما يكفي عبر التشغيلات ليبدو أنه تفضيل للنموذج لا أثراً جانبياً.

ما الذي يخبرك به هذا

كل النماذج الثلاثة تستطيع القيام بالاستخلاص المنظّم. الفروق تقع في الهامش السلوكي حول المخطط المطلوب. إذا كان نظامك اللاحق صارماً بشأن المخطط ويعامل الحقول الإضافية كأخطاء، فـ Gemini 3.1 Pro وGPT-5.5 خياران أكثر أماناً. إذا أردت من النموذج إبراز مشكلات جودة البيانات دون أن يُطلب منه، فـ Claude Sonnet 4.6 أكثر فائدة. لا يظهر أي من هذا على معيار قياسي.

الموجّه 2: مهمة تخطيط ثقيلة الاستدلال

هذا الموجّه يطلب من النماذج تخطيط تحقيق متعدد الخطوات: سؤال بحثي يحوي ثلاثة قيود ضمنية ينبغي على نموذج متأنٍّ تحديدها قبل ترتيب العمل. النوع من المهام التي سيوكلها تطبيق وكيل إلى نموذج لغوي كخطوة التخطيط قبل استدعاء أي أدوات.

الموجّه

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.

القيود الضمنية الجديرة بالمراقبة: السؤال لا يحدد ما يعنيه "churn" (إغلاق الحساب؟ عدم تسجيل الدخول؟ عدم إجراء عمليات شراء؟)، ولا يحدد كيفية التحكم في المتغيرات المربكة (المستخدمون منخفضو التفاعل يتركون لعدة أسباب غير مرتبطة بالميزة X)، ولا يضع مجموعة مقارنة خط أساس. يجب على المخطط المتأني إبراز العناصر الثلاثة قبل وضع الخطوات.

ما الذي ينبغي مراقبته

ما إذا كان النموذج يستنبط فعلاً عبر المشكلة أم ينتج تسلسلاً يبدو معقولاً لكنه لا يصمد عند الفحص. ما إذا كان يحدد القيود الضمنية دون أن يُقال له عنها. وما إذا كانت التبعات بين الخطوات صحيحة — خطة تبدو جيدة لكن فيها الخطوة الثالثة تعتمد على نتيجة تنتجها الخطوة الخامسة غير مفيدة عملياً.

ما الذي يبلغه الفرق التي تشغّل هذا باستمرار

GPT-5.5. عادةً ما ينتج الخطة الأكثر قابلية للتنفيذ عملياً. يكون الاستدلال مرئياً — يعدد GPT-5.5 افتراضاته حول القيود الضمنية (تعريف التسرّب، مجموعة الضبط، المتغيرات المربكة) قبل سرد الخطوات، ما يسهل ملاحظة اختلاف تفسيره عمّا كان مقصوداً. التبعيات بين الخطوات تُحدَّد وتُوسم بثقة. غالباً يتضمن الخرج قسماً يشير إلى الخطوات التي يمكن تنفيذها بالتوازي، وهو ما لم يُطلب لكنه يضيف قيمة حقيقية. هذا هو نوع المهمة التي يظهر فيها تدريب GPT-5.5 على استخدام الأدوات والسلوك الوكيلي — سلوك التخطيط يتشكل على افتراض أن التنفيذ اللاحق سيتبع.

Claude Sonnet 4.6. عادةً ما ينتج الخطة الأكثر تفكيراً، بالمعنى الحرفي — غالباً تتضمن خطة Claude اعتبارات لا يثيرها النموذجان الآخران. في سؤال كهذا، من المرجح أن يشير Claude إلى الإشكال المنهجي بين الارتباط والسببية، ويلفت إلى أن "لم يستخدموا الميزة X" قد يكون بحد ذاته عرضاً للتسرّب وليس سبباً، ويحدد صراحة قيوداً لم تُذكر لكن ينبغي لمحلل متأنٍ ملاحظتها. العيب: قد تكون الخطة أطول مما ينبغي، وبعض الخطوات تُفرط في الهندسة بالنسبة للسؤال الفعلي. النمط متسق مع سلوك Claude في أماكن أخرى — عناية على مستوى الخبراء، وأحياناً أكثر مما تتطلبه المهمة.

Gemini 3.1 Pro. عادةً ما ينتج الخطة الأوضح بنيةً، مع رسم تبعيات هو الأشد وضوحاً. جودة الاستدلال عالية — يحدد Gemini باستمرار القيود الضمنية، ويقسّم المشكلة إلى تسلسل قابل للدفاع، وينتج تعليمات خطوة بخطوة قابلة للتنفيذ فعلاً. العيب: قد تبدو الخطة ميكانيكية إلى حدّ ما. تقوم بالمطلوب لكنها تميل إلى عدم إبراز الدقائق المنهجية التي يثيرها Claude، ولا رؤى التنفيذ المتوازي التي يدرجها GPT-5.5. هذا يطابق نمط Gemini الأوسع — قوي في جودة الاستدلال، وأكثر عملية في أحكام السياق المحيطة.

ما الذي يخبرك به هذا

جودة الاستدلال في هذه المهمة عالية عبر النماذج الثلاثة. الفروق في السلوك المحيط — ما يضيفه النموذج إلى ما وراء الطلب الحرفي. GPT-5.5 يضيف براغماتية تشغيلية (التوازي، تلميحات التنفيذ). Claude يضيف عناية على مستوى الخبراء (المنهجية، الحواف، الدقة الإحصائية). Gemini يضيف وضوحاً واقتصاداً. لا توجد اختيارات خاطئة هنا. ما يلائم تطبيقك يعتمد على ما تريد أن يفعله النموذج عندما ينهي المهمة التي طلبتها منه.

الموجّه 3: توليد شيفرة ضمن قيود محددة

هذا الموجّه يطلب من النماذج تنفيذ دالة صغيرة لكنها غير تافهة: دالة Python تأخذ قائمة من الأحداث ذات الطوابع الزمنية وتعيد أطول فجوة بين الأحداث المتتالية بالثواني، مع معالجة أربع حواف. القيود صريحة؛ القصد اختبار توليد الشيفرة تحت القيود لا سقف القدرة — كل نموذج يستطيع كتابة هذه الدالة. ما يختلف هو كيفية تعاملهم مع القيود.

الموجّه

Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events.&nbsp;Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases:&nbsp;&nbsp;1. Empty list (return 0.0 or raise — your choice, but be consistent)&nbsp;&nbsp;2. Single event&nbsp;&nbsp;3. Duplicate timestamps&nbsp;&nbsp;4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.

ما الذي ينبغي مراقبته

ما إذا كان النموذج يتعامل مع الحواف الأربع جميعها أو يسقط بعضها بصمت. ما إذا كانت تلميحات الأنواع دقيقة أم نمطية. ما إذا كان التنفيذ يختار خوارزمية قابلة للدفاع (الفرز ثم المسح) أم شيئاً غريباً. وما إذا كان النموذج يحترم قيد "من دون اختبارات، من دون أمثلة استخدام" في نهاية الموجّه — هذا النوع من التعليمات المتأخرة في الموجّه الذي ستحترمه النماذج قوية الاتباع للتعليمات، بينما الأضعف قد تتجاهله بهدوء.

ما الذي يبلغه الفرق التي تشغّل هذا باستمرار

GPT-5.5. عادةً ما ينتج الشيفرة الأكثر هندسةً من حيث الشمول. يتم التعامل مع الحواف الأربع بفروع صريحة، وتلميحات الأنواع دقيقة (غالباً تتضمن Optional أو Union لقيم الإرجاع في الحواف)، مع سلسلة توثيق تتضمن أمثلة نداء. التنفيذ عادةً يختار الخوارزمية البديهية — فرز، مسح، تتبع أكبر فجوة — وهو صحيح. جدير بالمعرفة: كثيراً ما يضمّن GPT-5.5 اختبارات وحدات أو أمثلة استخدام حتى عندما يطلب الموجّه صراحةً إرجاع الدالة فقط. هذا هو مقايضة النماذج البراغماتية تشغيلياً — تضيف الأشياء التي تظن أنك ستحتاجها، حتى عندما تطلب عدم ذلك.

Claude Sonnet 4.6. عادةً ما ينتج الشيفرة الأكثر قابلية للقراءة. الدالة موجزة، والحواف تُعالَج بنمط جمل حارسة نظيف في الأعلى، وتلميحات الأنواع دقيقة وموجزة. كثيراً ما يضمّن Claude تعليقاً مدروساً يشرح حكماً تركه الموجّه مفتوحاً — مثلاً، بشأن الطوابع الزمنية المكررة، معاملتها كفجوات طولها صفر وشرح السبب، وهو حكم قابل للدفاع لم يحدده الموجّه. يميل Claude لاحترام قيد "لا اختبارات" بثبات أكبر من GPT-5.5. الدالة نفسها هي الأكثر قابلية للصيانة بين الثلاثة. وهذا متسق مع سمعة Claude في جودة الشيفرة: نظيفة، معيارية، إحساس خبير.

Gemini 3.1 Pro. عادةً ما ينتج الشيفرة الأكثر اقتصادية بين الثلاثة. الدالة صحيحة، الحواف مُعالجة، التنفيذ هو الأقصر. سلسلة التوثيق عادةً سطر واحد. تلميحات الأنواع موجودة ودقيقة. نادراً ما تتضمن حلول Gemini اختبارات أو تعليقات مطولة، ولا تبالغ في الهندسة — وهو تماماً ما طلبه الموجّه. للمطور الذي يريد دالة عاملة وينوي إضافة الاختبارات لاحقاً، هذا هو المسار الأكثر مباشرةً. للمطور الذي يريد من النموذج القيام بالعمل المحيط أيضاً، يضيف الآخران المزيد (سواء طلبت ذلك أم لا).

ما الذي يخبرك به هذا

كل النماذج الثلاثة تستطيع كتابة الدالة. الفرق السلوكي في مقدار العمل المحيط الذي يقوم به كل نموذج إلى ما وراء الطلب الحرفي — ومدى جودة احترام كل منها لتعليمات "عدم إضافة س". يميل GPT-5.5 نحو الشمول، حتى عندما أُعفي من ذلك في الموجّه. يميل Claude نحو الحِرفية (شيفرة قابلة للقراءة، تعليقات مدروسة على أحكام مفتوحة). يميل Gemini نحو الاقتصاد (افعل تماماً ما طُلب، ولا أكثر). في تدفقات العمل الوكيلية حيث يذهب خرج النموذج مباشرة إلى قاعدة شيفرة إنتاجية، يعتمد السلوك المرغوب على ما يتوقعه مسار المراجعة اللاحق لديك — وعلى مدى صرامة حاجتك لاتباع التعليمات السلبية.

الأنماط التي تظهر

عبر المطالبات الثلاثة أعلاه، تظهر ثلاثة أنماط سلوكية متسقة من دراسات المقارنة وتقارير المطورين المنشورة طوال 2026. هذه ليست ادعاءات قدرة — كل نموذج يتعامل مع كل مهمة بمستوى عالٍ. إنها ميول، من النوع الذي لا تراه إلا عندما تراقب النموذج نفسه يتعامل مع عشرات المطالبات. شغّل المطالبات أعلاه على إعدادك الخاص وسترى الأنماط نفسها؛ المقالة موجودة لتمنحك الإطار للتعرّف إلى ما تنظر إليه عندما تفعل ذلك.

Model	Behavioural tendency	Fits best when…
GPT-5.5	براغماتي تشغيلياً. يضيف تلميحات التنفيذ، وبرمجة دفاعية، وخروجاً ملائماً للتدفقات اللاحقة. قوي في المهام المشكّلة بواسطة الاستخدام الوكيلي والأدوات.	عندما يربط تطبيقك خرج النموذج بتنفيذ لاحق — وكلاء، تدفقات، أو خطوط أنابيب حيث الخطوة التالية مؤتمتة.
Claude Sonnet 4.6	عناية على مستوى الخبراء. يبرز اعتبارات تتجاوز الطلب الحرفي، يثير قضايا أخلاق ومنهجية، وينتج شيفرة عالية القابلية للقراءة.	عندما يراجع إنسان خرج النموذج — توليد محتوى، مراجعة شيفرة، تحليلات حيث الحِرفة مهمّة.
Gemini 3.1 Pro	اقتصادي ومباشر. يفعل ما طُلب فقط، دون زيادة. أفضل التزام بالمخطط وأقل عدد رموز لنفس العمل.	عندما يكون لتطبيقك متطلبات خرج صارمة، وتكون الكلفة المتوقعة أولوية، أو عندما تريد النموذج كأداة دقيقة أكثر من كونه شريكاً مفكّراً.

تحذير مهم. هذه الأنماط ميول لا قواعد. يمكن توجيه كل نموذج نحو أي من هذه السلوكيات بتوجيه مناسب — موجه نظام مفصل بما يكفي سيجعل Gemini يضيف اختبارات، أو يقيّد Claude إلى الخرج الأدنى فقط، أو يجعل GPT-5.5 يتجاوز اختبارات الوحدات. المقصود هو ما يفعله كل نموذج افتراضياً، قبل أن تبدأ بتوجيهه. السلوك الافتراضي هو ما ستتعايش معه في الإنتاج ما لم توجهه بنشاط ضده.

كيفية الاختبار على عبء عملك الخاص

التمرين أعلاه قابل للتكرار على أي عبء عمل، وينبغي أن يكون كذلك. درجات المعايير مفيدة كمرشح أولي، لكن أنماط سلوك النموذج التي تهم تطبيقك المحدد تكون مرئية فقط عندما تراقب النماذج تتعامل مع مطالباتك المحددة.

دليل عملي لتشغيل التمرين على حركة مرورك الخاصة:

اختر ثلاث فئات مطالبات تمثيلية. ليست ثلاث مطالبات عشوائية — ثلاث فئات تغطي عبء عملك. يمكن تفكيك معظم الأنظمة الإنتاجية إلى حفنة فئات مطالبات (استخلاص، تصنيف، توليد، استدلال، شيفرة، تلخيص). اختر الفئات التي تمثل معظم الحركة لديك.
نسّق 20–30 مثالاً لكل فئة. من حركة فعلية، ويفضل أن تكون كذلك. أخفِ الهوية عند الحاجة. الهدف أن تبدو المطالبات مثل ما يراه تطبيقك فعلياً، لا مثل أسئلة معيارية. عشرون مثالاً لكل فئة كافية لرؤية الأنماط؛ ثلاثون كافية للثقة.
شغّلها عبر نقطة نهاية واحدة، وجميع النماذج. نقطة نهاية مجمِّعة متوافقة مع OpenAI تجعل هذا أسرع بكثير من تشغيل كل نموذج عبر عدة SDK. الشفرة في أعلى هذه المقالة هي الإعداد بأكمله. درجة العشوائية نفسها، المعلمات نفسها، الموجّه نفسه — الفروق في الخرج هي فروق النماذج.
قيّم نوعياً قبل كمّياً. ألقِ نظرة على المخرجات أولاً. الأنماط السلوكية عادةً ما تكون واضحة خلال أول عشرات المطالبات. عندما تتشكل لديك فرضية حول كيفية تصرف كل نموذج على عبء عملك، عندها يمكنك إنشاء مصفوفة تقييم للدرجات — لكن الفرضية تأتي من الملاحظة، لا من قالب تقييم مُعد مسبقاً.
انتبه لما يضيفه النموذج. السؤال المعياري هو ما إذا كان النموذج يحصل على الإجابة الصحيحة. السؤال السلوكي هو ما الذي يفعله أيضاً. هل يضيف اختبارات؟ هل يشرح استدلاله؟ هل يثير مخاوف؟ هل ينتج حقولاً إضافية لم تطلبها؟ هنا تعيش فروق النماذج.
اختر النموذج الذي يطابق نمطك اللاحق. إذا كانت عمليتك اللاحقة مؤتمتة، فأنت تريد نموذجاً ينتج افتراضياً خرجاً نظيفاً قابلاً للتحليل. إذا كانت عمليتك اللاحقة مراجعة بشرية، فأنت تريد نموذجاً يضيف افتراضياً نوع الحكم المحيط الذي يرغب فيه المراجع. الإجابة الصحيحة تعتمد على ما يأتي بعد النموذج.

الخلاصة

الاختيار بين GPT-5.5 وClaude Sonnet 4.6 وGemini 3.1 Pro ليس حول أي نموذج هو الأفضل. إنه حول أي نموذج يلائم شكل عبء عملك — وهذا الشكل شيء لا تستطيع المعايير رؤيته. التمرين أعلاه قابل للتنفيذ في فترة بعد ظهر واحدة إذا كانت المطالبات منسّقة؛ قيمة القيام به أنك تتوقف عن التخمين وتبدأ بالملاحظة.

للفرق التي تشغّل التمرين بنفسها: أسهل إعداد هو نقطة نهاية واحدة متوافقة مع OpenAI تعرض النماذج الثلاثة وراء بيانات اعتماد واحدة. CometAPI طريق واحد؛ توجه SDK الخاص بـ OpenAI الموجود لديك إلى عنوان URL مختلف ويصبح معلمة النموذج هي المتغير.

المعايير تخبرك بما يستطيع النموذج فعله. أنماط السلوك تخبرك بما سيفعله النموذج، افتراضياً، على مطالباتك. الإجابة الأولى منشورة. الثانية عليك ملاحظتها بنفسك. عشرون مطالبة لكل فئة، فترة بعد ظهر واحدة، وستحصل على إجابة لن تنتجها أي لوحة صدارة أبداً.

هل أنت مستعد لدمج يعتمد عليه؟ توجّه إلى CometAPI ووثائق API للوصول السلس إلى Claude Fable 5 جنباً إلى جنب مع النماذج الرائدة الأخرى، فوترة موحّدة، وموثوقية على مستوى المؤسسات. سجّل اليوم وابدأ مع أرصدة سخية للمستخدمين الجدد — مشروع اختراقك القادم بانتظارك.

GPT-5.5 مقابل Claude Sonnet 4.6 مقابل Gemini 3.1 Pro: ما لا يخبرك به أي اختبار معياري

ما الذي تقيسه المعايير القياسية وما الذي تُغفِله

الإعداد

الموجّه 1: استخلاص منظَّم من مستند فوضوي

الموجّه

ما الذي ينبغي مراقبته

ما الذي يبلغه الفرق التي تشغّل هذا باستمرار

ما الذي يخبرك به هذا

الموجّه 2: مهمة تخطيط ثقيلة الاستدلال

الموجّه

ما الذي ينبغي مراقبته

ما الذي يبلغه الفرق التي تشغّل هذا باستمرار

ما الذي يخبرك به هذا

الموجّه 3: توليد شيفرة ضمن قيود محددة

الموجّه

ما الذي ينبغي مراقبته

ما الذي يبلغه الفرق التي تشغّل هذا باستمرار

ما الذي يخبرك به هذا

الأنماط التي تظهر

كيفية الاختبار على عبء عملك الخاص

الخلاصة

هل أنت مستعد لخفض تكاليف تطوير الذكاء الاصطناعي بنسبة 20%؟

اقرأ المزيد