هناك نوع معيّن من الاجتماعات يحدث في كل فريق يبني فوق أحدث نماذج اللغة الكبيرة. يشارك أحدهم أحدث لوحة صدارة المعايير. يشير شخص آخر إلى أن الترتيب تغيّر منذ الشهر الماضي. يلاحظ ثالث أن النموذج الذي يستخدمه فريقهم حاليًا تراجع مركزين في مقياس لم يكن أيٌّ منهم قد سمع به قبل ثلاثة أسابيع. بحلول نهاية الاجتماع، لا أحد متأكد مما إذا كان ينبغي الانتقال إلى نموذج آخر، ويتم حجز المحادثة مرة أخرى للربع القادم.
المشكلة في ذلك الاجتماع ليست في الأشخاص الموجودين فيه. المشكلة أن المعايير تقيس مهامًا اصطناعية، ومنتجك ليس مهمة اصطناعية. تخبرك لوحة الصدارة كيف يعمل نموذج ما على MMLU، وعلى SWE-bench Verified، وعلى GPQA Diamond — اختبارات صُمِّمت بواسطة الباحثين لتكون قابلة للقياس عبر النماذج. لا يشبه أيٌّ من تلك الاختبارات المطالبات التي يرسلها تطبيقك فعليًا في بيئة الإنتاج. ولا يلتقط أيٌّ منها كيف يتعامل النموذج مع ذلك الإدخال الفوضوي، المطبوع بطبيعة مجالك، الذي يولّده مستخدموك.
تسير هذه المقالة خطوة بخطوة عبر التمرين الذي لا تستطيع المعايير القيام به. ثلاثة مطالبات ملموسة، مُصمَّمة للإرسال إلى GPT-5.5 وClaude Sonnet 4.6 وGemini 3.1 Pro عبر نفس نقطة نهاية متوافقة مع OpenAI، وبنفس إعدادات درجة العشوائية وبدون أي تهيئة إضافية للمطالبة. تمتد المطالبات عبر ثلاث فئات تغطي غالبية أحمال العمل الإنتاجية: استخراج منظم من مستند فوضوي، مهمة تخطيط ثقيلة الاستدلال، وتوليد الشيفرة ضمن قيود. الملاحظات أدناه هي أنماط السلوك التي تُبلغ عنها الفرق التي تُجري هذا النوع من المقارنة باستمرار — الأنماط التي ستراها بنفسك إذا شغّلت هذه المطالبات على إعدادك الخاص.
على لوحات الصدارة، تُسجّل هذه النماذج الثلاثة ضمن 0.8 نقطة مئوية من بعضها على SWE-bench Verified. في الممارسة، تتصرف بشكل مختلف جدًا. الاختيار بينها ليس متعلقًا بمن يسجل أعلى في المعايير — بل بمن يناسب نمط سلوكه عبء عملك.
ما الذي تقيسه المعايير وما الذي يفوتها
توجد المعايير لأنها ضرورة. يحتاج مزودو النماذج إلى اختبارات معيارية لتقديم ادعاءات القدرة، ويحتاجها الباحثون لنشر المقارنات، ونحتاجها نحن الباقون لتكون لدينا أي نقطة انطلاق موضوعية لتقييم النماذج. إنها مفيدة. لكنها أيضًا ناقصة بطرق تهم الاستخدام الإنتاجي.
ثلاثة قيود محددة تستحق التصريح بها، لأن كلًّا منها يظهر في أمثلة المطالبات أدناه.
- المعايير تقيس القدرة المعزولة، لا أنماط السلوك. يخبرك SWE-bench Verified ما إذا كان بإمكان نموذج حل نوع معين من قضايا GitHub. لا يخبرك ما إذا كان النموذج يميل إلى الإفراط في هندسة المشاكل البسيطة، أو ما إذا كان يطرح أسئلة توضيحية عندما تكون المطالبة غامضة، أو ما إذا كان يُنتج مخرجات تطابق البنية التي طلبتها من المرة الأولى. هذه هي الأمور التي ستلاحظها يوميًا في الإنتاج.
- المعايير يتم الضبط عليها. عندما تتضمن نسخة إصدار نموذج إبرازًا لدرجته على معيار معيّن، فهذا إشارة إلى أن النموذج قد تم تحسينه جزئيًا على الأقل لذلك المعيار. يمكن أن يتباعد الأداء الواقعي عن أداء المعيار — أحيانًا بشكل كبير — بمجرد أن يغادر النموذج الظروف التي صُمّم لها المعيار.
- المعايير تُجمّع. قد تُخفي فجوة 0.8 نقطة مئوية في درجة SWE-bench Verified حقيقة أن النموذج A أفضل بكثير في فئة محددة وأسوأ في أخرى، بينما النموذج B متسق عبر اللوحة. التجميع يطوي معلومات تحتاجها لاتخاذ قرار.
التمرين أدناه مُصمَّم لإظهار بالضبط نوع المعلومات التي تُجمّعها المعايير. الهدف ليس إعلان فائز — بل أن نريك الأسئلة التي ينبغي عليك طرحها عندما تُجري نفس التمرين على مطالباتك الخاصة.
الإعداد
ثلاث مطالبات، اختيرت لأنها تُطابق فئات تضربها معظم أحمال العمل الإنتاجية. الإعداد: تُرسل كل مطالبة إلى النماذج الثلاثة جميعًا بمعلمات متطابقة (درجة عشوائية 0.3، بدون تجاوز لتعليمات النظام، تنسيق استجابة افتراضي)، يتم الوصول إليها عبر نقطة نهاية واحدة متوافقة مع OpenAI حتى تبقى المقارنة عادلة — بدون فوارق SDK خاصة بالمزود، بدون تعيينات معلمات مختلفة، وبدون خطر حصول نموذج ما على معاملة خاصة بسبب طريقة بناء الطلب.
المطالبات نفسها واردة أدناه، ككتل برمجية يمكنك نسخها وتشغيلها. الأوصاف السلوكية التي تتبع كل مطالبة هي الأنماط التي تُبلّغ عنها الفرق باستمرار عند تشغيل هذا النوع من المقارنة — أنماط موثّقة عبر دراسات طرف ثالث متعددة في 2026، والنوع من الأشياء التي ينبغي أن تتوقع رؤيتها بنفسك عندما تُشغّل هذه المطالبات على إعدادك الخاص. تشغيلها بنفسك هو الهدف؛ فالمقال موجود ليعطيك الإطار ونقاط البداية للقيام بذلك.
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["COMET_API_KEY"], # or replace with your API key
base_url="https://api.cometapi.com/v1", # one endpoint, multiple models
)
MODELS = [
"gpt-5.5",
"claude-sonnet-4-6",
"gemini-3.1-pro",
]
def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
"""
Send the same prompt to all three models and return their responses.
"""
responses = {}
for model in MODELS:
result = client.chat.completions.create(
model=model,
messages=[
{
"role": "user",
"content": prompt,
}
],
temperature=temperature,
)
responses[model] = result.choices[0].message.content
return responses
# Example usage
if __name__ == "__main__":
prompt = "Summarise the key risks in this contract."
outputs = run_comparison(prompt)
for model, response in outputs.items():
print(f"\n--- {model} ---")
print(response)
المطالبة 1: استخراج منظم من مستند فوضوي
هذه هي المهام الأساسية لنصف ميزات LLM التي تم شحنها في 2026. خذ إدخالًا غير منظم — بريد إلكتروني، تذكرة دعم، محضر اجتماع، نموذجًا ممسوحًا — واستخرج حقولًا محددة إلى كائن مُنظّم. تطلب المطالبة أدناه من كل نموذج استخراج سبعة حقول من بريد دعم عملاء فوضوي عن قصد يحتوي على معلومات جزئية، إشارات متعارضة، وحقل واحد غير موجود في النص المصدر أصلًا.
المطالبة
You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys: - customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing", "returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)
Email:---Hi there, I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened. Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester. Margaret W.--- Return only the JSON object. No commentary, no markdown code fences.
ما الذي ينبغي مراقبته
ثلاثة أمور. أولًا، ما إذا كان النموذج يلتزم بمخطط JSON المطلوب دون اختلاق. ثانيًا، كيف يتعامل النموذج مع الحقل غير الموجود في المصدر (escalation_history — لا يذكر العميل أي اتصال سابق حول هذه المشكلة المحددة) — هل يعترف بالغياب، أم يختلق بشكل معقول؟ ثالثًا، ما إذا كان النموذج ينتج تعليقًا إضافيًا خارج JSON، ما يتطلب إزالة غلاف عند المعالجة اللاحقة. كما أن حقل مستوى الإلحاح يستحق الانتباه: "5 أيام" ليست فورية لكن العميل قلق بوضوح، ما يترك مجالًا للتفسير.
ما الذي تُبلّغ به الفرق التي تُشغّل هذا التمرين باستمرار
GPT-5.5. عادة ما يُنتج JSON نظيفًا من المحاولة الأولى. الالتزام بالمخطط قوي؛ كل حقل مطلوب موجود، والتنسيق قابل للتحليل دون معالجة مسبقة. في الحقول المفقودة، يميل GPT-5.5 إلى إرجاع null صريح. عادة لا يُغلّف JSON بأسوار تعليمات برمجية Markdown ولا يُضمّن شرحًا نصيًا، ما يجعل المعالجة اللاحقة تافهة. في الأحكام التفسيرية الغامضة مثل تصنيف الإلحاح هنا، يميل GPT-5.5 إلى أن يكون أكثر تحفظًا من الاثنين الآخرين — حيث قد يُصنّف Claude وGemini التذكرة "مرتفعة" بناءً على النبرة العاطفية للعميل، غالبًا ما يرتكز GPT-5.5 على نافذة الأيام الخمسة الملموسة ويستقر على "متوسط".
Claude Sonnet 4.6. يُنتج أيضًا JSON نظيفًا، وعادة ما يكون الأدق من الثلاثة في اتباع المخطط المطلوب. حيث يترك GPT-5.5 حقلًا مفقودًا كـ null، غالبًا ما يُضيف Claude حقولًا غير مطلوبة تشير إلى مشكلات جودة البيانات — مفتاحًا مثل "notes" أو "data_quality_notes" لم يُطلب لكنه يحتوي على معلومات مفيدة حقًا. هذا الحقل الإضافي مفيد للمراجعين البشريين لكنه يسبب فشلًا إذا كان محللك اللاحق صارمًا بشأن المخطط. هذا نمط متكرر مع Claude: جودة عالية، لكنه أحيانًا أكثر شمولًا مما طلبته المطالبة، ما يتطلب تعليمات صريحة في المطالبة لتقييده.
Gemini 3.1 Pro. عادة ما يُنتج أكثر المخرجات اقتصادية بين الثلاثة. كل الحقول المطلوبة، بلا حقول إضافية، ولا نثر محيط. الالتزام بالمخطط مطابق لما طُلب. الغرابة الوحيدة الجديرة بالمعرفة: في الحقول المفقودة، يميل Gemini إلى إرجاع سلسلة فارغة بدلًا من null. المحلّلات الصارمة لـ JSON التي تُميّز بينهما ستلتقط الفرق؛ بينما لن تفعل المحلّلات المتساهلة. السلوك متسق بما يكفي عبر التشغيلات ليبدو تفضيلًا للنموذج لا أثرًا جانبيًا.
ماذا يخبرك هذا
بإمكان النماذج الثلاثة القيام بالاستخراج المنظّم. الفروق تقع في الهامش السلوكي حول المخطط المطلوب. إذا كان نظامك اللاحق صارمًا بشأن المخطط ويتعامل مع الحقول الإضافية كأخطاء، فإن Gemini 3.1 Pro وGPT-5.5 خيارات أكثر أمانًا. إذا كنت تريد من النموذج إبراز مشكلات جودة البيانات دون أن يُطلب منه، فإن Claude Sonnet 4.6 أكثر مساعدة. لا يظهر شيء من هذا في معيار.
المطالبة 2: مهمة تخطيط ثقيلة الاستدلال
تطلب هذه المطالبة من النماذج تخطيط تحقيق متعدد الخطوات: سؤال بحثي مع ثلاث قيود ضمنية يجب أن يحددها نموذج حريص قبل ترتيب العمل. النوع من المهمة التي سيفوضها تطبيق وكيلّي إلى LLM كخطوة التخطيط قبل استدعاء أي أدوات.
المطالبة
I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.
القيود الضمنية الجديرة بالمراقبة: لا يحدد السؤال ما المقصود بـ"التسرب" (إغلاق الحساب؟ عدم تسجيل الدخول؟ عدم الشراء؟)، ولا يحدد كيفية التحكم في المتغيرات المربكة (المستخدمون منخفضو التفاعل يتسربون لأسباب كثيرة غير مرتبطة بالميزة X)، ولا يُنشئ مجموعة مقارنة أساسية. يجب على مُخطِّط حريص إبراز الثلاثة قبل إنتاج الخطوات.
ما الذي ينبغي مراقبته
ما إذا كان النموذج يُعالج المشكلة فعليًا بالاستدلال أم ينتج تسلسل خطوات يبدو معقولًا لكنه لا يصمد عند الفحص. ما إذا كان يحدد القيود الضمنية دون أن يُذكر بها. وما إذا كانت الاعتماديات بين الخطوات صحيحة — خطة تبدو جيدة لكن فيها خطوة ثالثة تعتمد على نتيجة ستنتجها خطوة خامسة خطة لا قيمة لها عمليًا.
ما الذي تُبلّغ به الفرق التي تُشغّل هذا التمرين باستمرار
GPT-5.5. عادة ما يُنتج الخطة الأكثر قابلية للتنفيذ التشغيلي. يميل الاستدلال إلى أن يكون مرئيًا — يُعدّد GPT-5.5 افتراضاته حول القيود الضمنية (تعريف التسرب، مجموعة الضبط، المتغيرات المربكة) قبل عرض الخطوات، ما يجعل من السهل رصد مواضع اختلاف تفسيره عما كان مقصودًا. تُحدَّد الاعتماديات بين الخطوات وتُوسم بشكل موثوق. غالبًا ما تتضمن المخرجات قسمًا يُبرز الخطوات التي يمكن تنفيذها بالتوازي، وهو ما لم يُطلب لكنه يضيف قيمة حقيقية. هذه هي النوعية من المهام التي يظهر فيها تدريب GPT-5.5 على استخدام الأدوات والسلوك الوكيلي — يتشكّل سلوك التخطيط بافتراض أن التنفيذ اللاحق سيتبع.
Claude Sonnet 4.6. عادة ما يُنتج الخطة الأكثر "تفكيرًا"، بالمعنى الحرفي — غالبًا ما تشمل خطة Claude اعتبارات لا يطرحها النموذجان الآخران. في سؤال كهذا، يرجح أن يُبرز Claude الإشكال المنهجي بين الارتباط والسببية، ويلاحظ أن "عدم استخدام الميزة X" قد يكون بذاته عرضًا للتسرب لا سببًا له، ويحدد صراحة قيودًا لم تُذكر لكن ينبغي لمحلل حريص أن يلحظها. الجانب السلبي: قد تكون الخطة أطول من اللازم، وتكون بعض الخطوات أحيانًا مُفرطة الهندسة بالنسبة للسؤال الفعلي. النمط متسق مع سلوك Claude في أماكن أخرى — عناية على مستوى الخبراء، أحيانًا أكثر مما تتطلب المهمة.
Gemini 3.1 Pro. عادة ما يُنتج الخطة الأكثر تنظيمًا بوضوح، مع أوضح مخطط اعتماديات. جودة الاستدلال عالية — يُحدد Gemini القيود الضمنية بشكل موثوق، ويُفكك المشكلة إلى تسلسل مُدافع عنه، ويُنتج تعليمات خطوة بخطوة قابلة للتنفيذ فعليًا. العيب: قد تبدو الخطة ميكانيكية بعض الشيء. تنجز المهمة لكنها تميل إلى عدم إبراز الدقائق المنهجية التي يثيرها Claude، ولا رؤى التنفيذ المتوازي التي يُضيفها GPT-5.5. هذا يطابق نمط Gemini الأوسع — قوي في جودة الاستدلال، وأكثر "عمليّة" في القرارات المحيطة.
ماذا يخبرك هذا
جودة الاستدلال في هذه المهمة عالية عبر كل النماذج الثلاثة. الفروق في السلوك المحيط — ما يضيفه النموذج بما يتجاوز الطلب الحرفي. يُضيف GPT-5.5 براغماتية تشغيلية (تنفيذ بالتوازي، تلميحات تنفيذ). يُضيف Claude عناية على مستوى الخبراء (المنهجية، الحالات الحدّية، الدقة الإحصائية). يُضيف Gemini الوضوح والاقتصاد. لا توجد اختيارات خاطئة هنا. ما يناسب تطبيقك يعتمد على ما تريد أن يفعله النموذج عند انتهائه من المهمة التي طلبتها منه.
المطالبة 3: توليد الشيفرة ضمن قيود محددة
تطلب هذه المطالبة من النماذج تنفيذ دالة صغيرة لكنها غير تافهة: دالة Python تأخذ قائمة من الأحداث ذات الطوابع الزمنية وتُعيد أطول فجوة بين أحداث متتالية بالثواني، مع التعامل مع أربع حالات حدية. القيود صريحة؛ القصد هو اختبار توليد الشيفرة تحت القيود وليس سقف القدرة — كل نموذج يمكنه كتابة هذه الدالة. ما يختلف هو كيفية تعاملهم مع القيود.
المطالبة
Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events. Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases: 1. Empty list (return 0.0 or raise — your choice, but be consistent) 2. Single event 3. Duplicate timestamps 4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.
ما الذي ينبغي مراقبته
ما إذا كان النموذج يُعالج الحالات الحدّية الأربع كلها أم يُسقط بعضها بصمت. ما إذا كانت تلميحات الأنواع دقيقة أم عامة. ما إذا كان التنفيذ يختار خوارزمية قابلة للدفاع عنها (الفرز ثم المسح) أم شيئًا غريبًا. وما إذا كان النموذج يحترم قيد "لا اختبارات ولا أمثلة استخدام" في نهاية المطالبة — هذا النوع من تعليمات أواخر المطالبة الذي ستحترمه النماذج ذات القدرة القوية على اتباع التعليمات وستُخالفه الأخرى بهدوء.
ما الذي تُبلّغ به الفرق التي تُشغّل هذا التمرين باستمرار
GPT-5.5. عادة ما يُنتج الشيفرة الأكثر هندسةً بعناية. تُعالج الحالات الحدّية الأربع بفروع صريحة، وتلميحات الأنواع دقيقة (غالبًا تشمل Optional أو Union لقيم إرجاع الحالات الحدّية)، ومع docstring يتضمن أمثلة استدعاء. يختار التنفيذ عادة الخوارزمية البديهية — فرز، مسح، تتبع أكبر فجوة — وتكون صحيحة. جدير بالمعرفة: غالبًا ما يتضمن GPT-5.5 اختبارات وحدة أو أمثلة استخدام حتى عندما تطلب المطالبة صراحةً إرجاع الدالة فقط. هذا هو ثمن النماذج البراغماتية تشغيليًا — تُضيف الأشياء التي تعتقد أنك ستحتاج إليها، حتى عندما تطلب منها عدم ذلك.
Claude Sonnet 4.6. عادة ما يُنتج الشيفرة الأكثر قابلية للقراءة. الدالة موجزة، تُعالج الحالات الحدّية بنمط جُمل حراسة نظيف في الأعلى، تلميحات الأنواع دقيقة وقليلة. غالبًا ما يتضمن Claude تعليقًا مدروسًا يشرح حكمًا تركته المطالبة مفتوحًا — مثلًا، في الطوابع المكررة، التعامل معها كفجوات بطول صفر وشرح السبب، وهو حكم قابل للدفاع لم تُحدده المطالبة. يميل Claude إلى احترام قيد "لا اختبارات" بشكل أكثر موثوقية من GPT-5.5. الدالة نفسها الأكثر قابلية للصيانة من بين الثلاثة. متسق مع سمعة Claude في جودة الشيفرة: نظيفة، إيديوماتيكية، تشعر بأنها من خبير.
Gemini 3.1 Pro. عادة ما يُنتج الشيفرة الأكثر اقتصادية بين الثلاثة. الدالة صحيحة، تُعالج الحالات الحدّية، والتنفيذ هو الأقصر. غالبًا ما تكون الـ docstring سطرًا واحدًا. تلميحات الأنواع موجودة ودقيقة. نادرًا ما تتضمن حلول Gemini اختبارات أو تعليقات مطولة، ولا تُفرط في الهندسة — وهو بالضبط ما طلبته المطالبة. بالنسبة لمطور يريد دالة تعمل وينوي إضافة اختبارات لاحقًا، فهذا هو المسار الأكثر مباشرة. لمطور يريد أن يقوم النموذج بالعمل المحيط أيضًا، فإن الاثنين الآخرين يُضيفان المزيد (سواء طلبت منهما ذلك أم لا).
ماذا يخبرك هذا
يمكن للنماذج الثلاثة كتابة الدالة. الفرق السلوكي هو في مقدار العمل المحيط الذي يقوم به كل نموذج بما يتجاوز الطلب الحرفي — ومدى جودة احترام كل منها للتعليمات السلبية الصريحة "لا تُضِف X". يميل GPT-5.5 نحو الشمولية، حتى عندما تم التنازل عنها في المطالبة. يميل Claude نحو الصنعة (شيفرة قابلة للقراءة، تعليقات مدروسة على أحكام تقديرية). يميل Gemini نحو الاقتصاد (افعل بالضبط ما طُلِب، لا أكثر). بالنسبة لسير العمل الوكيلي حيث تذهب مخرجات النموذج مباشرة إلى قاعدة شيفرة إنتاجية، فإن السلوك الذي تريده يعتمد على ما يتوقعه مسار المراجعة اللاحق لديك — وعلى مدى صرامة حاجتك لاتباع التعليمات السلبية.
الأنماط التي تظهر
عبر المطالبات الثلاث أعلاه، تظهر ثلاثة أنماط سلوكية متسقة من دراسات المقارنة وتقارير المطورين المنشورة طوال عام 2026. هذه ليست ادعاءات قدرة — كل نموذج يتعامل مع كل مهمة بمستوى عالٍ. إنها ميول، من النوع الذي لا تراه إلا عندما تراقب الفرق نفس النموذج يتعامل مع عشرات المطالبات. شغّل المطالبات أعلاه على إعدادك الخاص وسترى الأنماط نفسها؛ المقال موجود ليعطيك إطارًا للتعرّف على ما تنظر إليه عندما تفعل ذلك.
| النموذج | الميل السلوكي | يناسب أكثر عندما… |
|---|---|---|
| GPT-5.5 | براغماتي تشغيليًا. يُضيف تلميحات التنفيذ، الشيفرة الدفاعية، ومخرجات صديقة للخطوات اللاحقة. قوي في المهام المُشكّلة باستخدام الأدوات والوكلاء. | يربط تطبيقك مخرجات النموذج بتنفيذ لاحق — وكلاء، تدفقات عمل، أو خطوط أنابيب حيث الخطوة التالية مؤتمتة. |
| Claude Sonnet 4.6 | عناية على مستوى الخبراء. يُبرز اعتبارات تتجاوز الطلب الحرفي، يطرح قضايا أخلاقية ومنهجية، ويُنتج شيفرة عالية القابلية للقراءة. | لدى تطبيقك مُراجع بشري لمخرجات النموذج — إنشاء محتوى، مراجعة شيفرة، تحليل حيث تهم الصنعة. |
| Gemini 3.1 Pro | اقتصادي ومباشر. يفعل ما طُلِب، لا أكثر. أنظف التزام بالمخططات وأقل عدد رموز للمقدار المكافئ من العمل. | لدى تطبيقك متطلبات مخرجات صارمة، الكلفة المتوقعة أولوية، أو تريد النموذج أداة دقيقة بدلًا من متعاون مُفكِّر. |
تحذير مهم. هذه الأنماط ميول وليست قواعد. يمكن توجيه كل نموذج نحو أي من هذه السلوكيات باستخدام مطالبات مناسبة — مطالبة نظام مفصلة بما يكفي ستجعل Gemini يُضيف اختبارات، أو تُقيد Claude بإخراج بالحد الأدنى، أو تجعل GPT-5.5 يتخطى اختبارات الوحدة. الفكرة هي ما يفعله كل نموذج افتراضيًا، قبل أن تبدأ بتوجيهه. السلوك الافتراضي هو ما ستتعايش معه في الإنتاج ما لم تُوجّه ضده بنشاط.
كيف تختبر على عبء عملك الخاص
التمرين أعلاه قابل للتكرار على أي عبء عمل، وينبغي أن يكون كذلك. درجات المعايير مفيدة كمرشح أول، لكن أنماط سلوك النموذج التي تهم تطبيقك المحدد لا تظهر إلا عندما تراقب النماذج تتعامل مع مطالباتك المحددة.
دليل عملي لتشغيل التمرين على حركة المرور الخاصة بك:
- اختر ثلاث فئات مطالبات ممثلة. ليست ثلاث مطالبات عشوائية — ثلاث فئات تمتد عبر عبء عملك. يمكن تفكيك معظم الأنظمة الإنتاجية إلى حفنة من أنواع المطالبات (استخراج، تصنيف، توليد، استدلال، شيفرة، تلخيص). اختر الفئات التي تُشكّل غالبية حركتك.
- انتقِ 20–30 مثالًا لكل فئة. من حركة المرور الفعلية، ويفضل ذلك. أخف الهوية حيث يلزم. الهدف هو أن تبدو المطالبات مثل ما يراه تطبيقك فعليًا، لا مثل أسئلة المعايير. عشرون مثالًا لكل فئة تكفي لرؤية الأنماط؛ ثلاثون تكفي للثقة.
- شغّلها عبر نقطة نهاية واحدة، لكل النماذج. تُسهّل نقطة نهاية مجمّعة متوافقة مع OpenAI هذا بشكل كبير مقارنة بتشغيل كل نموذج عبر SDK خاص به. الشيفرة في أعلى هذه المقالة هي كل الإعداد. نفس درجة العشوائية، نفس المعلمات، نفس المطالبة — الفروق في المخرجات هي فروق النماذج.
- قيّم نوعيًا قبل الكمّي. انظر إلى المخرجات أولًا. تكون الأنماط السلوكية واضحة عادة خلال أول عشرات المطالبات. بمجرد أن تحصل على فرضية حول كيفية تصرف كل نموذج على عبء عملك، يمكنك بعدها بناء محك لتقييمها — لكن الفرضية تأتي من الملاحظة، لا من قالب تقييم مُعد مسبقًا.
- انتبه لما يُضيفه النموذج. سؤال المعيار هو ما إذا كان النموذج يحصل على الإجابة الصحيحة. السؤال السلوكي هو ما يفعله أيضًا. هل يُضيف اختبارات؟ هل يشرح استدلاله؟ هل يثير مخاوف؟ هل يُنتج حقولًا إضافية لم تطلبها؟ هنا تعيش فروق النماذج.
- اختر النموذج الذي يطابق نمطك اللاحق. إذا كانت عمليتك اللاحقة مؤتمتة، فأنت تريد نموذجًا ينتج سلوكُه الافتراضي مخرجات نظيفة يمكن تحليلها. إذا كانت عمليتك اللاحقة مراجعة بشرية، فأنت تريد نموذجًا يُضيف سلوكُه الافتراضي نوع الحكم المحيط الذي يريد المُراجع البشري رؤيته. الإجابة الصحيحة تعتمد على ما يأتي بعد النموذج.
خاتمة
الاختيار بين GPT-5.5 وClaude Sonnet 4.6 وGemini 3.1 Pro لا يتعلق بأي نموذج هو الأفضل. يتعلق بالنموذج الذي يناسب شكل عبء عملك — وهذا الشكل شيء لا يمكن للمعايير رؤيته. التمرين أعلاه قابل للتكرار في فترة بعد ظهر واحدة إذا كانت لديك المطالبات مُنتقاة؛ قيمة القيام به أنك تتوقف عن التخمين وتبدأ بالملاحظة.
للفرق التي تُشغّل التمرين بنفسها: أسهل إعداد هو نقطة نهاية واحدة متوافقة مع OpenAI تُتيح النماذج الثلاثة جميعًا خلف اعتماد واحد. CometAPI طريق واحد؛ تُوجّه SDK الخاص بـ OpenAI إلى عنوان أساس مختلف ويصبح معلم النموذج هو المتغير. المقالة المصاحبة، مقارنة تسعير واجهات برمجة تطبيقات LLM لعام 2026، تُغطّي جانب الكلفة للقرار نفسه — معًا يُعطيانك الصورة السلوكية والمالية التي تحتاجها للاختيار الجيد.
تُخبرك المعايير بما يستطيع النموذج فعله. تُخبرك أنماط السلوك بما سيفعله النموذج افتراضيًا على مطالباتك. الإجابة الأولى منشورة. الثانية عليك أن تلاحظها بنفسك. عشرون مطالبة لكل فئة، فترة بعد ظهر واحدة، وسيكون لديك إجابة لن تنتجها أي لوحة صدارة على الإطلاق.
جاهز للدمج الموثوق؟ توجّه إلى CometAPI وAPI doc للوصول السلس إلى Claude Fable 5 جنبًا إلى جنب مع نماذج الصدارة الأخرى، فوترة موحّدة، وموثوقية على مستوى المؤسسات. سجّل اليوم وابدأ مع أرصدة سخية للمستخدمين الجدد — مشروع اختراقك القادم بانتظارك.
