ہر اس ٹیم میں ایک خاص طرح کی میٹنگ ہوتی ہے جو فرنٹیئر LLMs پر کام بنا رہی ہو۔ کوئی تازہ بینچ مارک لیڈر بورڈ شیئر کرتا ہے۔ کوئی اور بتاتا ہے کہ پچھلے ماہ کے بعد سے درجہ بندیاں بدل گئی ہیں۔ تیسرا شخص نوٹ کرتا ہے کہ جس ماڈل کو ان کی ٹیم اس وقت استعمال کر رہی ہے وہ کسی ایسے میٹرک پر دو درجے نیچے سرک گیا ہے جس کے بارے میں تین ہفتے پہلے تک ان میں سے کسی نے نہیں سنا تھا۔ میٹنگ کے اختتام تک کسی کو یقین نہیں ہوتا کہ مائیگریٹ کرنا چاہیے یا نہیں، اور گفتگو اگلی سہ ماہی کے لیے دوبارہ بُک ہو جاتی ہے۔
اس میٹنگ کا مسئلہ اس میں بیٹھے لوگ نہیں ہیں۔ مسئلہ یہ ہے کہ بینچ مارکس مصنوعی کاموں کو ناپتے ہیں، اور آپ کی پروڈکٹ کوئی مصنوعی کام نہیں ہے۔ لیڈر بورڈ آپ کو بتاتا ہے کہ ایک ماڈل MMLU، SWE-bench Verified یا GPQA Diamond پر کیسا کارکردگی دکھاتا ہے — ایسے ٹیسٹ جو محققین نے اس لیے بنائے کہ ان کی پیمائش ماڈلز کے درمیان ممکن ہو۔ ان میں سے کوئی بھی ٹیسٹ آپ کے ایپلیکیشن کے ان پرامٹس جیسا نہیں ہوتا جو وہ پروڈکشن میں واقعی بھیجتی ہے۔ ان میں سے کوئی بھی یہ نہیں پکڑتا کہ ایک ماڈل آپ کے صارفین کے پیدا کردہ مخصوص، بے ترتیب اور ڈومین-شکل شدہ ان پٹ کو کیسے ہینڈل کرتا ہے۔
یہ تحریر بالکل وہ مشق قدم بہ قدم دکھاتی ہے جو بینچ مارکس نہیں کر سکتے۔ تین ٹھوس پرامٹس — GPT-5.5، Claude Sonnet 4.6، اور Gemini 3.1 Pro — کو ایک ہی OpenAI-مطابقت پذیر اینڈپوائنٹ کے ذریعے، ایک ہی ٹمپریچر سیٹنگز کے ساتھ اور بغیر کسی اضافی پرامپٹنگ کے بھیجے گئے۔ یہ پرامٹس تین زمروں پر محیط ہیں جو اکثر پروڈکشن ورک لوڈز کو چھوتے ہیں: بے ترتیبی دستاویز سے ساختہ استخراج، استدلال-بھاری منصوبہ بندی کا کام، اور پابندیوں کے ساتھ کوڈ جنریشن۔ ذیل کی مشاہدات وہ رویہ جاتی پیٹرنز ہیں جن کی اس طرح کا موازنہ چلانے والی ٹیمیں مسلسل رپورٹ کرتی ہیں — وہ پیٹرنز جو آپ خود اپنی سیٹ اپ پر یہی پرامٹس چلا کر دیکھیں گے۔
لیڈر بورڈز پر، یہ تینوں ماڈلز SWE-bench Verified پر ایک دوسرے سے 0.8 فیصد پوائنٹس کے اندر اسکور کرتے ہیں۔ عملی طور پر، ان کا برتاؤ بہت مختلف ہوتا ہے۔ ان میں سے انتخاب اس بات پر نہیں کہ کون بینچ مارکس پر سب سے اوپر ہے — یہ اس پر ہے کہ کس کا رویہ جاتی پیٹرن آپ کے ورک لوڈ سے میل کھاتا ہے۔
بینچ مارکس کیا ناپتے ہیں، اور کیا چھوڑ دیتے ہیں
بینچ مارکس موجود ہیں کیونکہ انہیں ہونا چاہیے۔ ماڈل فراہم کرنے والوں کو قابلیت کے دعوے کرنے کے لیے معیاری ٹیسٹ درکار ہیں، محققین کو تقابلی نتائج شائع کرنے کے لیے ان کی ضرورت ہے، اور باقی ہم سب کو ماڈلز کا جائزہ لینے کے لیے کسی معروضی نقطۂ آغاز کی ضرورت ہے۔ یہ مفید ہیں۔ یہ ان طریقوں سے نامکمل بھی ہیں جو پروڈکشن استعمال کے لیے اہم ہیں۔
تین مخصوص محدودیتیں کھلے طور پر بیان کرنے کے قابل ہیں، کیونکہ ان میں سے ہر ایک ذیل کے پرامٹ مثالوں میں نمودار ہوتی ہے۔
- بینچ مارکس الگ-تھلگ قابلیت ناپتے ہیں، رویہ جاتی پیٹرنز نہیں۔ SWE-bench Verified آپ کو بتاتا ہے کہ کوئی ماڈل GitHub کے ایک مخصوص نوعیت کے ایشو کو حل کر سکتا ہے یا نہیں۔ یہ نہیں بتاتا کہ آیا ماڈل سادہ مسائل کو حد سے زیادہ انجینئر کرنے کا رجحان رکھتا ہے، آیا ابہام کی صورت میں وضاحتی سوالات پوچھتا ہے، یا آیا پہلی ہی بار وہی ساخت میں آؤٹ پٹ دیتا ہے جس کی آپ نے فرمائش کی تھی۔ یہ وہ باتیں ہیں جو آپ روزانہ پروڈکشن میں دیکھیں گے۔
- بینچ مارکس پر ٹیوننگ کی جاتی ہے۔ جب کسی ماڈل کی ریلیز میں کسی مخصوص بینچ مارک پر اس کا اسکور نمایاں کیا جاتا ہے، تو یہ اشارہ ہوتا ہے کہ ماڈل کو کم از کم جزوی طور پر اس بینچ مارک کے لیے بہتر بنایا گیا ہے۔ جیسے ہی ماڈل اس بینچ مارک کے ڈیزائن کردہ حالات سے باہر آتا ہے، حقیقی دنیا کی کارکردگی اور بینچ مارک کارکردگی — کبھی کبھار خاصے — مختلف ہو سکتے ہیں۔
- بینچ مارکس مجموعی کرتے ہیں۔ SWE-bench Verified پر 0.8 فیصد پوائنٹ کا فرق یہ چھپا سکتا ہے کہ ماڈل A کسی مخصوص ذیلی زمرے میں بہت بہتر اور دوسرے میں کمزور ہے، جبکہ ماڈل B ہر جگہ متوازن ہے۔ مجموعہ اس معلومات کو سمیٹ دیتا ہے جس کی آپ کو فیصلہ کرنے کے لیے ضرورت ہوتی ہے۔
ذیل کی مشق اسی طرح کی معلومات سامنے لانے کے لیے بنائی گئی ہے جنہیں بینچ مارکس مجموعی کر کے چھپا دیتے ہیں۔ مقصد کسی ایک کو فاتح قرار دینا نہیں — مقصد یہ ہے کہ آپ کو وہ سوالات دکھائے جائیں جو آپ کو اپنی پرامٹس پر یہی مشق چلاتے وقت پوچھنے چاہئیں۔
سیٹ اپ
تین پرامٹس، اس لیے منتخب کیے گئے کہ یہ ان زمروں سے میل کھاتے ہیں جن سے زیادہ تر پروڈکشن ورک لوڈز گزرتے ہیں۔ سیٹ اپ: ہر پرامٹ تینوں ماڈلز کو یکساں پیرا میٹرز (ٹمپریچر 0.3، کوئی سسٹم پرامپٹ اوور رائیڈ نہیں، ڈیفالٹ رسپانس فارمیٹ) کے ساتھ بھیجا گیا، ایک ہی OpenAI-مطابقت پذیر اینڈپوائنٹ کے ذریعے، تاکہ موازنہ فی الواقع سیب-بمقابلہ-سیب رہے — نہ کسی فراہم کنندہ کے مخصوص SDK کی الجھنیں، نہ مختلف پیرا میٹر میپنگز، نہ اس بات کا خطرہ کہ کسی ماڈل کو ریکویسٹ کی تشکیل کی وجہ سے خاص برتاؤ مل جائے۔
خود پرامٹس ذیل میں بطور کوڈ بلاک دیے گئے ہیں جنہیں آپ کاپی کر کے چلا سکتے ہیں۔ ہر پرامٹ کے بعد درج رویہ جاتی وضاحتیں وہ پیٹرنز ہیں جو اس نوع کے موازنہ چلانے والی ٹیمیں مستقل رپورٹ کرتی ہیں — 2026 میں متعدد تھرڈ پارٹی مطالعات میں دستاویزی پیٹرنز، اور وہی چیز جو آپ اپنی سیٹ اپ پر یہ پرامٹس چلاتے وقت دیکھنے کی توقع کر سکتے ہیں۔ خود چلانا ہی اصل مقصد ہے؛ یہ مضمون آپ کو فریم ورک اور ابتدائی پرامٹس دیتا ہے تاکہ آپ یہ کام شروع کر سکیں۔
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["COMET_API_KEY"], # or replace with your API key
base_url="https://api.cometapi.com/v1", # one endpoint, multiple models
)
MODELS = [
"gpt-5.5",
"claude-sonnet-4-6",
"gemini-3.1-pro",
]
def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
"""
Send the same prompt to all three models and return their responses.
"""
responses = {}
for model in MODELS:
result = client.chat.completions.create(
model=model,
messages=[
{
"role": "user",
"content": prompt,
}
],
temperature=temperature,
)
responses[model] = result.choices[0].message.content
return responses
# Example usage
if __name__ == "__main__":
prompt = "Summarise the key risks in this contract."
outputs = run_comparison(prompt)
for model, response in outputs.items():
print(f"\n--- {model} ---")
print(response)
پرومپٹ 1: بے ترتیبی دستاویز سے ساختہ استخراج
یہ 2026 میں جاری ہونے والی نصف LLM فیچرز کا روزمرہ کا کام ہے۔ ایک غیر ساختہ ان پٹ — ای میل، سپورٹ ٹِکٹ، میٹنگ ٹرانسکرپٹ، سکین شدہ فارم — لیں اور مخصوص فیلڈز کو ایک ساختہ آبجیکٹ میں نکالیں۔ ذیل کا پرومپٹ ہر ماڈل سے ایک دانستہ بے ترتیبی کسٹمر سپورٹ ای میل سے سات فیلڈز نکالنے کا کہتا ہے، جس میں جزوی معلومات، متضاد اشارے، اور ایک فیلڈ شامل ہے جو ماخذ متن میں سرے سے موجود ہی نہیں۔
پرومپٹ
You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys: - customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing", "returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)
Email:---Hi there, I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened. Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester. Margaret W.--- Return only the JSON object. No commentary, no markdown code fences.
کن باتوں پر نظر رکھنی ہے
تین باتیں۔ پہلی، کیا ماڈل مطلوبہ JSON اسکیمہ کی پابندی بغیر اختراع کے کرتا ہے۔ دوسری، ماخذ میں موجود نہ ہونے والے فیلڈ (escalation_history — گاہک نے اس مخصوص مسئلے پر کسی سابقہ رابطے کا ذکر نہیں کیا) کو ماڈل کیسے ہینڈل کرتا ہے — کیا وہ عدم موجودگی کا اعتراف کرتا ہے یا باور کر لینے کے قابل اختراع کر دیتا ہے؟ تیسری، کیا ماڈل JSON کے باہر کوئی اضافی تبصرہ پیدا کرتا ہے جسے ڈاؤن اسٹریم پارسنگ کے لیے ہٹانا پڑے۔ urgency فیلڈ بھی قابلِ توجہ ہے: "5 دن" فوری نہیں مگر گاہک واضح طور پر پریشان ہے، جس سے تعبیر کی گنجائش نکلتی ہے۔
جو ٹیمیں یہ چلاتی ہیں وہ مستقل کیا رپورٹ کرتی ہیں
GPT-5.5۔ عام طور پر پہلی ہی کوشش میں صاف JSON پیدا کرتا ہے۔ اسکیمہ کی پابندی مضبوط؛ ہر مطلوبہ فیلڈ موجود، اور فارمیٹ بغیر پری-پروسیسنگ کے پارس ہو سکتا ہے۔ گمشدہ فیلڈز کے لیے، GPT-5.5 عموماً واضح null لوٹاتا ہے۔ عموماً JSON کو مارک ڈاؤن کوڈ فینس میں لپیٹتا نہیں یا نثری وضاحت شامل نہیں کرتا، جس سے ڈاؤن اسٹریم پارسنگ سہل ہو جاتی ہے۔ اس طرح کی مبہم تعبیراتی فیصلوں میں، جیسے یہاں urgency ریٹنگ، GPT-5.5 دوسرے دو کی نسبت زیادہ محتاط ہوتا ہے — جہاں Claude اور Gemini گاہک کے جذباتی لہجے کی بنا پر ٹکٹ کو "high" ریٹ کر سکتے ہیں، GPT-5.5 اکثر ٹھوس 5 دن کی ونڈو پر اینکر کرتا ہے اور "medium" پر ٹھہرتا ہے۔
Claude Sonnet 4.6۔ صاف JSON بھی پیدا کرتا ہے، اور عام طور پر مطلوبہ اسکیمہ کی پیروی میں تینوں میں سب سے زیادہ دقیق ہوتا ہے۔ جہاں GPT-5.5 گمشدہ فیلڈ کو null چھوڑتا ہے، Claude اکثر غیر مطلوبہ فیلڈز شامل کر دیتا ہے جو ڈیٹا کوالٹی مسائل کو فلیگ کرتے ہیں — "notes" یا "data_quality_notes" جیسی کِی جو طلب نہیں کی گئی تھی مگر اس میں واقعی مفید معلومات ہوتی ہیں۔ یہ اضافی فیلڈ انسانِی نظرثانی کے لیے مفید ہے مگر اگر آپ کا ڈاؤن اسٹریم پارسر اسکیمہ کے بارے میں سخت ہو تو ناکامی کا سبب بنتا ہے۔ یہ Claude کے ساتھ ایک دہرا پیٹرن ہے: اعلیٰ معیار، مگر کبھی کبھی پرومپٹ کی فرمائش سے زیادہ وسعت، جسے محدود کرنے کے لیے صریح پرومپٹ ہدایات درکار ہوں۔
Gemini 3.1 Pro۔ عام طور پر تینوں میں سب سے کفایت شعار آؤٹ پٹ دیتا ہے۔ ہر مطلوبہ فیلڈ، کوئی اضافی فیلڈ نہیں، کوئی محیطی نثر نہیں۔ اسکیمہ کی پابندی بالکل جیسی مانگی گئی تھی۔ ایک قابلِ ذکر عادت: گمشدہ فیلڈز کے لیے Gemini null کی بجائے خالی سٹرنگ لوٹانے کا رجحان رکھتا ہے۔ سخت JSON پارسرز جو ان کے بیچ فرق کرتے ہیں اسے پکڑ لیں گے؛ ڈھیلے پارسرز نہیں۔ یہ برتاؤ مختلف رنز میں اتنا مستقل ہے کہ یہ ماڈل کی ترجیح محسوس ہوتی ہے نہ کہ کوئی حادثہ۔
اس سے کیا پتا چلتا ہے
تینوں ماڈلز ساختہ استخراج کر سکتے ہیں۔ فرق مطلوبہ اسکیمہ کے اردگرد رویہ جاتی حاشیے میں ہے۔ اگر آپ کا ڈاؤن اسٹریم سسٹم اسکیمہ کے بارے میں سخت ہے اور اضافی فیلڈز کو غلطی سمجھتا ہے، تو Gemini 3.1 Pro اور GPT-5.5 زیادہ محفوظ انتخاب ہیں۔ اگر آپ چاہتے ہیں کہ ماڈل کہے بغیر ڈیٹا کوالٹی مسائل سامنے لائے، تو Claude Sonnet 4.6 زیادہ مددگار ہے۔ یہ سب کچھ کسی بینچ مارک پر ظاہر نہیں ہوتا۔
پرومپٹ 2: منطق پر مبنی منصوبہ بندی کا کام
یہ پرومپٹ ماڈلز سے کثیر مرحلہ تحقیق کی منصوبہ بندی کہتا ہے: ایک تحقیقی سوال جس میں تین ضمنی حدود پوشیدہ ہیں جنہیں محتاط ماڈل کو قدم بندی سے پہلے شناخت کرنا چاہیے۔ وہ قسم کا کام جسے کوئی ایجنٹک ایپلیکیشن ٹولز کو بلا نے سے قبل منصوبہ بندی کے قدم کے طور پر LLM کے سپرد کرے گی۔
پرومپٹ
I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.
پسِ منظر میں موجود حدود جن پر نظر رکھنی چاہیے: سوال "چرن" کی تعریف نہیں کرتا (اکاؤنٹ بند؟ لاگ اِن نہیں؟ خریداری نہیں؟)، یہ نہیں بتاتا کہ مخلوط تغیرات کو کیسے کنٹرول کرنا ہے (کم مشغولیت والے صارف بہت سے اسباب سے چرن کرتے ہیں جو feature X سے غیر متعلق ہو سکتے ہیں)، اور یہ کوئی بنیادی موازنہ گروپ قائم نہیں کرتا۔ محتاط منصوبہ ساز کو یہ تینوں باتیں قدم بندی سے پہلے سامنے لانی چاہئیں۔
کن باتوں پر نظر رکھنی ہے
کیا ماڈل واقعی مسئلے پر غور کرتا ہے یا قابلِ یقین دکھنے والے ایسے قدم ترتیب دیتا ہے جو جانچ پرکھنے پر باہم جُڑتے نہیں۔ کیا یہ ان ضمنی حدود کی نشاندہی کرتا ہے جنہیں اسے بتایا نہیں گیا۔ اور کیا قدموں کے بیچ انحصار درست ہے — ایسا پلان جو دیکھنے میں درست لگے مگر اس میں تیسرا قدم اس نتیجے پر منحصر ہو جو پانچواں قدم پیدا کرے گا، عملی طور پر بیکار ہے۔
جو ٹیمیں یہ چلاتی ہیں وہ مستقل کیا رپورٹ کرتی ہیں
GPT-5.5۔ عموماً سب سے زیادہ عملی طور پر قابلِ استعمال منصوبہ پیدا کرتا ہے۔ استدلال نظر آتا ہے — GPT-5.5 اپنی مفروضات (چرن کی تعریف، کنٹرول گروپ، مخلوط تغیرات) کو قدم بندی سے پہلے گنتا ہے، جس سے یہ شناخت کرنا آسان ہو جاتا ہے کہ کہاں اس کی تعبیر مطلوبہ معنی سے مختلف ہو گئی ہے۔ قدموں کے انحصارات قابلِ بھروسا طور پر شناخت اور لیبل کیے جاتے ہیں۔ آؤٹ پٹ اکثر ایک سیکشن شامل کرتا ہے جو بتاتا ہے کہ کون سے قدم متوازی چل سکتے ہیں، جس کی فرمائش نہیں کی گئی تھی مگر واقعی قدر بڑھاتا ہے۔ یہ وہ کام ہے جہاں GPT-5.5 کی ٹول-یوز اور ایجنٹک ٹریننگ نمایاں ہوتی ہے — منصوبہ بندی کا برتاؤ اس مفروضے سے متاثر ہوتا ہے کہ نیچے کی طرف نفاذ ہوگا۔
Claude Sonnet 4.6۔ عموماً لفظی معنوں میں سب سے زیادہ غور و فکر والا پلان پیدا کرتا ہے — Claude کا پلان اکثر وہ غور و خوض شامل کرتا ہے جو دوسرے دو ماڈل نہیں اٹھاتے۔ ایسے سوال پر، Claude امکاناً باہمی ربط بمقابلہ علت و معلول کے طریقہ کار کا مسئلہ فلیگ کرے گا، نوٹ کرے گا کہ "گزشتہ 30 دن میں feature X استعمال نہیں کیا" خود چرن کی علامت ہو سکتا ہے سبب نہیں، اور واضح طور پر اُن حدود کی نشاندہی کرے گا جو بیان نہیں کی گئیں مگر جن پر کسی محتاط تجزیہ کار کو نظر جانی چاہیے۔ خامی: پلان ضرورت سے زیادہ طویل ہو سکتا ہے، اور بعض انفرادی قدم اصل سوال سے زیادہ انجینئر ہو جاتے ہیں۔ یہ Claude کے دوسرے مواقع کے برتاؤ سے ہم آہنگ ہے — ماہر سطح کی باریک بینی، کبھی کبھی ضرورت سے زیادہ۔
Gemini 3.1 Pro۔ عموماً سب سے صاف ستھرا ساختہ پلان پیدا کرتا ہے، جس میں انحصارات کا گراف سب سے واضح ہوتا ہے۔ استدلالی معیار بلند ہے — Gemini مستقل مزاجی سے ضمنی حدود کی نشاندہی کرتا ہے، مسئلے کو ایک دفاع پذیر سلسلے میں توڑتا ہے، اور قدم بہ قدم ہدایات دیتا ہے جو واقعۃً لاگو ہوں۔ خامی: پلان کسی حد تک میکانی محسوس ہو سکتا ہے۔ کام ہو جاتا ہے مگر Claude جو طریقہ کار کی باریکیاں اٹھاتا ہے وہ کم ابھرتی ہیں، اور نہ ہی GPT-5.5 جیسی متوازی کاری کی بصیرت شامل ہوتی ہے۔ یہ Gemini کے وسیع تر پیٹرن سے میل کھاتا ہے — استدلال میں مضبوط، گرد و نواح کے فیصلوں میں زیادہ عملیت پسند۔
اس سے کیا پتا چلتا ہے
اس کام پر تینوں ماڈلز کی استدلالی صلاحیت بلند ہے۔ فرق گرد و نواح کے برتاؤ میں ہے — ماڈل لفظی درخواست سے بڑھ کر کیا اضافہ کرتا ہے۔ GPT-5.5 عملی نفاذی بصیرتیں شامل کرتا ہے (متوازی کاری، عملدرآمدی نکات)۔ Claude ماہر سطح کی باریک بینی شامل کرتا ہے (طریقہ کار، کنارے کے کیسز، شماریاتی نزاکت)۔ Gemini وضاحت اور کفایت شامل کرتا ہے۔ یہ سب غلط انتخاب نہیں۔ آپ کی ایپلیکیشن کے لیے موزوں وہ ہے جو اس کے مطابق ہو کہ ماڈل کام مکمل کرنے کے بعد کیا کرے۔
پرومپٹ 3: مخصوص پابندیوں کے ساتھ کوڈ جنریشن
یہ پرومپٹ ماڈلز سے ایک چھوٹا مگر غیر معمولی فنکشن نافذ کراتا ہے: ایک Python فنکشن جو ٹائم سٹیمپڈ ایونٹس کی فہرست لیتا ہے اور مسلسل ایونٹس کے درمیان سب سے بڑا وقفہ (سیکنڈز میں) لوٹاتا ہے، چار کنارے کے کیسز ہینڈل کرتے ہوئے۔ پابندیاں صراحت کے ساتھ دی گئی ہیں؛ مقصد صلاحیت کی چھت کو آزمانا نہیں بلکہ پابندیوں کے ساتھ کوڈ جنریشن — ہر ماڈل یہ فنکشن لکھ سکتا ہے۔ فرق اس میں ہے کہ وہ پابندیوں کو کیسے نبھاتے ہیں۔
پرومپٹ
Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events. Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases: 1. Empty list (return 0.0 or raise — your choice, but be consistent) 2. Single event 3. Duplicate timestamps 4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.
کن باتوں پر نظر رکھنی ہے
کیا ماڈل چاروں کنارے کے کیسز کو ایڈریس کرتا ہے یا خاموشی سے کچھ چھوڑ دیتا ہے۔ کیا ٹائپ ہنٹس دقیق ہیں یا محض خانہ پُری۔ کیا نفاذ ایک دفاع پذیر الگورتھم (sort پھر scan) چنتا ہے یا کچھ غیر معمولی۔ اور کیا ماڈل آخر کی "کوئی ٹیسٹ یا استعمال کی مثالیں نہیں" جیسی ہدایت کی پابندی کرتا ہے — یہ وہ نوع کی آخری-پرومپٹ ہدایت ہے جسے مضبوط ہدایت-پیروی والے ماڈلز بجا لاتے ہیں اور کمزور خاموشی سے نظر انداز کر جاتے ہیں۔
جو ٹیمیں یہ چلاتی ہیں وہ مستقل کیا رپورٹ کرتی ہیں
GPT-5.5۔ عموماً سب سے زیادہ دفاعی انجینئرڈ کوڈ پیدا کرتا ہے۔ چاروں کنارے کے کیسز واضح شاخوں کے ساتھ ہینڈل، ٹائپ ہنٹس دقیق (اکثر edge-case واپسی کے لیے Optional یا Union تک)، اور ایک ڈاک سٹرنگ مثال کالز کے ساتھ۔ نفاذ بالعموم واضح الگورتھم — sort، scan، زیادہ سے زیادہ وقفہ ٹریک — چنتا ہے اور درست ہوتا ہے۔ قابلِ ذکر: GPT-5.5 اکثر یونٹ ٹیسٹس یا استعمال کی مثالیں شامل کر دیتا ہے حتیٰ کہ جب پرومپٹ صرف فنکشن مانگتا ہے۔ یہ عملی-پسند ماڈلز کے ساتھ سمجھوتہ ہے — وہ وہ چیزیں شامل کرتے ہیں جو انہیں لگتا ہے آپ کو درکار ہوں گی، چاہے آپ نے نہ مانگی ہوں۔
Claude Sonnet 4.6۔ عموماً سب سے زیادہ قابلِ قرأت کوڈ پیدا کرتا ہے۔ فنکشن مختصر، کنارے کے کیسز اوپر صاف گارڈ-کلاز پیٹرن سے ہینڈل، ٹائپ ہنٹس دقیق اور کم سے کم۔ Claude اکثر ایک بامعنی تبصرہ شامل کرتا ہے جو کسی ایسے فیصلے کی وضاحت کرتا ہے جسے پرومپٹ نے کھلا چھوڑا — مثلاً ڈپلیکیٹ ٹائم سٹیمپس کو صفر لمبائی وقفہ ماننا اور وجہ بیان کرنا، جو ایک دفاع پذیر انتخاب ہے جسے پرومپٹ نے مقرّر نہیں کیا تھا۔ Claude GPT-5.5 کی نسبت "کوئی ٹیسٹ نہیں" پابندی زیادہ قابلِ بھروسا طور پر نبھاتا ہے۔ خود فنکشن تینوں میں سب سے زیادہ مینٹینیبل ہوتا ہے۔ کوڈ معیار کے بارے میں Claude کی شہرت کے مطابق: صاف، محاورہ بند، ماہرانہ احساس۔
Gemini 3.1 Pro۔ عموماً تینوں میں سب سے مختصر کوڈ پیدا کرتا ہے۔ فنکشن درست، کنارے کے کیسز ہینڈل، نفاذ سب سے مختصر۔ ڈاک سٹرنگ عموماً ایک سطر۔ ٹائپ ہنٹس موجود اور دقیق۔ Gemini کا حل شاذ ہی ٹیسٹس یا تفصیلی تبصرے شامل کرتا ہے، اور حد سے زیادہ انجینئرنگ نہیں کرتا — عین وہی جو پرومپٹ نے مانگا تھا۔ اس ڈویلپر کے لیے جو ایک کام کرنے والا فنکشن چاہتا ہے اور ٹیسٹس الگ سے شامل کرے گا، یہ سب سے براہِ راست راستہ ہے۔ اس ڈویلپر کے لیے جو چاہتا ہے ماڈل گرد و نواح کا کام بھی کرے، دوسرے دو زیادہ شامل کرتے ہیں (چاہے آپ نے کہا نہ ہو)۔
اس سے کیا پتا چلتا ہے
تینوں ماڈلز یہ فنکشن لکھ سکتے ہیں۔ رویہ جاتی فرق اس میں ہے کہ لفظی درخواست سے بڑھ کر ہر ماڈل کتنا گرد و نواح کا کام کرتا ہے — اور وہ صریح "X نہ شامل کریں" ہدایات کی کتنی پابندی کرتا ہے۔ GPT-5.5 وسعت کی طرف جھکتا ہے، حتیٰ کہ جب پرومپٹ میں وسعت سے استثنا دیا گیا ہو۔ Claude صناعی کی طرف جھکتا ہے (قابلِ قرأت کوڈ، کھلے فیصلوں پر بامعنی تبصرہ)۔ Gemini کفایت کی طرف جھکتا ہے (بالکل وہی کریں جو مانگا گیا، اس سے زیادہ نہیں)۔ ایجنٹک ورک فلو میں جہاں ماڈل کا آؤٹ پٹ براہِ راست پروڈکشن کوڈ بیس میں جاتا ہے، مطلوبہ برتاؤ اس پر منحصر ہے کہ آپ کا ڈاؤن اسٹریم ریویو عمل کیا توقع کرتا ہے — اور آپ کو منفی ہدایات پر کتنی سختی چاہیے۔
ابھرنے والے پیٹرنز
اوپر کے تین پرامٹس میں، 2026 بھر میں شائع ہونے والے تقابلی مطالعات اور ڈویلپر رپورٹس سے تین مستقل رویہ جاتی پیٹرنز ابھرتے ہیں۔ یہ قابلیت کے دعوے نہیں — ہر ماڈل ہر کام کو اعلیٰ سطح پر سنبھالتا ہے۔ یہ رجحانات ہیں، وہ چیزیں جو آپ تب دیکھتے ہیں جب ٹیمیں ایک ہی ماڈل کو درجنوں پرامٹس پر دیکھتی ہیں۔ اپنی سیٹ اپ پر اوپر کے پرامٹس چلائیں اور آپ وہی پیٹرنز دیکھیں گے؛ یہ مضمون ان کی پہچان کے لیے فریم ورک دیتا ہے۔
| Model | Behavioural tendency | Fits best when… |
|---|---|---|
| GPT-5.5 | عملی نفاذی رجحان۔ ایکزیکیوشن ہِنٹس، دفاعی کوڈنگ، اور ڈاؤن اسٹریم کے لیے موزوں آؤٹ پٹ شامل کرتا ہے۔ ایجنٹک اور ٹول-یوز سے تشکیل شدہ کاموں پر مضبوط۔ | جب آپ کی ایپلیکیشن ماڈل کے آؤٹ پٹ کو مزید عملدرآمد سے جوڑتی ہے — ایجنٹس، ورک فلو، یا پائپ لائنز جہاں اگلا قدم خود کار ہو۔ |
| Claude Sonnet 4.6 | ماہر سطح کی نگہداشت۔ لفظی درخواست سے بڑھ کر غور و خوض سامنے لاتا ہے، اخلاقیات و طریقہ کار کے خدشات اٹھاتا ہے، بہت قابلِ قرأت کوڈ لکھتا ہے۔ | جب آپ کی ایپلیکیشن ماڈل کے آؤٹ پٹ پر انسانی نظرثانی رکھتی ہے — مواد تخلیق، کوڈ ریویو، تجزیہ جہاں صناعی اہم ہو۔ |
| Gemini 3.1 Pro | کفایت شعار اور براہِ راست۔ جو مانگا گیا ہے وہی کرتا ہے، اس سے زیادہ نہیں۔ مساوی کام کے لیے سب سے صاف اسکیمہ پابندی اور کم ترین ٹوکن آؤٹ پٹ۔ | جب آپ کی ایپلیکیشن کے آؤٹ پٹ تقاضے سخت ہوں، لاگت کی پیش بینی ترجیح ہو، یا آپ چاہتے ہوں کہ ماڈل ایک عینکول آلہ بنے نہ کہ ایک غور و فکر کرنے والا شریکِ کار۔ |
ایک اہم تنبیہ۔ یہ پیٹرنز رجحانات ہیں، قواعد نہیں۔ ہر ماڈل کو مناسب پرومپٹنگ سے ان میں سے کسی بھی برتاؤ کی طرف موڑا جا سکتا ہے — کافی تفصیلی سسٹم پرومپٹ Gemini سے ٹیسٹس شامل کرا دے گا، یا Claude کو کم از کم آؤٹ پٹ تک محدود کر دے گا، یا GPT-5.5 کو یونٹ ٹیسٹس چھوڑنے پر آمادہ کر دے گا۔ نکتہ یہ ہے کہ ہر ماڈل ڈیفالٹ میں کیا کرتا ہے، اس سے پہلے کہ آپ اسے موڑیں۔ ڈیفالٹ برتاؤ وہی ہے جس کے ساتھ آپ پروڈکشن میں رہتے ہیں جب تک آپ فعال طور پر اس کے خلاف پرومپٹ نہ کریں۔
اپنے ورک لوڈ پر کیسے آزمائیں
اوپر کی مشق کسی بھی ورک لوڈ پر دہرائی جا سکتی ہے — اور ایسا کرنا چاہیے بھی۔ بینچ مارک اسکور ابتدائی فلٹر کے طور پر مفید ہیں، مگر وہ ماڈل رویہ جاتی پیٹرنز جو آپ کی مخصوص ایپلیکیشن کے لیے اہم ہیں صرف تب دکھائی دیتے ہیں جب آپ ماڈلز کو اپنے مخصوص پرامٹس سنبھالتے ہوئے دیکھتے ہیں۔
اس مشق کو اپنے ٹریفک پر چلانے کے لیے عملی رہنمائی:
- تین نمائندہ پرومپٹ زمرے منتخب کریں۔ تین بے ترتیب پرامٹس نہیں — تین ایسے زمرے جو آپ کے ورک لوڈ پر محیط ہوں۔ زیادہ تر پروڈکشن سسٹمز کو چند پرامٹ اقسام (استخراج، درجہ بندی، جنریشن، استدلال، کوڈ، خلاصہ) میں ڈی کمپوز کیا جا سکتا ہے۔ وہ زمرے چنیں جو آپ کے ٹریفک کے بڑے حصے کا احاطہ کرتے ہیں۔
- فی زمرہ 20–30 مثالیں مرتب کریں۔ ترجیحاً حقیقی ٹریفک سے۔ ضرورت ہو تو نام ظاہر نہ کریں۔ مقصد یہ ہے کہ پرامٹس ویسے ہی لگیں جیسے آپ کی ایپلیکیشن واقعی دیکھتی ہے، بینچ مارک سوالات جیسے نہیں۔ فی زمرہ بیس مثالیں پیٹرنز دیکھنے کو کافی ہیں؛ تیس اعتماد کے لیے کافی ہیں۔
- ایک اینڈپوائنٹ سے، سب ماڈلز پر چلائیں۔ OpenAI-مطابقت پذیر ایگریگیٹر اینڈپوائنٹ اس کام کو کہیں تیز بنا دیتا ہے بنسبت ہر ماڈل کو اپنے SDK سے چلانے کے۔ اس مضمون کے اوپر کا کوڈ ہی پورا سیٹ اپ ہے۔ وہی ٹمپریچر، وہی پیرا میٹرز، وہی پرومپٹ — آؤٹ پٹ میں فرق ماڈلز کا فرق ہے۔
- مقداری سے پہلے معیاری گریڈ کریں۔ پہلے آؤٹ پٹس کو آنکھ سے دیکھیں۔ رویہ جاتی پیٹرنز عموماً پہلی درجن مثالوں کے اندر واضح ہو جاتے ہیں۔ جب آپ کو یہ قیاس ہو جائے کہ ہر ماڈل آپ کے ورک لوڈ پر کیسے برتاؤ کرتا ہے، تب اس کے مطابق گریڈنگ روبریک بنائیں — مگر قیاس مشاہدے سے آتا ہے، پہلے سے بنی گریڈنگ ٹیمپلیٹ سے نہیں۔
- اس پر توجہ دیں کہ ماڈل کیا اضافی کرتا ہے۔ بینچ مارک سوال یہ ہے کہ کیا ماڈل درست جواب دیتا ہے۔ رویہ جاتی سوال یہ ہے کہ وہ اور کیا کرتا ہے۔ کیا وہ ٹیسٹس شامل کرتا ہے؟ کیا وہ اپنی دلیل بیان کرتا ہے؟ کیا وہ خدشات اٹھاتا ہے؟ کیا وہ اضافی فیلڈز پیدا کرتا ہے جنہیں آپ نے نہیں مانگا؟ ماڈل کے فرق یہیں رہتے ہیں۔
- وہ ماڈل چنیں جو آپ کے ڈاؤن اسٹریم پیٹرن سے میل کھاتا ہے۔ اگر آپ کا ڈاؤن اسٹریم عمل خودکار ہے، تو آپ ایسے ماڈل چاہتے ہیں جس کا ڈیفالٹ برتاؤ صاف، پارس ایبل آؤٹ پٹ پیدا کرے۔ اگر آپ کا ڈاؤن اسٹریم عمل انسانی نظرثانی پر مبنی ہے، تو آپ ایسا ماڈل چاہتے ہیں جس کا ڈیفالٹ برتاؤ وہ گرد و نواح کا فیصلہ شامل کرے جو ایک انسانی نظرثانی کنندہ چاہے گا۔ درست جواب اس پر منحصر ہے کہ ماڈل کے بعد کیا آتا ہے۔
نتیجہ
GPT-5.5، Claude Sonnet 4.6، اور Gemini 3.1 Pro میں انتخاب اس بات پر نہیں کہ کون سا ماڈل "بہترین" ہے۔ یہ اس پر ہے کہ کون سا ماڈل آپ کے ورک لوڈ کی شکل سے میل کھاتا ہے — اور یہ وہ شکل ہے جسے بینچ مارکس دیکھ نہیں سکتے۔ اوپر کی مشق آپ کے پاس پرامٹس مرتب ہوں تو ایک دوپہر میں دہرائی جا سکتی ہے؛ اس کی قدر یہ ہے کہ آپ اندازہ لگانا چھوڑ کر مشاہدہ کرنا شروع کرتے ہیں۔
جو ٹیمیں یہ مشق خود چلا رہی ہیں: سب سے آسان سیٹ اپ ایک واحد OpenAI-مطابقت پذیر اینڈپوائنٹ ہے جو تینوں ماڈلز کو ایک ہی اسناد کے پیچھے سامنے لاتا ہے۔ CometAPI ایک راستہ ہے؛ آپ اپنے موجودہ OpenAI SDK کو ایک مختلف base URL کی طرف پوائنٹ کرتے ہیں اور model پیرا میٹر متغیر بن جاتا ہے۔ ہم رفیق مضمون، "The 2026 LLM API Pricing Comparison"، اسی فیصلے کے لاگت والے پہلو کا احاطہ کرتا ہے — دونوں مل کر آپ کو رویہ جاتی اور مالی تصویر دیتے ہیں جس کی بنا پر آپ اچھا انتخاب کر سکیں۔
بینچ مارکس آپ کو بتاتے ہیں کہ ماڈل کیا کر سکتا ہے۔ رویہ جاتی پیٹرنز یہ بتاتے ہیں کہ ماڈل آپ کے پرامٹس پر، ڈیفالٹ میں، کیا کرے گا۔ پہلا جواب شائع شدہ ہے۔ دوسرا آپ کو خود مشاہدہ کرنا ہوتا ہے۔ فی زمرہ بیس پرامٹس، ایک دوپہر، اور آپ کے پاس ایسا جواب ہوگا جو کوئی لیڈر بورڈ کبھی پیدا نہیں کرے گا۔
یقینی انضمام کے لیے تیار ہیں؟ CometAPI اور API دستاویزات پر جائیں تاکہ ایک ہی جگہ Claude Fable 5 سمیت دیگر فرنٹیئر ماڈلز تک رسائی، متحد بلنگ، اور انٹرپرائز-درجے کی اعتباریت حاصل کریں۔ آج ہی سائن اپ کریں اور نئے صارفین کے لیے فراخدل کریڈٹس کے ساتھ آغاز کریں — آپ کا اگلا بریک تھرو منصوبہ منتظر ہے۔
