GPT-5.5 بمقابلہ Claude Sonnet 4.6 بمقابلہ Gemini 3.1 Pro: وہ باتیں جو کوئی بینچ مارک آپ کو نہیں بتاتا

ہر اس ٹیم میں جو فرنٹیئر LLMs پر تعمیر کرتی ہے، ایک مخصوص طرح کی میٹنگ ہوتی ہے۔ کوئی تازہ ترین بینچ مارک لیڈر بورڈ شیئر کرتا ہے۔ کوئی اور بتاتا ہے کہ درجہ بندیاں پچھلے مہینے کے بعد سے بدل گئی ہیں۔ تیسرا شخص نوٹ کرتا ہے کہ وہ ماڈل جو ان کی ٹیم اس وقت استعمال کر رہی ہے، ایک ایسے میٹرک پر دو پوزیشن نیچے گیا ہے جس کے بارے میں تین ہفتے پہلے کسی نے نہیں سنا تھا۔ میٹنگ کے اختتام تک کسی کو یقین نہیں ہوتا کہ ہجرت کرنی چاہیے یا نہیں، اور گفتگو کو اگلی سہ ماہی کے لیے دوبارہ شیڈول کر دیا جاتا ہے۔

اس میٹنگ کا مسئلہ اس میں شامل لوگ نہیں ہیں۔ مسئلہ یہ ہے کہ بینچ مارکس مصنوعی کاموں کو ناپتے ہیں، اور آپ کی پروڈکٹ کوئی مصنوعی کام نہیں۔ لیڈر بورڈ آپ کو بتاتا ہے کہ ایک ماڈل MMLU، SWE-bench Verified یا GPQA Diamond پر کیسا کارکردگی دکھاتا ہے — ایسے ٹیسٹ جو محققین نے اس لیے ڈیزائن کیے ہیں کہ مختلف ماڈلز کے درمیان ناپے جا سکیں۔ ان میں سے کوئی ٹیسٹ اس طرح نہیں دکھتا جس طرح آپ کی ایپلیکیشن پروڈکشن میں واقعی پرامپٹس بھیجتی ہے۔ ان میں سے کوئی یہ نہیں پکڑتا کہ کوئی ماڈل آپ کے صارفین کے پیدا کردہ خاص، بکھرے اور ڈومین شکل کے ان پٹ کو کیسے سنبھالتا ہے۔

یہ تحریر وہی مشق قدم بہ قدم دکھاتی ہے جو بینچ مارکس نہیں کر سکتے۔ تین ٹھوس پرامپٹس، جو GPT-5.5، Claude Sonnet 4.6 اور Gemini 3.1 Pro کو ایک ہی OpenAI-مطابقت پذیر اینڈ پوائنٹ کے ذریعے، یکساں ٹیمپریچر سیٹنگز اور بغیر اضافی پرامپٹنگ کے بھیجے گئے ہیں۔ یہ پرامپٹس تین زمروں پر پھیلے ہیں جو زیادہ تر پروڈکشن ورک لوڈز کو چھوتے ہیں: بکھرے دستاویز سے اسٹرکچرڈ ایکسٹریکشن، ایک دلیل پر مبنی پلاننگ ٹاسک، اور پابندیوں کے تحت کوڈ جنریشن۔ ذیل میں درج مشاہدات وہ رویّاتی پیٹرنز ہیں جن کی اس قسم کے موازنے چلانے والی ٹیمیں مسلسل رپورٹ کرتی ہیں — وہ پیٹرنز جو آپ اپنے سیٹ اپ پر یہی پرامپٹس چلا کر خود دیکھیں گے۔

لیڈر بورڈز پر، یہ تینوں ماڈلز SWE-bench Verified پر ایک دوسرے سے 0.8 فیصد پوائنٹس کے اندر سکور کرتے ہیں۔ عملی طور پر، ان کا رویہ بہت مختلف ہے۔ انتخاب اس بات کا نہیں کہ بینچ مارکس پر کون سب سے زیادہ سکور کرتا ہے — بلکہ اس بات کا ہے کہ کس کا رویہ آپ کے ورک لوڈ کے مطابق بیٹھتا ہے۔

بینچ مارکس کیا ناپتے ہیں، اور کیا چھوڑ دیتے ہیں

بینچ مارکس اس لیے موجود ہیں کہ انہیں ہونا پڑتا ہے۔ ماڈل فراہم کرنے والوں کو اپنی صلاحیتوں کے دعوے کرنے کے لیے معیاری ٹیسٹ درکار ہوتے ہیں، محققین کو تقابلی مطالعے شائع کرنے کے لیے، اور باقی ہم سب کو ماڈلز کا اندازہ لگانے کے لیے کوئی معروضی نقطہ آغاز چاہیے۔ یہ مفید ہیں۔ لیکن پروڈکشن استعمال کے لیے ایسے طریقوں سے نامکمل بھی ہیں جو معنی رکھتے ہیں۔

تین مخصوص حدود قابلِ ذکر ہیں، کیونکہ ہر ایک ذیل کے پرامپٹس میں نظر آتی ہے۔

بینچ مارکس الگ تھلگ صلاحیت ناپتے ہیں، رویہ نہیں۔ SWE-bench Verified آپ کو بتاتا ہے کہ کوئی ماڈل GitHub کے ایک مخصوص نوعیت کے ایشو کو حل کر سکتا ہے یا نہیں۔ یہ نہیں بتاتا کہ ماڈل سادہ مسائل کو غیر ضروری طور پر پیچیدہ بناتا ہے یا نہیں، پرامپٹ مبہم ہو تو وضاحتی سوالات پوچھتا ہے یا نہیں، یا پہلی بار میں آپ کے کہے ہوئے ڈھانچے سے میل کھاتا آؤٹ پٹ دیتا ہے یا نہیں۔ یہ وہ چیزیں ہیں جو آپ پروڈکشن میں روز دیکھیں گے۔
بینچ مارکس پر ٹیو ننگ ہوتی ہے۔ جب کسی ماڈل کی ریلیز کسی خاص بینچ مارک کے سکور کو نمایاں کرتی ہے، تو یہ اشارہ ہوتا ہے کہ ماڈل کم از کم جزوی طور پر اسی بینچ مارک کے لیے بہتر بنایا گیا ہے۔ جیسے ہی ماڈل اس بینچ مارک کے ڈیزائن کردہ حالات سے باہر نکلتا ہے، حقیقی دنیا کی کارکردگی اور بینچ مارک کارکردگی — کبھی کبھی خاطر خواہ حد تک — مختلف ہو سکتی ہے۔
بینچ مارکس جمع کر دیتے ہیں۔ SWE-bench Verified پر 0.8 فیصد پوائنٹ کا فرق یہ چھپا سکتا ہے کہ ماڈل A ایک مخصوص زمرے کے ٹاسک میں بہت بہتر اور دوسرے میں بدتر ہے، جبکہ ماڈل B ہر جگہ یکساں ہے۔ یہ جمع بندی اس اطلاعاتی تفصیل کو گرا دیتی ہے جس کی آپ کو فیصلہ کرنے کے لیے ضرورت ہے۔

ذیل کی مشق اسی معلومات کو سامنے لانے کے لیے بنائی گئی ہے جسے بینچ مارکس جمع کر کے چھپا دیتے ہیں۔ مقصد فاتح قرار دینا نہیں — بلکہ آپ کو وہ سوالات دکھانا ہے جو آپ کو اپنے ہی پرامپٹس پر یہی مشق چلاتے وقت پوچھنے چاہئیں۔

سیٹ اپ

تین پرامپٹس، اس لیے چنے گئے کہ یہ زیادہ تر پروڈکشن ورک لوڈز سے میل کھاتے ہیں۔ سیٹ اپ: ہر پرامپٹ تینوں ماڈلز کو یکساں پیرا میٹرز کے ساتھ بھیجا گیا (temperature 0.3، کوئی سسٹم پرامپٹ اووررائیڈ نہیں، ڈیفالٹ ریسپانس فارمیٹ)، ایک ہی OpenAI-مطابقت پذیر اینڈ پوائنٹ کے ذریعے تاکہ موازنہ بالکل مساوی رہے — نہ کسی فراہم کنندہ کے مخصوص SDK کے جھنجھٹ، نہ مختلف پیرا میٹر میپنگز، نہ اس بات کا خطرہ کہ ریکوئسٹ کی تعمیر کی وجہ سے کسی ماڈل کے ساتھ خصوصی سلوک ہو جائے۔

خود پرامپٹس نیچے ہیں، کوڈ بلاکس میں جنہیں آپ کاپی کر کے چلا سکتے ہیں۔ ہر ایک کے بعد دیے گئے رویّاتی خاکے وہ پیٹرنز ہیں جو اس طرح کی تقابلی آزمائش چلانے والی ٹیمیں مستقل رپورٹ کرتی ہیں — پیٹرنز جو 2026 کی متعدد تھرڈ پارٹی مطالعات میں درج ہیں، اور جو آپ اپنے سیٹ اپ پر یہی پرامپٹس چلا کر خود دیکھیں گے۔ خود چلانا ہی مقصد ہے؛ یہ مضمون آپ کو فریم ورک اور ابتدائی پرامپٹس دینے کے لیے موجود ہے۔

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["COMET_API_KEY"],  # or replace with your API key
    base_url="https://api.cometapi.com/v1",  # one endpoint, multiple models
)

MODELS = [
    "gpt-5.5",
    "claude-sonnet-4-6",
    "gemini-3.1-pro",
]


def run_comparison(prompt: str, temperature: float = 0.3) -> dict[str, str]:
    """
    Send the same prompt to all three models and return their responses.
    """
    responses = {}

    for model in MODELS:
        result = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            temperature=temperature,
        )

        responses[model] = result.choices[0].message.content

    return responses


# Example usage
if __name__ == "__main__":
    prompt = "Summarise the key risks in this contract."

    outputs = run_comparison(prompt)

    for model, response in outputs.items():
        print(f"\n--- {model} ---")
        print(response)

پرامپٹ 1: بکھری دستاویز سے اسٹرکچرڈ ایکسٹریکشن

یہ 2026 میں جاری ہونے والی نصف LLM خصوصیات کا بنیادی کام ہے۔ ایک غیر اسٹرکچرڈ ان پٹ — کوئی ای میل، سپورٹ ٹکٹ، میٹنگ ٹرانسکرپٹ، اسکین کیا ہوا فارم — لیں اور مخصوص فیلڈز کو ایک اسٹرکچرڈ آبجیکٹ میں نکالیں۔ ذیل کا پرامپٹ ہر ماڈل سے ایک جان بوجھ کر بکھری کسٹمر سپورٹ ای میل سے سات فیلڈز نکالنے کو کہتا ہے جس میں جزوی معلومات، متضاد اشارے، اور ایک ایسی فیلڈ شامل ہے جو سرے سے ماخذ متن میں موجود ہی نہیں۔

پرامپٹ

You are processing customer support emails. Extract the followingseven fields from the email below into a JSON object with exactlythese keys:&nbsp;- customer_name (string)- order_id (string)- issue_type (one of: "shipping", "product_quality", "billing",&nbsp;&nbsp;"returns", "other")- urgency (one of: "low", "medium", "high")- requested_action (string)- affected_product (string)- escalation_history (any prior contact about this issue, if mentioned)&nbsp;

Email:---Hi there,&nbsp;I'm writing about order #FT-2289334 from last Tuesday. The Cascadehiking boots I received are NOT the size 11 I ordered — they'reclearly size 10 (I can see the label inside). I have a guided trekbooked in 5 days and I genuinely don't know what to do. I've beena customer for years and this is the first time something likethis has happened.&nbsp;Can you sort this out urgently? I'd prefer a same-day exchange ifat all possible. I'm in Manchester.&nbsp;Margaret W.---&nbsp;Return only the JSON object. No commentary, no markdown code fences.

کن چیزوں پر نظر رکھیں

تین چیزیں۔ اول، کیا ماڈل بغیر اختراع کے مانگے گئے JSON اسکیمہ کی پابندی کرتا ہے۔ دوم، ماڈل اس فیلڈ کو کیسے سنبھالتا ہے جو ماخذ میں موجود نہیں (escalation_history — صارف اس مخصوص مسئلے پر کسی پہلے رابطے کا ذکر نہیں کرتا) — کیا وہ عدم موجودگی کو تسلیم کرتا ہے یا قرینِ قیاس گھڑتا ہے؟ سوم، کیا ماڈل JSON کے باہر اضافی تبصرہ پیدا کرتا ہے، جسے ڈاؤن اسٹریم پارسنگ میں لپیٹی ہوئی چیزیں اتارنے کی ضرورت پیش آئے۔ urgency فیلڈ بھی توجہ کے قابل ہے: "5 دن" فوری نہیں، لیکن صارف واضح طور پر مضطرب ہے — اس میں تعبیر کی گنجائش ہے۔

وہ کیا رپورٹ کرتے ہیں جو یہ ٹیسٹ مسلسل چلاتے ہیں

GPT-5.5. عموماً پہلی ہی کوشش میں صاف JSON دیتا ہے۔ اسکیمہ کی پابندی مضبوط؛ ہر مطلوبہ فیلڈ موجود اور فارمیٹ پری پروسیسنگ کے بغیر پارس ایبل۔ گم شدہ فیلڈز کے لیے، GPT-5.5 عموماً واضح null واپس کرتا ہے۔ عموماً JSON کو مارک ڈاؤن کوڈ فینسز میں لپیٹتا نہیں اور نہ نثری وضاحت شامل کرتا ہے، جس سے ڈاؤن اسٹریم پارسنگ معمولی ہو جاتی ہے۔ ایسی مبہم تعبیراتی جگہوں پر جیسے یہاں urgency کی درجہ بندی، GPT-5.5 دوسرے دونوں کے مقابلے زیادہ محتاط رہتا ہے — جہاں Claude اور Gemini صارف کے جذباتی لہجے کی بنا پر ٹکٹ کو "high" قرار دے سکتے ہیں، GPT-5.5 عموماً ٹھوس 5 دن کی کھڑکی پر اینکر کر کے "medium" پر آتا ہے۔

Claude Sonnet 4.6. یہ بھی صاف JSON پیدا کرتا ہے، اور عام طور پر تینوں میں مانگے گئے اسکیمہ کی پیروی میں سب سے زیادہ دقیق ہوتا ہے۔ جہاں GPT-5.5 گم شدہ فیلڈ کو null چھوڑتا ہے، Claude اکثر غیر مطلوبہ فیلڈز شامل کر دیتا ہے جو ڈیٹا کوالٹی مسائل کو فلیگ کرتی ہیں — "notes" یا "data_quality_notes" جیسی کی جن کی فرمائش نہیں تھی مگر ان میں واقعی مفید معلومات ہوتی ہیں۔ یہ اضافی فیلڈ انسانی ریویو کے لیے مفید ہے مگر اگر آپ کا ڈاؤن اسٹریم پارسر اسکیمہ کے بارے میں سخت ہو تو یہ ایررز کا باعث بنتی ہے۔ Claude کے ساتھ یہ بار بار آنے والا پیٹرن ہے: اعلیٰ معیار، مگر کبھی کبھی پرامپٹ سے زیادہ پُر وسعت، جس کے لیے واضح ہدایات سے پابند کرنا پڑتا ہے۔

Gemini 3.1 Pro. عام طور پر تینوں میں سب سے زیادہ مختصر آؤٹ پٹ دیتا ہے۔ ہر مطلوبہ فیلڈ، کوئی اضافی فیلڈ نہیں، کوئی گھیراؤ نثری متن نہیں۔ اسکیمہ کی پابندی بالکل جیسی مانگی گئی تھی۔ قابلِ ذکر ایک عادت: گم شدہ فیلڈز کے لیے، Gemini null کے بجائے خالی سٹرنگ واپس کرنے کا رجحان رکھتا ہے۔ سخت JSON پارسرز جو دونوں میں فرق کرتے ہیں اسے پکڑ لیں گے؛ نرم مزاج پارسرز نہیں۔ یہ رویہ اتنا یکساں ہے کہ یہ ماڈل کی ترجیح معلوم ہوتا ہے، حادثہ نہیں۔

اس سے کیا پتہ چلتا ہے

تینوں ماڈلز اسٹرکچرڈ ایکسٹریکشن کر سکتے ہیں۔ فرق مانگے گئے اسکیمہ کے گرد رویّاتی مارجن میں ہے۔ اگر آپ کا ڈاؤن اسٹریم سسٹم اسکیمہ کے بارے میں سخت ہے اور اضافی فیلڈز کو ایرر سمجھتا ہے، تو Gemini 3.1 Pro اور GPT-5.5 زیادہ محفوظ انتخاب ہیں۔ اگر آپ چاہتے ہیں کہ ماڈل کہے بغیر ڈیٹا کوالٹی مسائل کو سطح پر لائے، Claude Sonnet 4.6 زیادہ مددگار ہے۔ یہ سب کسی بینچ مارک پر نظر نہیں آتا۔

پرامپٹ 2: دلیل پر مبنی ایک پلاننگ ٹاسک

یہ پرامپٹ ماڈلز سے ایک کثیرمرحلہ تحقیق کی منصوبہ بندی کرنے کو کہتا ہے: ایک ریسرچ سوال جس میں تین ضمنی قیود مضمر ہیں جنہیں کوئی محتاط ماڈل قدم بندی سے پہلے شناخت کرے۔ وہی قسم کا کام جو ایک ایجنٹک ایپلیکیشن ٹولز چلانے سے پہلے LLM کو بطور منصوبہ بندی سونپے گی۔

پرامپٹ

I'm trying to answer this research question for my team: "Is our customer churn rate higher among users who haven't usedfeature X in the last 30 days?" Produce a plan for how to investigate this. The plan should:- Identify the steps required- Sequence them with dependencies- Be actionable for a data analyst on my team Return the plan in clear, structured form.

ضمنی قیود جن پر نظر رکھنی ہے: سوال یہ نہیں بتاتا کہ "churn" سے مراد کیا ہے (اکاؤنٹ بند؟ لاگ اِن نہیں؟ خریداری نہیں؟)، یہ وضاحت نہیں کرتا کہ اختلاطی متغیرات کو کیسے قابو میں رکھا جائے گا (کم انگیجمنٹ والے صارفین بہت سے غیر متعلقہ اسباب کی بنا پر churn کرتے ہیں)، اور یہ کوئی بنیادی تقابلی گروہ قائم نہیں کرتا۔ کوئی محتاط پلانر قدموں پر جانے سے پہلے تینوں کو سطح پر لانا چاہیے۔

کن چیزوں پر نظر رکھیں

کیا ماڈل واقعی مسئلے پر غور کرتا ہے یا ایک ایسا قرینِ قیاس قدم بہ قدم سلسلہ پیدا کرتا ہے جو کڑی نظر سے پرکھنے پر نہیں جمے گا۔ کیا وہ ضمنی قیود کو بتائے بغیر خود شناخت کرتا ہے۔ اور کیا قدموں کے مابین انحصارات درست ہیں — ایک پلان جو اوپر سے ٹھیک لگتا ہو مگر جس میں تیسرے قدم کا انحصار اس نتیجے پر ہو جو پانچواں قدم پیدا کرے گا، عمل میں بے کار ہے۔

وہ کیا رپورٹ کرتے ہیں جو یہ ٹیسٹ مسلسل چلاتے ہیں

GPT-5.5. عموماً سب سے زیادہ عملی طور پر قابلِ عمل پلان پیدا کرتا ہے۔ دلیل سامنے نظر آتی ہے — GPT-5.5 اپنے مفروضات کو بطور فہرست رکھتا ہے (churn کی تعریف، کنٹرول گروپ، اختلاطی عوامل) قدموں کی ترتیب سے پہلے، جس سے یہ دیکھنا آسان ہو جاتا ہے کہ اس کی تعبیر کہاں ارادے سے مختلف ہے۔ قدمی انحصارات قابلِ اعتماد طور پر شناخت اور لیبل ہوتے ہیں۔ آؤٹ پٹ میں اکثر ایک سیکشن ہوتا ہے جو بتاتا ہے کون سے قدم متوازی چل سکتے ہیں؛ یہ طلب نہیں کیا گیا تھا مگر حقیقی قدر بڑھاتا ہے۔ اسی قسم کے ٹاسک میں GPT-5.5 کی ٹول-یوز اور ایجنٹک تربیت سامنے آتی ہے — پلاننگ کا رویہ اس مفروضے سے تشکیل پاتا ہے کہ نیچے نفاذ ہونا ہے۔

Claude Sonnet 4.6. عموماً سب سے زیادہ سوچا سمجھا پلان پیدا کرتا ہے — لفظی معنوں میں۔ Claude کے پلان میں اکثر وہ غور و فکر شامل ہوتا ہے جو دوسرے دو ماڈلز نہیں اٹھاتے۔ اس سوال پر، Claude امکان ہے کہ سببیت/ہم ارتباط کے مسئلے کی نشان دہی کرے، یہ نوٹ کرے کہ "گزشتہ 30 دن میں فیچر X استعمال نہیں کیا" بذاتِ خود churn کی علامت ہو سکتی ہے نہ کہ علت، اور وہ قیود واضح کرے جو بیان نہیں کی گئیں مگر ایک محتاط تجزیہ کار کو نظر آنی چاہئیں۔ نقص: پلان کبھی کبھی ضرورت سے زائد طویل، اور انفرادی قدم کبھی سوال سے زیادہ انجینئرڈ ہوتے ہیں۔ یہ Claude کے دیگر مقامات کے رویے سے ہم آہنگ ہے — ماہرانہ احتیاط، کبھی کبھی ٹاسک سے زیادہ۔

Gemini 3.1 Pro. عموماً سب سے زیادہ صاف ستھرا ساختہ پلان دیتا ہے، سب سے واضح انحصاری گراف کے ساتھ۔ دلیل کی کوالٹی بلند — Gemini مستقل طور پر ضمنی قیود کی شناخت کرتا ہے، مسئلے کو قابلِ دفاع تسلسل میں تقسیم کرتا ہے، اور ایسے قدم بہ قدم ہدایات دیتا ہے جو واقعی نافذ ہو سکیں۔ خامی: پلان کبھی کبھی کچھ مشینی سا محسوس ہوتا ہے۔ کام تو ہو جاتا ہے مگر Claude کی طرح طریقہ کار کی باریکیاں نہیں اٹھاتا، نہ GPT-5.5 جیسے متوازی کاری کے اشارے دیتا ہے۔ یہ Gemini کے وسیع تر پیٹرن سے میل کھاتا ہے — دلیل میں مضبوط، اردگرد کے فیصلوں میں زیادہ کاریگرانہ اور سیدھا۔

اس سے کیا پتہ چلتا ہے

اس ٹاسک پر تینوں ماڈلز کی دلیل کی کوالٹی بلند ہے۔ فرق اس بات میں ہے کہ حرفِ مطلب کے علاوہ ماڈل کیا اضافہ کرتا ہے۔ GPT-5.5 عملیاتی عملیت پسندی جوڑتا ہے (متوازی کاری، نفاذ کے اشارے)۔ Claude ماہرانہ احتیاط جوڑتا ہے (طریقہ کار، کنارے کے کیسز، شماریاتی نزاکت)۔ Gemini وضاحت اور اختصار جوڑتا ہے۔ ان میں سے کوئی انتخاب غلط نہیں۔ کون سا آپ کی ایپلیکیشن کے لیے موزوں ہے اس کا دارومدار اس پر ہے کہ آپ چاہتے ہیں ماڈل اس کام کے بعد کیا کرے جو آپ نے اس سے کہا۔

پرامپٹ 3: مخصوص پابندیوں کے ساتھ کوڈ جنریشن

یہ پرامپٹ ماڈلز سے ایک چھوٹا مگر غیر معمولی نہیں فنکشن لکھوانے کو کہتا ہے: ایک Python فنکشن جو ٹائم اسٹیمپڈ ایونٹس کی فہرست لیتا ہے اور متواتر ایونٹس کے درمیان طویل ترین وقفہ (سیکنڈز میں) واپس کرتا ہے، چار ایج کیسز سنبھالتے ہوئے۔ پابندیاں صریح ہیں؛ مقصد صلاحیت کی چھت آزمانا نہیں — ہر ماڈل یہ فنکشن لکھ سکتا ہے۔ فرق اس میں آئے گا کہ وہ پابندیوں سے کیسے نمٹتے ہیں۔

پرامپٹ

Write a Python function that takes a list of timestamped events andreturns the longest gap (in seconds) between consecutive events.&nbsp;Requirements:- Function signature: longest_gap(events: list[datetime]) -> float- Handle these edge cases:&nbsp;&nbsp;1. Empty list (return 0.0 or raise — your choice, but be consistent)&nbsp;&nbsp;2. Single event&nbsp;&nbsp;3. Duplicate timestamps&nbsp;&nbsp;4. Unsorted input- Use only the standard library- Include type hints- Return just the function. No tests or usage examples.

کن چیزوں پر نظر رکھیں

کیا ماڈل چاروں ایج کیسز کو ایڈریس کرتا ہے یا کسی کو خاموشی سے چھوڑ دیتا ہے۔ کیا ٹائپ ہنٹس درست ہیں یا محض رسمی۔ کیا نفاذ قابلِ دفاع الگورتھم (sort پھر scan) چنتا ہے یا کچھ انوکھا۔ اور کیا ماڈل پرامپٹ کے آخر کی "کوئی ٹیسٹ نہیں، کوئی استعمال کی مثالیں نہیں" جیسی ہدایت کا احترام کرتا ہے — یہ وہ قسم کی دیر سے آنے والی ہدایت ہے جسے مضبوط انسٹرکشن فالوئنگ والے ماڈلز مانتے ہیں اور کمزور چپکے سے توڑ دیتے ہیں۔

وہ کیا رپورٹ کرتے ہیں جو یہ ٹیسٹ مسلسل چلاتے ہیں

GPT-5.5. عموماً سب سے زیادہ بخوبی انجینئرڈ کوڈ دیتا ہے۔ چاروں ایج کیسز واضح برانچز کے ساتھ ہینڈل، ٹائپ ہنٹس دقیق (اکثر Optional یا Union تک، ایج کیس ریٹرن ویلیوز کے لیے)، اور ایک ڈاک سٹرنگ مثال کالز کے ساتھ۔ نفاذ عموماً واضح الگورتھم چنتا ہے — sort، scan، max gap ٹریک — اور درست ہوتا ہے۔ قابلِ توجہ: GPT-5.5 اکثر یونٹ ٹیسٹس یا استعمال کی مثالیں شامل کر دیتا ہے حتیٰ کہ جب پرامپٹ نے صراحتاً صرف فنکشن مانگا ہو۔ یہ عملیاتی عملیت پسند ماڈلز کی قیمت ہے — وہ وہ چیزیں بڑھا دیتے ہیں جو انہیں لگتا ہے آپ کو چاہئیں گی، چاہے آپ نے منع کیا ہو۔

Claude Sonnet 4.6. عموماً سب سے زیادہ قابلِ مطالعہ کوڈ دیتا ہے۔ فنکشن مختصر، ایج کیسز اوپر صاف گارڈ کلاز پیٹرن کے ساتھ ہینڈل، ٹائپ ہنٹس درست اور کم سے کم۔ Claude اکثر ایک سوچ سمجھا ہوا تبصرہ شامل کرتا ہے جو کسی ایسے فیصلے کی وضاحت کرتا ہے جسے پرامپٹ نے کھلا چھوڑا — مثلاً duplicate timestamps پر انہیں صفر لمبائی کے گیپس سمجھنا اور یہ کیوں، جو ایک قابلِ دفاع فیصلہ ہے جسے پرامپٹ نے مخصوص نہیں کیا۔ Claude عموماً "کوئی ٹیسٹس نہیں" کی ہدایت کا GPT-5.5 سے زیادہ احترام کرتا ہے۔ فنکشن بذاتِ خود تینوں میں سب سے زیادہ قابلِ نگہداشت ہے۔ Claude کی کوڈ کوالٹی کی شہرت سے ہم آہنگ: صاف، محاوراتی، ماہر طرز۔

Gemini 3.1 Pro. عموماً تینوں میں سب سے زیادہ مختصر کوڈ دیتا ہے۔ فنکشن درست، ایج کیسز ہینڈل، نفاذ سب سے چھوٹا۔ ڈاک سٹرنگ عموماً ایک سطر۔ ٹائپ ہنٹس موجود اور درست۔ Gemini کا حل شاذ ہی ٹیسٹس یا طویل تبصرے شامل کرتا ہے، اور زیادہ انجینئرنگ نہیں کرتا — جو ٹھیک ویسا ہی ہے جیسا پرامپٹ نے کہا تھا۔ اس ڈویلپر کے لیے جو ایک کام کرنے والا فنکشن چاہتا ہے اور ٹیسٹس خود شامل کرے گا، یہ سب سے سیدھا راستہ ہے۔ اس ڈویلپر کے لیے جو چاہتا ہے ماڈل اردگرد کا کام بھی کرے، دوسرے دو زیادہ کچھ جوڑتے ہیں (چاہے آپ نے کہا ہو کہ نہ جوڑیں)۔

اس سے کیا پتہ چلتا ہے

تینوں ماڈلز فنکشن لکھ سکتے ہیں۔ رویّاتی فرق اس میں ہے کہ حرفِ مطلب سے بڑھ کر ہر ایک کتنا اردگرد کا کام کرتا ہے — اور وہ صریح "X مت جوڑیں" ہدایات کا کتنا احترام کرتا ہے۔ GPT-5.5 ہمہ گیری کی طرف جھکتا ہے، حتیٰ کہ جب پرامپٹ میں ہمہ گیری معاف کر دی گئی ہو۔ Claude ہنر کی طرف جھکتا ہے (قابلِ مطالعہ کوڈ، فیصلوں پر بامعنی تبصرے)۔ Gemini اختصار کی طرف جھکتا ہے (جو مانگا گیا، بس وہی)۔ ایجنٹک ورک فلو میں جہاں ماڈل کا آؤٹ پٹ سیدھا پروڈکشن کوڈ بیس میں جاتا ہے، مطلوبہ رویہ اس پر ہے کہ آپ کے ڈاؤن اسٹریم ریویو عمل کی توقع کیا ہے — اور آپ کو منفی ہدایات کی کتنی سختی درکار ہے۔

ابھرنے والے پیٹرنز

اوپر کے تین پرامپٹس میں، 2026 بھر میں شائع ہونے والی تقابلی مطالعات اور ڈویلپر رپورٹس سے تین مستقل رویّاتی پیٹرنز ابھرتے ہیں۔ یہ صلاحیتی دعوے نہیں — ہر ماڈل ہر کام کو بلند سطح پر سنبھالتا ہے۔ یہ رجحانات ہیں، وہ چیزیں جو تب نظر آتی ہیں جب ٹیمیں ایک ہی ماڈل کو درجنوں پرامپٹس پر دیکھتی ہیں۔ اپنے سیٹ اپ پر اوپر کے پرامپٹس چلائیے اور آپ وہی پیٹرنز دیکھیں گے؛ یہ مضمون آپ کو پہچاننے کا فریم ورک دیتا ہے کہ آپ کیا دیکھ رہے ہیں۔

Model	رویّاتی رجحان	بہترین موزونیت کب…
GPT-5.5	عملیاتی طور پر عملیت پسند۔ نفاذی اشارے، دفاعی کوڈنگ، اور ڈاؤن اسٹریم دوست آؤٹ پٹ جوڑتا ہے۔ ایجنٹک اور ٹول-یوز شکل کے کاموں پر مضبوط۔	آپ کی ایپلیکیشن ماڈل کے آؤٹ پٹ کو مزید نفاذ میں جوڑتی ہے — ایجنٹس، ورک فلو، یا پائپ لائنز جہاں اگلا قدم خودکار ہے۔
Claude Sonnet 4.6	ماہرانہ احتیاط۔ حرفِ مطلب سے آگے غور و فکر اٹھاتا ہے، اخلاقیات و طریقہ کار کے خدشات کو سامنے لاتا ہے، نہایت قابلِ مطالعہ کوڈ پیدا کرتا ہے۔	آپ کی ایپلیکیشن میں انسان ماڈل کے آؤٹ پٹ کا جائزہ لیتا ہے — کانٹینٹ جنریشن، کوڈ ریویو، ایسا تجزیہ جہاں ہنر اور صفائی اہم ہیں۔
Gemini 3.1 Pro	مختصر اور براہِ راست۔ جو کہا گیا، بس وہی۔ مساوی کام کے لیے سب سے صاف اسکیمہ پابندی اور کم ترین ٹوکن آؤٹ پٹ۔	آپ کی ایپلیکیشن میں سخت آؤٹ پٹ تقاضے ہیں، لاگت کی پیش بینی ترجیح ہے، یا آپ ماڈل کو ایک عین اوزار رکھنا چاہتے ہیں نہ کہ ایک سوچنے والا شریکِ کار۔

ایک اہم انتباہ۔ یہ پیٹرنز رجحانات ہیں، قواعد نہیں۔ مناسب پرامپٹنگ سے ہر ماڈل کو ان میں سے کسی بھی رویے کی طرف موڑا جا سکتا ہے — کافی تفصیلی سسٹم پرامپٹ Gemini سے ٹیسٹس جوڑوا دے گا، یا Claude کو کم از کم آؤٹ پٹ تک محدود کر دے گا، یا GPT-5.5 کو یونٹ ٹیسٹس چھوڑنے پر آمادہ کر دے گا۔ نکتہ یہ ہے کہ ہر ماڈل ڈیفالٹ میں کیا کرتا ہے، اسٹیئرنگ سے پہلے۔ پروڈکشن میں ڈیفالٹ رویہ وہی ہوتا ہے جس کے ساتھ آپ رہتے ہیں جب تک آپ اس کے خلاف فعال طور پر پرامپٹ نہ کریں۔

اپنے ورک لوڈ پر کیسے آزمائیں

اوپر کی مشق کسی بھی ورک لوڈ پر دہرائی جا سکتی ہے، اور کرنی بھی چاہیے۔ بینچ مارک سکورز ابتدائی فلٹر کے طور پر مفید ہیں، مگر آپ کی مخصوص ایپلیکیشن کے لیے اہم ماڈل رویّے صرف تب نظر آتے ہیں جب آپ ماڈلز کو اپنے مخصوص پرامپٹس سنبھالتے دیکھتے ہیں۔

اس مشق کو اپنی ٹریفک پر چلانے کی عملی رہنمائی:

تین نمائندہ پرامپٹ زمروں کا انتخاب کریں۔ کوئی تین بے ترتیب پرامپٹس نہیں — تین ایسے زمرے جو آپ کے ورک لوڈ پر محیط ہوں۔ زیادہ تر پروڈکشن سسٹمز چند پرامپٹ اقسام میں تحلیل ہو سکتے ہیں (extraction، classification، generation، reasoning، code، summarisation)۔ وہ چنیں جو آپ کی ٹریفک کا bulk بناتے ہیں۔
فی زمرہ 20–30 مثالیں مرتب کریں۔ ممکن ہو تو حقیقی ٹریفک سے۔ جہاں ضرورت ہو گمنام کریں۔ نکتہ یہ ہے کہ پرامپٹس ویسے دکھیں جیسے آپ کی ایپلیکیشن حقیقتاً دیکھتی ہے، نہ کہ بینچ مارک سوالات جیسے۔ فی زمرہ بیس مثالیں پیٹرنز دیکھنے کے لیے کافی؛ تیس اعتماد کے لیے۔
ایک اینڈ پوائنٹ، سب ماڈلز پر چلائیں۔ OpenAI-مطابقت پذیر مجموعی اینڈ پوائنٹ اسے اس سے کہیں تیز بنا دیتا ہے کہ ہر ماڈل کو اس کے اپنے SDK سے چلائیں۔ اس مضمون کے اوپر کا کوڈ مکمل سیٹ اپ ہے۔ ایک ہی temperature، ایک ہی پیرا میٹرز، ایک ہی پرامپٹ — آؤٹ پٹ میں فرق ماڈلز کا فرق ہے۔
مقداری سے پہلے معیاری گریڈ کریں۔ پہلے آؤٹ پٹس پر نظر ڈالیں۔ رویّاتی پیٹرنز عموماً پہلی درجن مثالوں میں واضح ہو جاتے ہیں۔ جب آپ کے پاس یہ مفروضہ ہو کہ ہر ماڈل آپ کے ورک لوڈ پر کیسے برتاؤ کرتا ہے، تب اس کے خلاف گریڈ کرنے کا rubric بنائیں — مگر مفروضہ مشاہدے سے آتا ہے، پہلے سے بنے گریڈنگ ٹیمپلیٹ سے نہیں۔
اس پر توجہ دیں کہ ماڈل کیا اضافہ کرتا ہے۔ بینچ مارک سوال یہ ہے کہ ماڈل درست جواب دیتا ہے یا نہیں۔ رویّاتی سوال یہ ہے کہ ماڈل اور کیا کرتا ہے۔ کیا وہ ٹیسٹس جوڑتا ہے؟ کیا اپنی دلیل سمجھاتا ہے؟ کیا خدشات اٹھاتا ہے؟ کیا وہ اضافی فیلڈز پیدا کرتا ہے جن کی آپ نے فرمائش نہیں کی؟ ماڈلز کے فرق یہی ہیں۔
وہ ماڈل چنیں جو آپ کے ڈاؤن اسٹریم پیٹرن سے میل کھاتا ہو۔ اگر آپ کا ڈاؤن اسٹریم عمل خودکار ہے، تو آپ ایسا ماڈل چاہتے ہیں جس کا ڈیفالٹ رویہ صاف، پارس ایبل آؤٹ پٹ پیدا کرے۔ اگر آپ کا ڈاؤن اسٹریم عمل انسانی ریویو ہے، تو آپ ایسا ماڈل چاہتے ہیں جس کا ڈیفالٹ رویہ وہ اردگرد کی فیصلہ سازی جوڑے جسے کوئی انسانی ریویور دیکھنا چاہے گا۔ درست جواب کا دارومدار اس پر ہے کہ ماڈل کے بعد کیا آتا ہے۔

نتیجہ

GPT-5.5، Claude Sonnet 4.6، اور Gemini 3.1 Pro کے درمیان انتخاب اس بات کا نہیں کہ کون سا ماڈل بہترین ہے۔ یہ اس بات کا ہے کہ کون سا ماڈل آپ کے ورک لوڈ کی ساخت میں فِٹ بیٹھتا ہے — اور وہ ساخت ایسی ہے جسے بینچ مارکس نہیں دیکھ سکتے۔ اوپر کی مشق اگر پرامپٹس مرتب ہوں تو ایک دوپہر میں دہرائی جا سکتی ہے؛ اور اس کے کرنے کی قدر یہ ہے کہ آپ اندازہ لگانا چھوڑ کر مشاہدہ کرنا شروع کر دیتے ہیں۔

جو ٹیمیں یہ مشق خود چلا رہی ہیں: سب سے سہل سیٹ اپ ایک واحد OpenAI-مطابقت پذیر اینڈ پوائنٹ ہے جو تینوں ماڈلز کو ایک ہی کریڈینشل کے پیچھے دستیاب کرتا ہے۔ CometAPI ایک راستہ ہے؛ آپ اپنا موجودہ OpenAI SDK ایک مختلف base URL پر پوائنٹ کرتے ہیں اور model پیرامیٹر متغیر بن جاتا ہے۔

بینچ مارکس آپ کو بتاتے ہیں کہ ماڈل کیا کر سکتا ہے۔ رویّاتی پیٹرنز بتاتے ہیں کہ ماڈل آپ کے پرامپٹس پر ڈیفالٹ میں کیا کرے گا۔ پہلا جواب شائع ہوتا ہے۔ دوسرا آپ کو خود مشاہدہ کرنا ہوتا ہے۔ فی زمرہ بیس پرامپٹس، ایک دوپہر، اور آپ کے پاس وہ جواب ہو گا جو کوئی لیڈر بورڈ کبھی پیدا نہیں کرے گا۔

تیار ہیں قابلِ اعتماد طریقے سے انٹیگریٹ کرنے کے لیے؟ CometAPI اور API doc پر جائیں تاکہ ایک ہی جگہ seamless Claude Fable 5 رسائی کے ساتھ دیگر فرنٹیئر ماڈلز، متحدہ بلنگ، اور انٹرپرائز گریڈ اعتبار حاصل ہو۔ آج ہی سائن اپ کریں اور نئے صارفین کے لیے کشادہ کریڈٹس کے ساتھ آغاز کریں — آپ کا اگلا بریک تھرو پروجیکٹ منتظر ہے۔

GPT-5.5 بمقابلہ Claude Sonnet 4.6 بمقابلہ Gemini 3.1 Pro: وہ باتیں جو کوئی بینچ مارک آپ کو نہیں بتاتا

بینچ مارکس کیا ناپتے ہیں، اور کیا چھوڑ دیتے ہیں

سیٹ اپ

پرامپٹ 1: بکھری دستاویز سے اسٹرکچرڈ ایکسٹریکشن

پرامپٹ

کن چیزوں پر نظر رکھیں

وہ کیا رپورٹ کرتے ہیں جو یہ ٹیسٹ مسلسل چلاتے ہیں

اس سے کیا پتہ چلتا ہے

پرامپٹ 2: دلیل پر مبنی ایک پلاننگ ٹاسک

پرامپٹ

کن چیزوں پر نظر رکھیں

وہ کیا رپورٹ کرتے ہیں جو یہ ٹیسٹ مسلسل چلاتے ہیں

اس سے کیا پتہ چلتا ہے

پرامپٹ 3: مخصوص پابندیوں کے ساتھ کوڈ جنریشن

پرامپٹ

کن چیزوں پر نظر رکھیں

وہ کیا رپورٹ کرتے ہیں جو یہ ٹیسٹ مسلسل چلاتے ہیں

اس سے کیا پتہ چلتا ہے

ابھرنے والے پیٹرنز

اپنے ورک لوڈ پر کیسے آزمائیں

نتیجہ

AI ترقیاتی اخراجات 20% کم کرنے کے لیے تیار ہیں؟

مزید پڑھیں