Anthropic کی Claude Opus لائن (Opus 4 / Claude Opus 4.1) اور OpenAI کے GPT-5 جدید کوڈنگ بینچ مارکس پر جدید ترین کارکردگی دکھاتے ہیں، لیکن وہ طاقت کی تجارت کرتے ہیں: Opus طویل سیاق و سباق، کثیر مرحلہ ایجنٹی ورک فلو پر زور دیتا ہے جب کہ GPT-5 فرنٹ اینڈ پروڈکٹ پالش، ڈیولپریشن اور پروڈکٹ پر فوکس کرتا ہے۔ بہترین انتخاب کا انحصار ان کاموں پر ہوتا ہے جن کی آپ کو خودکار ضرورت ہے (سنگل فائل جنریشن بمقابلہ ملٹی فائل ریفیکٹر)، آپ کی لاگت/تھرو پٹ رکاوٹیں، اور آپ "کامیابی" کی پیمائش کیسے کریں گے (یونٹ ٹیسٹ پاس کرنا، رن ٹائم درستگی، یا انسانی جائزہ اوور ہیڈ)۔
یہ سوال اب کیوں اہمیت رکھتا ہے۔
دونوں دکانداروں نے اگست 2025 کے اوائل میں بڑی ریلیز بھیجیں: Anthropic نے Claude Opus 4.1 (5 اگست 2025) کا اعلان ایک تکراری بہتری کے طور پر کیا جو ایجنٹی کاموں اور "حقیقی دنیا کی کوڈنگ" پر مرکوز ہے اور OpenAI نے GPT-5 (سسٹم کارڈ اور ڈویلپر مواد کو اگست کے اوائل میں جاری کیا گیا ہے) جس کے ساتھ ان کی سب سے مضبوط تاریخ کے ساتھ "co-explic" ماڈل کی تاریخ میں جاری کیا گیا ہے۔ ان تقریباً بیک وقت لانچوں کا مطلب ہے کہ ڈویلپرز اور پلیٹ فارم ٹیمیں فعال طور پر کارکردگی، لاگت اور انضمام کے راستوں کا موازنہ کر رہی ہیں - اس لیے یہ تعلیمی نہیں ہے: ٹیمیں یہ انتخاب کر رہی ہیں کہ Copilot طرز کی تجاویز کو کس ماڈل کی طرف روٹ کرنا ہے، کون سا ماڈل اندرونی کوڈ ایجنٹوں کے پیچھے تعینات کرنا ہے، اور کس پر اعتماد کرنا ہے۔
Claude Opus 4.1 کیا ہے؟
انتھروپک نے Opus 4.1 کو Opus 4 میں ٹارگٹڈ اپ گریڈ کے طور پر پوزیشن میں رکھا، ایجنٹ اور حقیقی دنیا کے کوڈنگ کاموں پر بہتر کارکردگی پر زور دیا۔ انہوں نے کہا کہ Opus 4.1 کلاؤڈ کے ادا شدہ صارفین اور کلاڈ کوڈ میں دستیاب ہے، اور یہ کہ اسے پارٹنر پلیٹ فارمز (API، Bedrock، Vertex) میں رول کیا گیا ہے۔ اینتھروپک کا پیغام رسانی کثیر مرحلہ منطق، کوڈ آؤٹ پٹس میں درستگی، اور ایجنٹ کے محفوظ رویے پر بھروسے پر زور دیتا ہے۔
Claude Opus 4.1 - فن تعمیر اور انکوڈنگ کی خصوصیات
- توسیعی سیاق و سباق اور لانگ ہورائزن ریزننگ: سے لیس a c 200K ٹوکن سیاق و سباق کی ونڈو، لمبے ورک فلوز اور ملٹی فائل کوڈ بیس میں ہم آہنگی کو برقرار رکھنے کی صلاحیت کو نمایاں طور پر بڑھاتی ہے۔
- اعلیٰ SWE بینچ کی تصدیق شدہ کارکردگی: حاصل کیا ۔ 74.5٪ SWE- بنچ کی تصدیق شدہ درستگی (Opus 72.5 میں 4% سے زیادہ)، ایجنٹی کاموں میں قابل ذکر بہتری کے ساتھ (39.2% سے 43.3%) اور استدلال (79.6% سے 80.9%)۔
- چین آف تھاٹ اور آر ایل ایچ ایف کے ذریعے اصلاح: Opus 4 کی آرکیٹیکچرل ریڑھ کی ہڈی کو برقرار رکھتا ہے جبکہ RLHF اور ڈیٹا سے چلنے والی ٹیوننگ کے ذریعے چین کی سوچ کے استدلال، ملٹی سٹیپ ہم آہنگی، اور تفصیل کی طرف توجہ کو بڑھاتا ہے۔
- ایجنٹ ورک فلو انٹیگریشن: پیچیدہ کوڈ ری فیکٹرنگ اور ایجنٹی ٹول کے استعمال سمیت کثیر مرحلہ وار ورک فلو کو آرکیسٹریٹ کرنے کے لیے ڈیزائن کیا گیا ہے، جبکہ توسیعی سیشنز پر اندرونی حالت کو محفوظ رکھا گیا ہے۔
- بہتر ٹولنگ اور تخلیقی کنٹرول: "سوچ کے خلاصے" پیش کرتا ہے جو ماڈل کے اندرونی استدلال کو کم کرتا ہے، شفافیت کو بہتر بناتا ہے۔ Opus 4.1 Claude Code، API چیننگ، اور فائلوں تک رسائی کی صلاحیتوں کے ذریعے ڈویلپر ٹولنگ کے ساتھ بھی بہتر طور پر مربوط ہوتا ہے۔
GPT-5 کیا ہے؟
OpenAI کے عوامی مواد GPT-5 کو ان کے تیار کردہ سب سے مضبوط کوڈنگ ماڈل کے طور پر بیان کرتے ہیں، اور انہوں نے بینچ مارک کے نتائج شائع کیے (SWE-bench Verified and others) جو پہلے کے ماڈلز کے مقابلے میں مادی بہتری کو ظاہر کرتے ہیں۔ OpenAI کا پیغام رسانی GPT-5 کی پیچیدہ فرنٹ اینڈ جنریشن کو ہینڈل کرنے، بڑے ذخیروں کی ڈیبگنگ، اور ٹول کے استعمال میں بہتر کارکردگی کو نمایاں کرتی ہے۔ ساتھ والا سسٹم کارڈ ماڈل کمپوزیشن (تیز ماڈل + گہرا استدلال ماڈل) کا خاکہ پیش کرتا ہے۔
GPT-5 - فن تعمیر اور انکوڈنگ کی خصوصیات
- ڈائنامک راؤٹر اور ڈوئل پروسیسنگ موڈز: تیز ردعمل اور گہرے استدلال کے راستوں کو یکجا کرنے والے ایک متحد نظام کے طور پر بنایا گیا ہے۔ ایک راؤٹر متحرک طور پر سوالات کو تیز رفتار نسل یا توسیع شدہ "سوچ" موڈ کی طرف لے جاتا ہے، جس سے سادہ اور پیچیدہ دونوں کاموں کی کارکردگی میں اضافہ ہوتا ہے۔
- بڑے پیمانے پر سیاق و سباق کی ونڈو: تک کی حمایت کرتا ہے۔ 256K ٹوکن سیاق و سباق کے مطابق، ہم آہنگی کو کھونے کے بغیر اسے وسیع ان پٹ جیسے بڑے کوڈ بیس، طویل فارم کے دستاویزات، اور کثیر سیشن پروجیکٹس کو ہینڈل کرنے کے قابل بناتا ہے۔
- ملٹی موڈل تفہیم اور میموری: مقامی طور پر ایک ہی سیشن میں متن، تصاویر، آڈیو اور ویڈیو پر کارروائی کرتا ہے۔ مستقل میموری اور ذاتی نوعیت کی خصوصیات شامل ہیں جو طویل مدتی تعاملات میں تسلسل کو بڑھاتی ہیں۔
- بہتر حفاظت اور ایماندارانہ استدلال: "محفوظ تکمیلات" کو متعارف کرایا ہے جو حدود کے واضح اعتراف کے ساتھ مدد کو متوازن رکھتی ہے۔ استدلال کے موڈ میں، GPT-5 ڈرامائی طور پر فریب کاری اور فریب کو کم کرتا ہے — بعض ٹیسٹوں میں فریب کاری کی پیداوار کو ~86% سے ~9% تک گرا دیتا ہے۔
- استدلال اور وربوسٹی کنٹرولز: ڈویلپر ایڈجسٹ کر سکتے ہیں۔
reasoning_effort(کم سے کم/کم/اعلی) اورverbosity(کم/درمیانے/اعلی)، آؤٹ پٹ کی گہرائی اور تفصیل کو کنٹرول کرنا۔ ریجیکس یا گرامر کی رکاوٹوں کے ذریعے ساختی آؤٹ پٹ فارمیٹنگ کی بھی حمایت کرتا ہے۔
مشکل نمبر کیا کہتے ہیں - بینچ مارک سکور، سیاق و سباق کی ونڈوز اور ٹوکن کی قیمت؟
بینچ مارکس اور فیصد
- SWE بینچ (تصدیق شدہ): انتھروپک رپورٹس Claude Opus 4.1: 74.5% تصدیق شدہ SWE بینچ پر۔ اوپن اے آئی کی رپورٹ GPT-5: 74.9% ایک ہی بینچ مارک پر (اور کچھ پولی گلوٹ بینچ مارکس پر 88%)۔ یہ نمبر دونوں ماڈلز کو حقیقت پسندانہ کوڈنگ ٹاسک سویٹس پر سخت بینڈ کے اندر رکھتے ہیں۔ بینچ مارکس چھوٹے عددی فرقوں کے ساتھ اوپری سرے پر برابری دکھاتے ہیں جو شاذ و نادر ہی حقیقی دنیا کی پیداواری صلاحیت کو صاف ستھرا نقشہ بناتے ہیں۔
سیاق و سباق کی ونڈوز (یہ کیوں اہم ہے)
GPT-5 کا سرکاری زیادہ سے زیادہ مشترکہ سیاق و سباق (ان پٹ + آؤٹ پٹ) 400,000 ٹوکن ہے، API تک کی اجازت کے ساتھ ~272,000 ان پٹ ٹوکن اور تک 128,000 آؤٹ پٹ ٹوکن (وہ دونوں مل کر کل 400k بناتے ہیں)۔ ChatGPT میں، مفت ورژن آپ کو مرکزی GPT-5 ماڈل کے ساتھ ساتھ GPT-5 Thinking تک رسائی فراہم کرتا ہے، لیکن سب سے چھوٹی سیاق و سباق والی ونڈو اور استعمال کی سخت حدوں کے ساتھ۔ سبسکرائبرز کو وہی ماڈل ملتے ہیں، لیکن وسیع دائرہ کار اور 32K ٹوکنز کی ایک بڑی سیاق و سباق والی ونڈو کے ساتھ۔ پرو ورژن وہیں ہے جہاں سے یہ سب شروع ہوتا ہے۔ آپ کو GPT-5، GPT-5 Thinking، اور GPT-5 Pro ملتا ہے—مؤخر الذکر ایک اعلیٰ ترین ورژن جو زیادہ سے زیادہ استدلال کی گہرائی اور درستگی کے لیے ڈیزائن کیا گیا ہے۔ سیاق و سباق کی ونڈو 128K ٹوکن تک جاتی ہے۔ انٹرپرائز صارفین کو 128K سیاق و سباق کی ونڈو بھی ملتی ہے، جبکہ ٹیمیں 32K تک محدود ہیں۔
کلاڈ اوپس 4.1 (سیاق و سباق کی کھڑکی)۔ انتھروپک کے کلاڈ اوپس 4.1 کو ایک ہائبرڈ ریجننگ ماڈل کے طور پر بھیج دیا گیا ہے ~200,000 ٹوکن اس کی مصنوعات کی دستاویزات میں سیاق و سباق کی ونڈو، اور یہ واضح طور پر طویل افق، کثیر مرحلہ استدلال اور ایجنٹی کوڈنگ ورک فلو کے لیے موزوں ہے۔ وہ 200K ونڈو Opus 4.1 کو ایک ریپوزٹری، ٹیسٹس اور ڈیزائن نوٹس کے ایک بڑے حصے کو ایک ہی تناظر میں رکھنے کے قابل بناتی ہے—ملٹی فائل ریفیکٹرز، ہجرت کے کاموں، اور زنجیروں والے ٹول کے تعاملات کے لیے مددگار ہے جہاں اندرونی حالت کو برقرار رکھنا اور بہت سے مراحل میں سوچ کا سلسلہ کم سے کم ممکنہ حد سے زیادہ اہمیت رکھتا ہے۔
قیمتوں کا تعین (ان پٹ / آؤٹ پٹ لاگت کی مثالیں)
- OpenAI (GPT-5) شائع مثال کی قیمتوں کا تعین لائنوں جیسے ان پٹ $1.25 / 1M ٹوکنز، آؤٹ پٹ $10 / 1M ٹوکنز معیاری GPT-5 ویریئنٹس اور نچلے درجوں (منی/نینو) کے لیے کم یونٹ لاگت پر۔ یہ نمبر بڑے CI ورک فلو کا اندازہ لگانے کے لیے مفید ہیں۔
- انتھروپک (Opus 4.1) کچھ شائع شدہ صفحات میں یونٹ کی زیادہ لاگت دکھاتا ہے (مثال: $15 / 1M ان پٹ ٹوکنز اور $75 / 1M آؤٹ پٹ ٹوکنز ایک حوالہ شدہ صفحہ پر — لیکن Anthropic فوری کیشنگ، بیچنگ اور دیگر لاگت بچانے والے لیورز کی تشہیر بھی کرتا ہے)۔ آپ جو منصوبہ استعمال کریں گے اس کے لیے ہمیشہ وینڈر کی قیمتوں کے صفحات کو چیک کریں۔
مطلب: پیمانے پر، ٹوکن کی قیمت + آؤٹ پٹ وربوسٹی (ماڈل کتنے ٹوکن خارج کرتا ہے) بہت اہمیت رکھتا ہے۔ ایک ماڈل جو زیادہ ٹوکن لکھتا ہے یا اسے زیادہ تکراری پاس کی ضرورت ہوتی ہے اس کی قیمت زیادہ ہوتی ہے چاہے فی ٹوکن کی شرحیں کم ہوں۔
ان کی طاقتیں حقیقی ڈویلپر کے کاموں کو کیسے نقش کرتی ہیں؟
سنگل فائل جنریشن، پروٹو ٹائپنگ اور UI کوڈ
GPT-5 کو پالش شدہ UI/UX کوڈ (HTML/CSS/JS) بنانے اور سنگل فائل کے نفاذ کو تیزی سے صاف کرنے کے لیے بار بار اجاگر کیا جاتا ہے۔ یہ سامنے کے آخر میں سہاروں، پروٹو ٹائپنگ، اور "جنریٹ-پھر-ہیومن-پالش" ورک فلو کے لیے اچھی طرح نقشہ بناتا ہے۔ GPT-5 مارکیٹنگ اور ابتدائی کمیونٹی ٹیسٹ ڈیزائن کے انتخاب، وقفہ کاری، اور سامنے کے آخر میں جمالیاتی معیار پر زور دیتے ہیں۔
ملٹی فائل ریفیکٹرز، طویل استدلال، اور ایجنٹ ورک فلوز
مسلسل کثیر مرحلہ استدلال اور ایجنٹی کاموں کے لیے انتھروپک پچز Claude (Opus) — بڑی ریفیکٹرز، ملٹی فائل API کی منتقلی، اور خودکار کوڈ آرکیسٹریشن جیسی چیزیں جہاں اسسٹنٹ کو بہت سی فائلوں میں استدلال کرنے اور انویریئنٹس کو محفوظ کرنے کی ضرورت ہوتی ہے۔ Opus 4.1 واضح طور پر ملٹی سٹیپ کوڈ ٹاسکس اور ایجنٹی انضمام کے لیے بہتری کا دعویٰ کرتا ہے۔ دسیوں ہزار ٹوکنز پر استدلال کرتے وقت یہ طاقتیں کم تباہ کن سیاق و سباق کے نقصانات کا ترجمہ کرتی ہیں۔
ان کے انکوڈنگ کے انتخاب کس طرح درستگی، فریب کاری، اور ڈیبگنگ کو متاثر کرتے ہیں؟
فیڈیلیٹی بمقابلہ ہیلوسینیشن ٹریڈ آف: انتھروپک نے عوامی طور پر کلاڈ ماڈلز کو قدامت پسند اور ہدایات کے ساتھ منسلک کرنے کے لیے پوزیشن دی ہے (فریب کی کچھ کلاسوں کو کم کرنا)، جس کا ایک حصہ ہے کیوں کہ Opus 4.1 "تفصیل سے باخبر رہنے" اور اصول کی پابندی پر زور دیتا ہے۔ OpenAI کے GPT-5 کا مقصد کاموں کی ایک وسیع رینج میں تیز رفتار اور زیادہ قابل اعتماد ہونا ہے، سسٹم کی سطح کی روٹنگ اور اس کے سسٹم کارڈ میں بیان کردہ سرشار حفاظت/ تخفیف پر انحصار کرتے ہوئے۔ دونوں دکاندار اب بھی بقیہ فریب کے خطرے کو تسلیم کرتے ہیں اور تخفیف کی رہنمائی فراہم کرتے ہیں۔
ڈیبگنگ اور تکراری مرمت: ایک پرامپٹ میں زیادہ سے زیادہ ریپو + ٹیسٹ آؤٹ پٹس کو انکوڈنگ کرنے سے سیاق و سباق کی تبدیلی میں کمی آتی ہے اور ماڈل کو ایسی اصلاحات تجویز کرنے دیتا ہے جو پروجیکٹ کی وسیع تر حالت کو مدنظر رکھتے ہیں۔ Opus 4.1 ملٹی سٹیپ ڈیبگ ہدایات پر عمل کرنے میں مضبوطی کا اشتہار دیتا ہے۔ GPT-5 تیز رفتار، ڈیزائن سے آگاہ فرنٹ اینڈ جنریشن اور ٹول انٹیگریشن کی تشہیر کرتا ہے۔ دونوں تکراری ڈیبگنگ کو بہتر بناتے ہیں، لیکن نہ ہی انسانی جانچ کی توثیق اور کوڈ کے جائزے کی ضرورت کو دور کرتے ہیں۔
فیچر موازنہ ٹیبل
| نمایاں کریں | GPT-5 (OpenAI) | Claude Opus 4.1 (Anthropic) |
|---|---|---|
| رہائی | اگست 2025 | اگست 5، 2025 |
| سیاق و سباق کی کھڑکی | تک 400K ٹوکن (لمبی دستاویزات، کوڈ بیس) | ~200K ٹوکنز، کثیر مرحلہ، طویل ورک فلو کے لیے بہتر بنایا گیا ہے۔ |
| پروسیسنگ موڈز | دوہری موڈ (تیز بمقابلہ گہری "استدلال")، روٹنگ کے ساتھ | طویل شکل کا سلسلہ فکر اور مستقل استدلال |
| ملٹی موڈل سپورٹ | متن، تصویر، آڈیو، ویڈیو؛ مستقل میموری | بنیادی طور پر متن (بہتر استدلال اور تخلیقی بہاؤ) |
| کوڈنگ اور بینچ مارکس | 74.9% SWE-bench تصدیق شدہ، 88% Aider Polyglot پر | 74.5% SWE- بنچ کی تصدیق؛ مضبوط ملٹی فائل ری فیکٹرنگ |
| حفاظت اور قابل اعتماد | کم فریب کاری، محفوظ تکمیلات، ایماندارانہ پیداوار | قدامت پسند رویہ؛ بہتر درستگی اور حفاظت |
| کنٹرول اور ٹولنگ | reasoning_effort, verbosity , structured outputs | کلاؤڈ کوڈ SDK کے ذریعے سوچ کے خلاصے، ٹول انضمام |
کس کے لئے بہتر ہے کی پیمائش کیسے کریں آپ کوڈ بیس - عملی تشخیصی منصوبہ (کوڈ کے ساتھ)
ذیل میں ایک عملی، دوبارہ پیدا کرنے کے قابل استعمال ہے جسے آپ اپنے ذخیرے پر Claude Opus 4.1 اور GPT-5 کا موازنہ کرنے کے لیے چلا سکتے ہیں۔ استعمال خود کار کرتا ہے: (1) ماڈلز کو کسی فنکشن کو لاگو کرنے یا ٹھیک کرنے کا اشارہ کرتا ہے، (2) سینڈ باکس فائل میں آؤٹ پٹ داخل کرتا ہے، (3) یونٹ ٹیسٹ چلاتا ہے، اور (4) ریکارڈ پاس/فیل، ٹوکن کا استعمال اور تکرار کی گنتی۔
انتباہ: تیار کردہ کوڈ پر عمل درآمد طاقتور لیکن خطرناک ہے — ہمیشہ سینڈ باکسڈ کنٹینرز چلائیں، وسائل/وقت کی حد استعمال کریں، اور کبھی بھی جنریٹڈ کوڈ کو حساس رازوں یا نیٹ ورک تک رسائی کی اجازت نہ دیں جب تک کہ جان بوجھ کر اجازت اور آڈٹ نہ کیا جائے۔
1) ہارنس کیا پیمائش کرتا ہے۔
- یونٹ ٹیسٹ پاس کی شرح (پرائمری)۔
- ترمیم کے چکروں کی تعداد (آپ کو کتنی بار درست کرنے کے لیے پوچھنا پڑا)۔
- استعمال شدہ ٹوکنز (ان پٹ + آؤٹ پٹ)۔
- وال کلاک میں تاخیر۔
2) مثال ازگر کا استعمال (کنکال)
آپ ٹیسٹنگ کے لیے CometAPI استعمال کر سکتے ہیں، مستقل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کر کے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔
CometAPI 500+ ماڈلز تک "ایک API" تک رسائی فراہم کرتا ہے اور ایک OpenAI-مطابقت پذیر انٹرفیس کو دستاویز کرتا ہے جسے آپ CometAPI API کلید اور بیس یو آر ایل اوور رائیڈ کے ساتھ کال کر سکتے ہیں۔ یہ اینتھروپک کو مربوط کرنے اور اوپن اے آئی کے درمیان سوئچ کرنے کے بجائے براہ راست اوپن اے آئی کلائنٹ سے سوئچنگ کو آسان بناتا ہے۔ کے لیے کلاڈ اوپس 4.1, CometAPI مخصوص ماڈل شناخت کنندگان کو بے نقاب کرتا ہے (مثال کے طور پر claude-opus-4-1-20250805 اور سوچنے کا ایک مختلف قسم) اور ایک وقف شدہ چیٹ کی تکمیل کا اختتامی نقطہ GPT-5، CometAPI مخصوص ماڈل کو بے نقاب کرتا ہے۔ gpt-5”/“gpt-5-2025-08-07"/"gpt-5-chat-latest. شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لئے.
python"""
side_by_side_eval.py
High-level harness:
- tasks: list of dicts {name, prompt, test_file_contents}
- apis: simple wrappers for OpenAI (GPT-5) and Anthropic (Claude Opus 4.1)
- run: for each task, call each model, write code, run pytest, collect metrics
NOTE: replace API_KEY_* with your keys and confirm official endpoints/params per vendor docs.
"""
import os
import json
import subprocess
import time
from typing import Dict, Any
import requests
# === CONFIG - fill these from your environment ===
# === Simple API wrappers (check vendor docs for exact endpoints/params) ===
def call_gpt5(prompt: str, max_tokens=1024) -> Dict:
url = "https://api.cometapi.com/v1/responses" # example; confirm actual endpoint headers = {"Authorization": f"Bearer {CometAPI_API_KEY}"}
body = {
"model": "gpt-5",
"input": prompt,
"max_output_tokens": max_tokens
}
t0 = time.time()
r = requests.post(url, headers=headers, json=body, timeout=60)
latency = time.time() - t0
r.raise_for_status()
resp = r.json()
# token info might be in resp depending on API; adapt as needed
return {"text": resp if "output_text" in resp else resp, "raw": resp, "latency": latency}
def call_claude(prompt: str, max_tokens=1024) -> Dict:
url = "https://api.cometapi.com/v1/chat/completions" # example; confirm actual endpoint headers = {"x-api-key": CometAPI_API_KEY}
body = {
"model": "claude-opus-4-1-20250805", "prompt": prompt,
"max_tokens_to_sample": max_tokens
}
t0 = time.time()
r = requests.post(url, headers=headers, json=body, timeout=60)
latency = time.time() - t0
r.raise_for_status()
resp = r.json()
return {"text": resp.get("completion", ""), "raw": resp, "latency": latency}
# === Test runner ===
def run_task(task: Dict, model_fn, model_name: str):
"""Run a single task: call model, write file, run pytest, collect result."""
prompt = task
result = model_fn(prompt, max_tokens=task.get("max_tokens", 2048))
code_text = result
# write task files into temporary folder
tmpdir = f"runs/{task}/{model_name}"
os.makedirs(tmpdir, exist_ok=True)
code_file = os.path.join(tmpdir, "submission.py")
with open(code_file, "w") as f:
f.write(code_text)
# write tests
test_file = os.path.join(tmpdir, "test_submission.py")
with open(test_file, "w") as f:
f.write(task)
# run pytest in subprocess with timeout
try:
proc = subprocess.run(
,
stdout=subprocess.PIPE, stderr=subprocess.STDOUT,
timeout=30
)
passed = proc.returncode == 0
output = proc.stdout.decode()
except subprocess.TimeoutExpired:
passed = False
output = "pytest timeout"
return {
"model": model_name,
"task": task,
"passed": passed,
"latency": result,
"tokens_estimate": result.get("usage", {}),
"stdout": output,
"code": code_text
}
# === Example tasks: simple function to implement ===
TASKS = [
{
"name": "is_prime",
"prompt": "Implement a Python function `is_prime(n: int) -> bool` with proper docstring and edge case handling.",
"test_code": """
import submission
def test_prime():
assert submission.is_prime(2)
assert submission.is_prime(13)
assert not submission.is_prime(1)
assert not submission.is_prime(0)
assert not submission.is_prime(-7)
assert not submission.is_prime(15)
""",
"max_tokens": 256
}
]
# === Runner ===
if __name__ == "__main__":
results = []
for task in TASKS:
for model_fn, name in :
res = run_task(task, model_fn, name)
print(json.dumps(res, indent=2))
results.append(res)
# save to file
with open("results.json", "w") as f:
json.dump(results, f, indent=2)
ملٹی فائل ریفیکٹرز کی تقلید کرنے کے لیے، وہ کام شامل کریں جہاں پرامپٹ میں متعدد فائلیں ہوں (یا بازیافت کے ذریعے فیڈ ریپوزٹری سلائسز)۔ طویل سیاق و سباق کے لیے، پیمائش کریں کہ آیا ماڈل کو بازیافت کی ضرورت ہے بمقابلہ فوری سیاق و سباق۔
آپ کو کن میٹرکس کی اطلاع دینی چاہئے اور کیوں؟
- یونٹ ٹیسٹ پاس کی شرح (بائنری فی کام) - بنیادی، مقصد۔
- انسانی اصلاح کا وقت - ٹیسٹ پاس کرنے سے پہلے ایک ڈویلپر کو کتنی دیر تک ترمیم کرنی ہوگی۔
- گزرنے کے لیے تکرار - کتنے فوری/فیڈ بیک راؤنڈ ضروری تھے۔
- ٹوکن استعمال ہو گئے۔ - لاگت پراکسی (ان پٹ + آؤٹ پٹ)۔
- وال کلاک میں تاخیر - انٹرایکٹو استعمال کے معاملات۔
- سیکیورٹی اور API کے غلط استعمال کے نمونے۔ — مثال کے طور پر، آیا تیار کردہ کوڈ غیر محفوظ ایول/نیٹ ورک کالز کا استعمال کرتا ہے۔
ان کو فی کام اور مجموعی جمع کریں (مطلب پاس کی شرح، میڈین ٹوکنز، P95 تاخیر)۔ یہ قیمت بمقابلہ قیمت کی ایک عملی تصویر دے گا۔
فائنل خیالات
- GPT-5 اس کے ساتھ باہر کھڑا ہے ملٹی موڈل لچک، بڑے پیمانے پر سیاق و سباق کو سنبھالنا، انکولی استدلال کی حرکیات، تفصیلی ڈویلپر کنٹرولز، اور بہتر حفاظت۔ یہ سیاق و سباق کے لیے مثالی ہے جس میں ڈیٹا کی مختلف اقسام، طویل پروجیکٹ کا تسلسل، تیز پروٹو ٹائپنگ، اور انٹرایکٹو ایجنٹی کام شامل ہیں۔
- کلاڈ اوپس 4.1 میں جھکاؤ گہری، کثیر الجہتی استدلاللمبے سلسلے میں قابل ذکر مستقل مزاجی، اور کوڈنگ بینچ مارکس پر بہتر کارکردگی۔ چین آف تھیٹ اور ٹولنگ میں اس کی بہتری اسے پیچیدہ کوڈ بیس کی تبدیلیوں اور ایجنٹ ڈویلپر ورک فلو کے لیے ایک بہترین انتخاب بناتی ہے۔
آپ کا بہترین راستہ دونوں کو یکجا کر سکتا ہے: بھرپور، انٹرایکٹو ملٹی موڈل کاموں اور تیز رفتار پروٹو ٹائپنگ کے لیے GPT-5 استعمال کریں۔، اور گہری ساختہ استدلال، ملٹی فائل ریفیکٹرز، اور ہائی فیڈیلیٹی کوڈ آپریشنز کے لیے Claude Opus 4.1 پر انحصار کریں۔.
