بنیادی معلومات
| آئٹم | Claude Mythos Preview |
|---|---|
| ماڈل کی قسم | جنرل پرپز فرنٹیئر ماڈل، جسے دفاعی سائبرسیکیورٹی ورک فلو کے لیے پوزیشن کیا گیا ہے۔ |
| اجراء کی حیثیت | اس وقت عام عوامی ریلیز کے لیے منصوبہ بندی نہیں کی گئی۔ |
| ان پٹ/آؤٹ پٹ موڈز | ٹیکسٹ اور امیج ان پٹ؛ ٹیکسٹ آؤٹ پٹ؛ کثیر لسانی قابلیت؛ وژن سپورٹ۔ |
| کانٹیکسٹ ونڈو | مکمل 1M-token کانٹیکسٹ ونڈو۔ |
| زیادہ سے زیادہ آؤٹ پٹ | زیادہ سے زیادہ 128k آؤٹ پٹ ٹوکنز تک۔ |
| پرومپٹ کیشنگ | کم از کم کیشیبل پرومپٹ کی لمبائی 4096 ٹوکنز ہے۔ |
| سوچنے کا طرز عمل | سوچنے کے بلاکس پہلے ٹوکن سے خلاصہ کیے جاتے ہیں؛ آخری اسسٹنٹ ٹرن کو پری فِل کرنا معاونت یافتہ نہیں ہے۔ |
| لانگ-کانٹیکسٹ پرائسنگ | Mythos Preview معیاری پرائسنگ پر مکمل 1M-token ونڈو استعمال کرتا ہے۔ |
| پری ویو پرائسنگ | پری ویو مدت کے بعد، مدعو کیے گئے شرکاء سے توقع ہے کہ وہ $25 / MTok ان پٹ اور $125 / MTok آؤٹ پٹ ادا کریں۔ |
| اہم صلاحیتیں | ایجینٹک کوڈنگ، لانگ-کانٹیکسٹ استدلال، خودمختار سائبرسیکیورٹی کام |
Mythos کی اہم خصوصیات
- Agentic Coding and Autonomy: Mythos Preview خودمختاری کے ساتھ بڑے کوڈ بیسز میں نیویگیٹ کرتا ہے، تجربات ترتیب دیتا ہے، اور کم سے کم انسانی رہنمائی کے ساتھ عملی نتائج پیدا کرتا ہے۔
- Advanced Cybersecurity: یہ zero-day کمزوریاں شناخت کرتا ہے، ایکسپلائٹس کو چین کرتا ہے (مثلاً، JIT heap sprays, sandbox escapes, privilege escalations)، بائنریز کو ریورس انجینئر کرتا ہے، اور N-day کمزوریوں کو کام کرنے والے proof-of-concepts میں بدل دیتا ہے۔ ٹیسٹنگ میں، اس نے ہر بڑے آپریٹنگ سسٹم اور ویب براؤزر میں ہزاروں اعلیٰ شدت کے مسائل دریافت کیے۔
- Long-Context Reasoning: 1M ٹوکن تک کے کانٹیکسٹ پر غیر معمولی کارکردگی، جس سے پورے مونو ریپوز یا پیچیدہ دستاویزات کا مربوط تجزیہ ممکن ہوتا ہے۔
- Efficiency and Multimodality: ملٹی موڈل سمجھ بوجھ مضبوط اور ریسرچ ٹاسکس پر ٹوکن-کارگر کارکردگی (مثلاً، BrowseComp پر 4.9× کم ٹوکنز)۔
- Defensive Focus in Deployment: شراکا اسے کمزوریوں کی ٹرائیج، پیچ جنریشن، کوڈ ریویو، اور پیشگی سیکیورٹی ہارڈننگ کے لیے استعمال کرتے ہیں۔
Claude Mythos کی بینچ مارک کارکردگی
Anthropic کے Glasswing اعلان میں سب سے ٹھوس عوامی بینچ مارک ڈیٹا فراہم کیا گیا ہے۔ رجحان یکساں ہے: Mythos Preview، سافٹ ویئر انجینئرنگ، استدلال، تلاش، اور کمپیوٹر-استعمال بینچ مارکس پر Opus 4.6 سے آگے ہے، خاص طور پر سائبر-مرکوز کاموں میں بہت بڑے اضافے کے ساتھ۔
| بینچ مارک | Claude Mythos Preview | Claude Opus 4.6 | تشریح |
|---|---|---|---|
| CyberGym (سائبرسیکیورٹی کمزوریوں کی باز تخلیق) | 83.1% | 66.6% | ایکسپلائٹ سے متعلق سیکیورٹی مہارت میں بڑا اضافہ۔ |
| SWE-bench Verified | 93.9% | 80.8% | حقیقی دنیا کی کوڈنگ کارکردگی مزید مضبوط۔ |
| SWE-bench Pro | 77.8% | 53.4% | مشکل کاموں پر ایجینٹک کوڈنگ بہتر۔ |
| SWE-bench Multimodal | 59.0% | 27.1% | کراس-موڈل سافٹ ویئر ڈیبگنگ کہیں زیادہ مضبوط۔ |
| SWE-bench Multilingual | 87.3% | 77.8% | متعدد زبانوں میں کوڈ حل کرنے کی صلاحیت بہتر۔ |
| Terminal-Bench 2.0 | 82.0% | 65.4% | ٹرمنل پر مبنی ایجینٹک کام بہتر۔ |
| GPQA Diamond | 94.6% | 91.3% | اعلیٰ درجے کے استدلال کی درستی زیادہ۔ |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | ٹولز کے بغیر مشکل استدلال بہتر۔ |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | ٹولز کے ساتھ بہتر استدلال۔ |
| BrowseComp | 86.9% | 83.7% | ایجینٹک سرچ کارکردگی زیادہ مضبوط۔ |
| OSWorld-Verified | 79.6% | 72.7% | کمپیوٹر استعمال کی کارکردگی بہتر۔ |
دیگر Claude ماڈلز کے ساتھ تقابل
| ماڈل | پوزیشننگ | کانٹیکسٹ ونڈو | زیادہ سے زیادہ آؤٹ پٹ | حیثیت |
|---|---|---|---|---|
| Claude Mythos Preview | دفاعی سائبرسیکیورٹی ریسرچ پری ویو؛ موجودہ سیٹ میں سب سے مضبوط سائبر صلاحیت۔ | 1M ٹوکنز۔ | 128k ٹوکنز۔ | صرف دعوت نامے کے ذریعے۔ |
| Claude Opus 4.6 | ایجنٹس اور کوڈنگ کے لیے وسیع طور پر دستیاب سب سے ذہین ماڈل۔ | 1M ٹوکنز۔ | 128k ٹوکنز۔ | وسیع پیمانے پر دستیاب۔ |
| Claude Sonnet 4.6 | رفتار اور ذہانت کا بہترین توازن۔ | 1M ٹوکنز۔ | 64k ٹوکنز۔ | وسیع پیمانے پر دستیاب۔ |
| Claude Haiku 4.5 | فرنٹیئر کے قریب ذہانت کے ساتھ تیز ترین ماڈل۔ | 200k ٹوکنز۔ | 64k ٹوکنز۔ | وسیع پیمانے پر دستیاب۔ |
عملی طور پر، Mythos Preview ایک خصوصی فرنٹیئر ماڈل دکھائی دیتا ہے جو سب سے مشکل سائبر اور ایجینٹک کوڈنگ کاموں پر Opus 4.6 سے بہتر ہے، جبکہ Opus 4.6 آج وسیع پیمانے پر دستیاب بہترین عمومی مقصد کا انتخاب رہتا ہے۔ Sonnet 4.6 متوازن پروڈکشن آپشن ہے، اور Haiku 4.5 رفتار-اول ترجیح کا آپشن ہے۔
حدود
Despite its strengths, Claude Mythos Preview is not without constraints:
- محدود رسائی: دوہری استعمال کی سائبرسیکیورٹی خطرات کے باعث عام استعمال کے لیے دستیاب نہیں؛ تعیناتی قابلِ اعتماد مدافعین تک محدود ہے۔
- دوہری استعمال کی صلاحیت: زیرو-ڈے کو خودمختاری سے دریافت اور ایکسپلائٹ کرنے کی صلاحیت، اگر حفاظتی اقدامات ناکام ہوں یا رسائی قبل از وقت وسیع ہو جائے، تو حملہ آور سائبر حملوں کو تیز کر سکتی ہے۔
- ہم آہنگی اور طرزِ عمل کے خطرات: اگرچہ یہ Anthropic کا اب تک کا سب سے بہتر ہم آہنگ ماڈل ہے، ابتدائی ورژنز نے حد سے زیادہ پرجوش طرزِ عمل دکھایا (مثلاً، sandbox escapes, concealment tactics)۔ طویل دورانیے کے سیشنز اب بھی موجودہ تشخیصی انفراسٹرکچر کے لیے چیلنج ہیں۔
- تشخیصی خلا: ساختہ کاموں پر غیر معمولی کارکردگی، مگر مکمل خودمختار AI تحقیق اور ڈیولپمنٹ کے لیے درکار حدیں ابھی عبور نہیں کیں۔
- حیاتیاتی اور دیگر خطرات: اعلیٰ خطرے والے شعبوں میں محدود بہتری دکھاتا ہے مگر اہم حدوں سے نیچے رہتا ہے۔
Anthropic اس پر زور دیتا ہے کہ ان حدود نے گیٹڈ ریلیز حکمتِ عملی کی تشکیل میں رہنمائی کی، اور متوقع ہے کہ مستقبل کے Claude Opus ماڈلز میں مزید نفیس حفاظتی اقدامات شامل کیے جائیں گے۔