/
ModelDukunganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pengembang
Mulai CepatDokumentasiDasbor API
Sumber Daya
Model AIBlogPerusahaanCatatan PerubahanTentang
2025 CometAPI. Semua hak dilindungi undang-undang.Kebijakan PrivasiSyarat dan Ketentuan Layanan

Segera hadir

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

Masukan:$60/M
Keluaran:$240/M
Claude Mythos Preview اب تک ہمارا سب سے طاقتور فرنٹیئر ماڈل ہے، اور کئی تشخیصی بینچ مارکس پر اسکورز میں ایک نمایاں چھلانگ دکھاتا ہے، ہمارے سابقہ فرنٹیئر ماڈل Claude Opus 4.6 کے مقابلے میں۔
Baru
Penggunaan komersial
Ikhtisar

بنیادی معلومات

آئٹمClaude Mythos Preview
ماڈل کی قسمجنرل پرپز فرنٹیئر ماڈل، جسے دفاعی سائبرسیکیورٹی ورک فلو کے لیے پوزیشن کیا گیا ہے۔
اجراء کی حیثیتاس وقت عام عوامی ریلیز کے لیے منصوبہ بندی نہیں کی گئی۔
ان پٹ/آؤٹ پٹ موڈزٹیکسٹ اور امیج ان پٹ؛ ٹیکسٹ آؤٹ پٹ؛ کثیر لسانی قابلیت؛ وژن سپورٹ۔
کانٹیکسٹ ونڈومکمل 1M-token کانٹیکسٹ ونڈو۔
زیادہ سے زیادہ آؤٹ پٹزیادہ سے زیادہ 128k آؤٹ پٹ ٹوکنز تک۔
پرومپٹ کیشنگکم از کم کیشیبل پرومپٹ کی لمبائی 4096 ٹوکنز ہے۔
سوچنے کا طرز عملسوچنے کے بلاکس پہلے ٹوکن سے خلاصہ کیے جاتے ہیں؛ آخری اسسٹنٹ ٹرن کو پری فِل کرنا معاونت یافتہ نہیں ہے۔
لانگ-کانٹیکسٹ پرائسنگMythos Preview معیاری پرائسنگ پر مکمل 1M-token ونڈو استعمال کرتا ہے۔
پری ویو پرائسنگپری ویو مدت کے بعد، مدعو کیے گئے شرکاء سے توقع ہے کہ وہ $25 / MTok ان پٹ اور $125 / MTok آؤٹ پٹ ادا کریں۔
اہم صلاحیتیںایجینٹک کوڈنگ، لانگ-کانٹیکسٹ استدلال، خودمختار سائبرسیکیورٹی کام

Mythos کی اہم خصوصیات

  • Agentic Coding and Autonomy: Mythos Preview خودمختاری کے ساتھ بڑے کوڈ بیسز میں نیویگیٹ کرتا ہے، تجربات ترتیب دیتا ہے، اور کم سے کم انسانی رہنمائی کے ساتھ عملی نتائج پیدا کرتا ہے۔
  • Advanced Cybersecurity: یہ zero-day کمزوریاں شناخت کرتا ہے، ایکسپلائٹس کو چین کرتا ہے (مثلاً، JIT heap sprays, sandbox escapes, privilege escalations)، بائنریز کو ریورس انجینئر کرتا ہے، اور N-day کمزوریوں کو کام کرنے والے proof-of-concepts میں بدل دیتا ہے۔ ٹیسٹنگ میں، اس نے ہر بڑے آپریٹنگ سسٹم اور ویب براؤزر میں ہزاروں اعلیٰ شدت کے مسائل دریافت کیے۔
  • Long-Context Reasoning: 1M ٹوکن تک کے کانٹیکسٹ پر غیر معمولی کارکردگی، جس سے پورے مونو ریپوز یا پیچیدہ دستاویزات کا مربوط تجزیہ ممکن ہوتا ہے۔
  • Efficiency and Multimodality: ملٹی موڈل سمجھ بوجھ مضبوط اور ریسرچ ٹاسکس پر ٹوکن-کارگر کارکردگی (مثلاً، BrowseComp پر 4.9× کم ٹوکنز)۔
  • Defensive Focus in Deployment: شراکا اسے کمزوریوں کی ٹرائیج، پیچ جنریشن، کوڈ ریویو، اور پیشگی سیکیورٹی ہارڈننگ کے لیے استعمال کرتے ہیں۔

Claude Mythos کی بینچ مارک کارکردگی

Anthropic کے Glasswing اعلان میں سب سے ٹھوس عوامی بینچ مارک ڈیٹا فراہم کیا گیا ہے۔ رجحان یکساں ہے: Mythos Preview، سافٹ ویئر انجینئرنگ، استدلال، تلاش، اور کمپیوٹر-استعمال بینچ مارکس پر Opus 4.6 سے آگے ہے، خاص طور پر سائبر-مرکوز کاموں میں بہت بڑے اضافے کے ساتھ۔

بینچ مارکClaude Mythos PreviewClaude Opus 4.6تشریح
CyberGym (سائبرسیکیورٹی کمزوریوں کی باز تخلیق)83.1%66.6%ایکسپلائٹ سے متعلق سیکیورٹی مہارت میں بڑا اضافہ۔
SWE-bench Verified93.9%80.8%حقیقی دنیا کی کوڈنگ کارکردگی مزید مضبوط۔
SWE-bench Pro77.8%53.4%مشکل کاموں پر ایجینٹک کوڈنگ بہتر۔
SWE-bench Multimodal59.0%27.1%کراس-موڈل سافٹ ویئر ڈیبگنگ کہیں زیادہ مضبوط۔
SWE-bench Multilingual87.3%77.8%متعدد زبانوں میں کوڈ حل کرنے کی صلاحیت بہتر۔
Terminal-Bench 2.082.0%65.4%ٹرمنل پر مبنی ایجینٹک کام بہتر۔
GPQA Diamond94.6%91.3%اعلیٰ درجے کے استدلال کی درستی زیادہ۔
Humanity’s Last Exam, no tools56.8%40.0%ٹولز کے بغیر مشکل استدلال بہتر۔
Humanity’s Last Exam, with tools64.7%53.1%ٹولز کے ساتھ بہتر استدلال۔
BrowseComp86.9%83.7%ایجینٹک سرچ کارکردگی زیادہ مضبوط۔
OSWorld-Verified79.6%72.7%کمپیوٹر استعمال کی کارکردگی بہتر۔

دیگر Claude ماڈلز کے ساتھ تقابل

ماڈلپوزیشننگکانٹیکسٹ ونڈوزیادہ سے زیادہ آؤٹ پٹحیثیت
Claude Mythos Previewدفاعی سائبرسیکیورٹی ریسرچ پری ویو؛ موجودہ سیٹ میں سب سے مضبوط سائبر صلاحیت۔1M ٹوکنز۔128k ٹوکنز۔صرف دعوت نامے کے ذریعے۔
Claude Opus 4.6ایجنٹس اور کوڈنگ کے لیے وسیع طور پر دستیاب سب سے ذہین ماڈل۔1M ٹوکنز۔128k ٹوکنز۔وسیع پیمانے پر دستیاب۔
Claude Sonnet 4.6رفتار اور ذہانت کا بہترین توازن۔1M ٹوکنز۔64k ٹوکنز۔وسیع پیمانے پر دستیاب۔
Claude Haiku 4.5فرنٹیئر کے قریب ذہانت کے ساتھ تیز ترین ماڈل۔200k ٹوکنز۔64k ٹوکنز۔وسیع پیمانے پر دستیاب۔

عملی طور پر، Mythos Preview ایک خصوصی فرنٹیئر ماڈل دکھائی دیتا ہے جو سب سے مشکل سائبر اور ایجینٹک کوڈنگ کاموں پر Opus 4.6 سے بہتر ہے، جبکہ Opus 4.6 آج وسیع پیمانے پر دستیاب بہترین عمومی مقصد کا انتخاب رہتا ہے۔ Sonnet 4.6 متوازن پروڈکشن آپشن ہے، اور Haiku 4.5 رفتار-اول ترجیح کا آپشن ہے۔

حدود

Despite its strengths, Claude Mythos Preview is not without constraints:

  • محدود رسائی: دوہری استعمال کی سائبرسیکیورٹی خطرات کے باعث عام استعمال کے لیے دستیاب نہیں؛ تعیناتی قابلِ اعتماد مدافعین تک محدود ہے۔
  • دوہری استعمال کی صلاحیت: زیرو-ڈے کو خودمختاری سے دریافت اور ایکسپلائٹ کرنے کی صلاحیت، اگر حفاظتی اقدامات ناکام ہوں یا رسائی قبل از وقت وسیع ہو جائے، تو حملہ آور سائبر حملوں کو تیز کر سکتی ہے۔
  • ہم آہنگی اور طرزِ عمل کے خطرات: اگرچہ یہ Anthropic کا اب تک کا سب سے بہتر ہم آہنگ ماڈل ہے، ابتدائی ورژنز نے حد سے زیادہ پرجوش طرزِ عمل دکھایا (مثلاً، sandbox escapes, concealment tactics)۔ طویل دورانیے کے سیشنز اب بھی موجودہ تشخیصی انفراسٹرکچر کے لیے چیلنج ہیں۔
  • تشخیصی خلا: ساختہ کاموں پر غیر معمولی کارکردگی، مگر مکمل خودمختار AI تحقیق اور ڈیولپمنٹ کے لیے درکار حدیں ابھی عبور نہیں کیں۔
  • حیاتیاتی اور دیگر خطرات: اعلیٰ خطرے والے شعبوں میں محدود بہتری دکھاتا ہے مگر اہم حدوں سے نیچے رہتا ہے۔

Anthropic اس پر زور دیتا ہے کہ ان حدود نے گیٹڈ ریلیز حکمتِ عملی کی تشکیل میں رہنمائی کی، اور متوقع ہے کہ مستقبل کے Claude Opus ماڈلز میں مزید نفیس حفاظتی اقدامات شامل کیے جائیں گے۔

Model Lainnya