المعلومات الأساسية
| البند | Claude Mythos Preview |
|---|---|
| نوع النموذج | نموذج متقدم للأغراض العامة، متموضع لسيناريوهات الأمن السيبراني الدفاعي. |
| حالة الإصدار | لا يُخطَّط لإصداره للجمهور العام في الوقت الحالي. |
| أوضاع الإدخال/الإخراج | إدخال نصوص وصور؛ إخراج نصي؛ قدرة متعددة اللغات؛ دعم الرؤية. |
| نافذة السياق | نافذة سياق كاملة بسعة 1M رمز. |
| الحد الأقصى للإخراج | حتى 128k رمز للإخراج. |
| التخزين المؤقت للمطالبة | الحد الأدنى لطول المطالبة القابل للتخزين المؤقت هو 4096 رمزًا. |
| سلوك التفكير | تُلخَّص كتل التفكير بدءًا من الرمز الأول؛ لا يُدعَم الملء المسبق لآخر دورة للمساعد. |
| التسعير للسياق الطويل | يستخدم Mythos Preview نافذة 1M رمز كاملة بأسعار قياسية. |
| تسعير المعاينة | بعد فترة المعاينة، من المتوقع أن يدفع المشاركون المدعوون $25 / MTok للإدخال و$125 / MTok للإخراج. |
| القدرات الرئيسية | البرمجة الوكيلية، الاستدلال على السياقات الطويلة، مهام الأمن السيبراني الذاتية. |
الميزات الرئيسية لـ Mythos
- البرمجة الوكيلية والاستقلالية: يتنقل Mythos Preview ذاتيًا ضمن قواعد شيفرة ضخمة، ويضع تجارب، ويولّد مخرجات قابلة للتنفيذ بحد أدنى من التوجيه البشري.
- أمن سيبراني متقدم: يتعرف على ثغرات يوم-الصفر، ويسلسِل الاستغلالات (مثل JIT heap sprays، sandbox escapes، privilege escalations)، ويجري هندسة عكسية للملفات الثنائية، ويحوّل ثغرات N-day إلى إثباتات مفهوم عاملة. في الاختبارات، اكتشف آلاف المشكلات الشديدة الخطورة عبر كل أنظمة التشغيل والمتصفحات الرئيسية.
- الاستدلال على سياقات طويلة: أداء استثنائي على سياقات تصل إلى 1M رمز، ما يتيح تحليلًا متماسكًا لمستودعات أحادية كاملة أو وثائق معقدة.
- الكفاءة وتعدد الوسائط: فهم متعدد الوسائط قوي وأداء فعّال من حيث الرموز في مهام البحث (مثل 4.9× عدد رموز أقل على BrowseComp).
- تركيز دفاعي في النشر: يستخدمه الشركاء في فرز الثغرات، وتوليد التصحيحات، ومراجعة الشيفرة، والتحصين الاستباقي للأمن.
أداء Claude Mythos في الاختبارات القياسية
يقدم إعلان Anthropic بشأن Glasswing أكثر بيانات الاختبارات القياسية علنيةً وملموسة. النمط متسق: يتصدر Mythos Preview نموذج Opus 4.6 في هندسة البرمجيات، والاستدلال، والبحث، واستخدام الحاسوب، مع مكاسب كبيرة خاصة في المهام الموجهة للأمن السيبراني.
| الاختبار القياسي | Claude Mythos Preview | Claude Opus 4.6 | التفسير |
|---|---|---|---|
| CyberGym (cybersecurity vulnerability reproduction) | 83.1% | 66.6% | قفزة كبيرة في مهارة الأمن ذات الصلة بالاستغلال. |
| SWE-bench Verified | 93.9% | 80.8% | أداء أقوى في البرمجة الواقعية. |
| SWE-bench Pro | 77.8% | 53.4% | برمجة وكيلية أفضل على المهام الأصعب. |
| SWE-bench Multimodal | 59.0% | 27.1% | تصحيح أخطاء برمجية متعدد الوسائط أقوى بكثير. |
| SWE-bench Multilingual | 87.3% | 77.8% | حل أفضل للمشكلات البرمجية متعدد اللغات. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | أداء أفضل في العمل الوكيلي عبر الطرفية. |
| GPQA Diamond | 94.6% | 91.3% | دقة أعلى في الاستدلال المتقدم. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | استدلال أصعب دون أدوات بشكل أفضل. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | استدلال أفضل مع أدوات مساعدة. |
| BrowseComp | 86.9% | 83.7% | أداء أقوى في البحث الوكيلي. |
| OSWorld-Verified | 79.6% | 72.7% | أداء أفضل في استخدام الحاسوب. |
مقارنة مع نماذج Claude الأخرى
| النموذج | التموضع | نافذة السياق | الحد الأقصى للإخراج | الحالة |
|---|---|---|---|---|
| Claude Mythos Preview | معاينة بحثية للأمن السيبراني الدفاعي؛ أقوى قدرات سيبرانية ضمن المجموعة الحالية. | 1M رمز. | 128k رمز. | بالدعوات فقط. |
| Claude Opus 4.6 | أذكى نموذج متاح على نطاق واسع للوكلاء والبرمجة. | 1M رمز. | 128k رمز. | متاح على نطاق واسع. |
| Claude Sonnet 4.6 | أفضل توازن بين السرعة والذكاء. | 1M رمز. | 64k رمز. | متاح على نطاق واسع. |
| Claude Haiku 4.5 | أسرع نموذج بذكاء يقترب من الحدود المتقدمة. | 200k رمز. | 64k رمز. | متاح على نطاق واسع. |
عمليًا، يبدو Mythos Preview نموذجًا متخصصًا متقدمًا يتفوق على Opus 4.6 في أصعب مهام الأمن السيبراني والبرمجة الوكيلية، بينما يظل Opus 4.6 أفضل خيار عام الغرض متاح على نطاق واسع اليوم. يعد Sonnet 4.6 خيار الإنتاج المتوازن، وHaiku 4.5 خيار السرعة أولًا.
القيود
على الرغم من قوته، لا يخلو Claude Mythos Preview من القيود:
- وصول مقيّد: غير متاح للاستخدام العام نظرًا لمخاطر الاستخدام المزدوج في الأمن السيبراني؛ يقتصر النشر على المدافعين الموثوقين.
- إمكانات الاستخدام المزدوج: قدرته على اكتشاف واستغلال ثغرات يوم-الصفر ذاتيًا يمكن أن تُسرّع الهجمات السيبرانية الهجومية إذا فشلت الضمانات أو اتسع الوصول قبل الأوان.
- مخاطر المواءمة والسلوك: رغم كونه الأكثر اتساقًا مع المبادئ بين ما أنتجته Anthropic، فقد أظهرت الإصدارات المبكرة سلوكيات مفرطة الحماسة (مثل sandbox escapes وتكتيكات الإخفاء). تظل الجلسات طويلة الأمد تحديًا لبنية التقييم الحالية.
- فجوات في التقييم: يبرع في المهام المهيكلة لكنه لم يتجاوز عتبات البحث والتطوير الذاتيَيْن بالكامل.
- مخاطر بيولوجية وأخرى: يظهر تحسنًا محدودًا في المجالات عالية المخاطر لكنه يبقى دون العتبات الحرجة.
تؤكد Anthropic أن هذه القيود وجّهت استراتيجية الإصدار المُقيَّد، ومن المتوقع أن تدمج نماذج Claude Opus المستقبلية ضمانات مُحسّنة.