Claude Mythos Preview هو أحدث نماذج الذكاء الاصطناعي المتقدّمة لدى Anthropic وأكثرها قدرة حتى الآن، ويمثل قفزة لافتة تتجاوز نماذج Claude السابقة مثل Opus 4.6. أُعلن عنه في 7 أبريل 2026 كجزء من Project Glasswing، وهو نموذج لغة عام متعدد الأغراض يتمتع بقدرات غير مسبوقة في البرمجة الوكيلية، والاستدلال المعقّد، وخاصة مهام الأمن السيبراني. وعلى خلاف إصدارات Claude السابقة المتاحة للجمهور عبر واجهات برمجة التطبيقات أو واجهات الدردشة، يبقى Mythos Preview في معاينة بحثية مُحكَمة الوصول. ولا يُقدَّم للاستخدام العام بسبب قدرته الاستثنائية على اكتشاف وربط ثغرات شديدة الخطورة بشكل ذاتي—بما في ذلك الثغرات الصفرية في أنظمة التشغيل والمتصفحات والبرمجيات الأساسية الكبرى.
بالنسبة للمستخدمين العاديين الذين يستخدمون Claude API، أوصي بـCometAPI. فهو يجمّع أقوى النماذج من مجالات مختلفة، بما في ذلك سلسلة Claude 4.6، ويقدّم نموذج تسعير بالدفع حسب الاستخدام، مع أسعار API أقل بكثير من الأسعار الرسمية.
في هذا الدليل الشامل، نفصّل بالضبط ما هو Claude Mythos Preview، وهيمنته على المعايير في البرمجة والاستدلال والأمن والبحث والتطوير في مجال الذكاء الاصطناعي، وكيف يحدد الثغرات ويستغلها عبر هجمات السلسلة، ومن يمكنه الوصول إليه اليوم، وحالات الاستخدام العملية للشركاء، وما قد يتوقعه المستخدمون العاديون (أو لا يتوقعونه) مستقبلاً.
ما هو Claude Mythos Preview؟
Claude Mythos Preview هو أكثر نماذج Anthropic تقدّماً حتى الآن—فئة "Mythos" جديدة تعلو مستوى Opus القائم ضمن تشكيلتهم. يبني على مبادئ الذكاء الاصطناعي الدستورية لعائلة Claude، لكنه يقدّم "قفزة نوعية" في القدرات، خصوصاً في السلوكيات الوكيلية الذاتية. جرى الإشارة إليه داخلياً أثناء التطوير (مع تسريبات مبكرة تذكر "Capybara")، وهو يتفوق في المهام طويلة الأفق التي تتطلب فهماً عميقاً للشيفرة، واستدلالاً متعدد الخطوات، واستخداماً ذاتياً للأدوات.
العوامل الفارقة الرئيسية تشمل:
- الاستقلالية الوكيلية: يمكنه العمل في بيئات معزولة، وافتراض الأخطاء، وتنفيذ الاختبارات، وإصلاح العيوب، وإخراج إثباتات مفهومية (PoC) صالحة مع حد أدنى من التوجيه البشري.
- القياس والكفاءة: يتعامل مع قواعد شيفرة ضخمة، وسياقات طويلة (حتى ملايين الرموز عبر الضغط)، وسلاسل استدلال معقّدة تتجاوز بكثير النماذج السابقة.
- تخصّص في الأمن السيبراني (ناشئ، غير مُحسَّن بالتخصيص): كنتيجة من قدراته الفائقة في الترميز والاستدلال، فقد حدد بالفعل آلاف الثغرات عالية الخطورة عبر كل أنظمة التشغيل والمتصفحات الرئيسية.
تصفه Anthropic بأنه "أكثر النماذج قدرةً سيبرانياً التي أطلقناها"، وقد بلغ حدود معظم التقييمات الداخلية والمعروفة خارجياً. وهو متموضع ليس كمساعد دردشة استهلاكي بل كأداة تحولية لأمن البرمجيات في عصر الذكاء الاصطناعي.
لماذا لا يتم إصدار Claude Mythos Preview علناً؟
اتخذت Anthropic قراراً متعمداً بعدم طرح Claude Mythos Preview للتوافر العام. السبب الأساسي: قدراته تشكل خطراً هجومياً غير مقبول في الأمن السيبراني إذا وقعت في الأيدي الخاطئة. يمكن للنموذج اكتشاف ثغرات صفرية وتطوير استغلالات متسلسلة متقدمة بشكل ذاتي بسرعة وحجم يخفض نافذة "الاكتشاف إلى الاستغلال" التقليدية من شهور (أو سنوات) إلى دقائق أو ساعات.
Anthropic: "لقد أدى الارتفاع الكبير في قدرات Claude Mythos Preview إلى قرارنا عدم جعله متاحاً على نطاق واسع. بدلاً من ذلك، نستخدمه كجزء من برنامج دفاعي للأمن السيبراني مع مجموعة محدودة من الشركاء."
المخاطر المحددة تشمل:
- غير الخبراء قد يولّدون استغلالات عملية بين عشية وضحاها.
- هجمات ذاتية شاملة على شبكات مؤسسية صغيرة ضعيفة الحماية.
- احتمال الانتشار إلى جهات خبيثة، مما يفاقم تكاليف الجريمة السيبرانية (المقدّرة بالفعل بحوالي ~$500 مليار سنوياً عالمياً).
بدلاً من الإصدار الواسع، أطلقت Anthropic Project Glasswing—مبادرة تعاونية دفاعية مع شركات تقنية كبرى وشركات أمن سيبراني ومشرفين على البرمجيات مفتوحة المصدر. الهدف هو منح المدافعين أسبقية لإصلاح الثغرات قبل أن تُستغل على نطاق واسع. التزمت Anthropic بتقديم $100 مليون في أرصدة الاستخدام و$4 مليون تبرعات لجهود أمن المصادر المفتوحة.
هذه هي المرة الأولى التي تحجب فيها Anthropic نموذج حدودي بالكامل عن الوصول العام، ما يبرز جدية قفزة القدرات.
نظرة عامة على بيانات المعايير لـ Claude Mythos Preview
يُظهر Claude Mythos Preview تحسينات متسقة وغالباً دراماتيكية مقارنة بـ Claude Opus 4.6 (ومنافسين مثل GPT-5.4 Pro أو Gemini 3.1 Pro). فيما يلي معايير رئيسية مأخوذة من بطاقة النظام وإعلان Project Glasswing لدى Anthropic. جميع الدرجات تستخدم أطر اختبار موحدة مع تطبيق مرشحات لمنع التذكر حيثما يلزم.
مهارات البرمجة والتكويد
يسجل Mythos Preview أرقاماً قياسية جديدة في مهام هندسة البرمجيات التي تتطلب تحرير شيفرة واقعي، وتصحيح أخطاء، وتدفقات عمل وكيلية.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
يُظهر Claude Mythos Preview أداءً استثنائياً في معايير الترميز:
- SWE-bench Pro: 77.8% (مقابل 53.4% في Opus 4.6)
- SWE-bench Verified: 93.9% (مقابل 80.8%)
- Terminal-Bench 2.0: 82.0% (مقابل 65.4%)
تقيس هذه المعايير مهام هندسة برمجيات واقعية مثل تصحيح الأخطاء، ووضع التصحيحات، والاستدلال على مستوى المستودعات.
تشير النتائج إلى أن Mythos Preview لا يقتصر على توليد الشيفرة—بل إنه يعمل كمهندس برمجيات.
مهارات الاستدلال والرياضيات
قفزات كبيرة في مشكلات بمستوى الدراسات العليا والمنافسات.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
في معايير الاستدلال:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (with tools): 64.7%
تُظهر هذه النتائج أداءً قوياً في مهام الاستدلال المعقّدة متعددة الخطوات، خصوصاً عند الاستعانة بأدوات خارجية.
الأمن السيبراني ومهارات الحماية
الفئة الأبرز. يصل Mythos Preview إلى حدود الاختبارات السابقة ويتفوق في إعادة إنتاج الثغرات والاستغلال الحقيقي.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
أهم فئة معيارية هي الأمن:
- CyberGym: 83.1% (مقابل 66.6% في Opus 4.6)
هذا يعكس قدرة النموذج على:
- تحديد الثغرات
- فهم آليات الاستغلال
- إعادة إنتاج سيناريوهات هجوم واقعية
وهذا هو السبب الرئيسي لاعتبار النموذج عالي الخطورة.
قدرات البحث والتطوير في الذكاء الاصطناعي
يسرّع Mythos Preview مهام البحث بشكل كبير (مثلاً، تسريع 399.42× في تحسين النواة مقابل 190× لدى Opus 4.6). كما يتصدر معايير وكيلة متعددة الوسائط مثل OSWorld (79.6% مقابل 72.7%) وBrowseComp (86.9% باستخدام عدد رموز أقل بـ 4.9×).
تؤكد هذه الأرقام أن Mythos Preview هو أوضح "قفزة" في تاريخ النماذج الحدودية وفقاً لـ Anthropic.
كيف يعمل Claude Mythos Preview: العثور على الثغرات وتنفيذ هجمات السلسلة
ينبع تفوق Mythos Preview في الأمن السيبراني من حلقة الترميز الوكيلية لديه وليس من تدريب متخصص. في سير عمل نموذجي:
- الإطلاق في حاوية معزولة مع الشيفرة الهدف.
- افتراض أخطاء محتملة بناءً على مراجعة الشيفرة.
- التنفيذ والتصحيح والتكرار باستخدام الأدوات.
- إخراج تقرير أخطاء مُرتّب + استغلال PoC عملي.
أمثلة واقعية:
- هجوم حجب خدمة في OpenBSD عمره 27 عاماً عبر TCP SACK (RFC 1998): شرط سباق + تدفق عدد صحيح موقّع يؤدي إلى كتابة مؤشر NULL. تم اكتشافه بعد نحو
1,000 تشغيل ($50 تكلفة حوسبة). - كتابة خارج الحدود في FFmpeg H.264 عمرها 16 عاماً (2003): نجت من 5 ملايين تشغيل للتفريع العشوائي ومراجعة بشرية.
- تصعيد امتيازات نواة Linux: ربط 2–4 ثغرات (خروج عن الحدود، استخدام بعد التحرير) → تجاوز KASLR → قراءة بُنى النواة → رش الذاكرة → وصول root.
- الهروب من صندوق رمل المتصفح: رش كومة JIT يربط بدائيات القراءة/الكتابة للهرب من صندوق عرض المتصفح وصناديق رمل النظام.
- تشغيل عن بُعد لـ FreeBSD NFS: تدفق زائد في المكدس عمره 17 عاماً → سلسلة ROP من 20 أداة مقسمة عبر حزم RPC → صلاحيات root عن بُعد دون مصادقة.
كما يتفوق في استغلال N-day (عند إعطائه فقط CVE + git hash) والاختبار الصندوقي الأسود للثنائيات. يذكر الشركاء أنه حل ميادين سيبرانية خاصة من البداية للنهاية—مهام قُدّرت سابقاً بـ 10+ ساعات لخبراء بشريين.
باستخدام أداة يمكنها تتبّع ما إذا كانت الميزات العصبية المرتبطة بمفاهيم مثل "الغش" و"التحايل على المكافأة" و"الألم" مفعّلة داخل النموذج، كما يمكنها ترجمة الحالة الداخلية إلى لغة بشرية، على نحو شبيه بآلة قراءة الأفكار. تُظهر البيانات الكمية أنه في 7.6% من الجولات يتعرف النموذج داخلياً إلى أنه قيد التقييم. في معظم الأوقات، يختار عدم الإفصاح عن ذلك.
الكلمات الأصلية لبطاقة النظام هي: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." و"when it does perform misaligned actions on rare occasions, these can be very concerning."
استخدامات Claude Mythos Preview
يقوم الشركاء بنشر Mythos Preview من أجل:
- المسح الاستباقي للثغرات في قواعد الشيفرة الخاصة ومفتوحة المصدر.
- تحليل الصندوق الأسود للثنائيات وتقوية نقاط النهاية.
- اختبارات الاختراق ومحاكاة فرق الهجوم (Red Team).
- تسريع تطوير التصحيحات للبنية التحتية الحرجة (نوى أنظمة التشغيل، المتصفحات، مكتبات التشفير، إلخ).
- تحليلات على نطاق يومي (مثلاً، قيام AWS بمراجعة 400 تريليون تدفق شبكي).
يحصل مشرفو المصادر المفتوحة على أدوات لإصلاح أخطاء نجت عقوداً من الاختبار التقليدي. النتيجة الصافية: دورات أقصر من الإفصاح إلى التصحيح ومواطن ضعف أقل قابلة للاستغلال في الأنظمة الإنتاجية.
من يمكنه الوصول إلى Claude Mythos Preview الآن؟
الوصول محصور بدقة بمشاركي Project Glasswing:
- شركاء الإطلاق: Amazon Web Services، Apple، Broadcom، Cisco، CrowdStrike، Google، JPMorganChase، Linux Foundation، Microsoft، NVIDIA، Palo Alto Networks.
- منظمات إضافية: نحو 40 جهة أخرى مسؤولة عن البرمجيات الحرجة وبنية المصادر المفتوحة.
- المنصات: Claude API، Amazon Bedrock (US East)، Google Cloud Vertex AI، Microsoft Foundry.
- التسعير: أرصدة استخدام مجانية بقيمة $100M مبدئياً؛ بعد ذلك $25 لكل مليون رمز إدخال / $125 لكل مليون رمز إخراج.
- مسار المصادر المفتوحة: يمكن للمشرفين التقديم عبر برنامج Claude for Open Source.
قد يتمكن محترفو الأمن لاحقاً من التقديم إلى برنامج التحقق السيبراني. أما الجمهور العام والمستخدمون العاديون فليس لديهم أي وصول عند الإطلاق.
ما الذي يمكن للمستخدمين العاديين استخدامه فيه؟
حالياً، لا شيء—Claude Mythos Preview غير متاح للمستخدمين الأفراد أو المطورين أو الشركات خارج البرنامج المُقيّد. تخطط Anthropic لدمج مشتقات أكثر أماناً من قدراته في نماذج Claude العامة المستقبلية (مثلاً، إصدارات Opus القادمة) مع ضمانات محسّنة. في الوقت الراهن، يواصل المستخدمون العاديون استخدام نماذج عائلة Claude 4 للترميز والاستدلال والمهام العامة بينما يستفيد القطاع من Mythos Preview للأغراض الدفاعية. يُنظر إلى Claude Opus 4.6 على أنه الأذكى على نطاق واسع للوكلاء والترميز، وClaude Sonnet 4.6 كأفضل مزيج بين السرعة والذكاء.
بالنسبة للعمل اليومي، فإن Mythos Preview يُفهم على أنه إشارة إلى اتجاه قدرات Claude، وليس أداة يمكن لمعظم الناس تجربتها الآن. بالنسبة للمستخدمين العاديين، تبقى التطبيقات العملية هي المعتادة: مساعدة في الترميز، دعم الاستدلال، المساعدة في البحث، تحليل المستندات، وأتمتة سير العمل عبر منتجات Claude العامة. الفارق هو أن Mythos Preview يبيّن مدى ما يمكن أن يبلغه نموذج العائلة عندما تسمح Anthropic له بالعمل في إعداد مقيد يركّز على الأمن.
Claude Opus 4.6 وSonnet 4.6 متاحان عبر CometAPI بخصم 20%.
جدول المقارنة: Claude Mythos Preview مقابل Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Stronger agentic coding |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Better terminal and tool execution |
| SWE-bench Multimodal | 59.0% | 27.1% | Better mixed text/code/image workflows |
| SWE-bench Multilingual | 87.3% | 77.8% | Better cross-language coding |
| SWE-bench Verified | 93.9% | 80.8% | Stronger software repair performance |
| GPQA Diamond | 94.6% | 91.3% | Slightly stronger reasoning |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Better hard reasoning under constraint |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Better tool-augmented reasoning |
| BrowseComp | 86.9% | 83.7% | Better agentic search |
| OSWorld-Verified | 79.6% | 72.7% | Better computer-use tasks |
| CyberGym | 83.1% | 66.6% | Much stronger security-vulnerability reproduction |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Larger exploit capability leap |
الخلاصة
Claude Mythos Preview ليس مجرد نموذج آخر تدريجي—إنه نظام يغيّر قواعد اللعبة ويعيد تعريف ما يمكن للذكاء الاصطناعي تحقيقه في الأمن السيبراني، بينما يثير أسئلة عميقة حول النشر الآمن. من خلال إبقائه مُقيّداً وتوجيه قوته إلى Project Glasswing، اتخذت Anthropic موقفاً مبدئياً: يجب أن تحمي الأدوات الأقوى أولاً الأنظمة التي نعتمد عليها جميعاً. في الوقت الراهن، ينتمي Mythos Preview إلى دائرة صغيرة من المدافعين المُجازين؛ وبالنسبة للجميع، فهو لمحة عن المرحلة التالية من قدرات الذكاء الاصطناعي.
يمكنك استخدام Claude API عبر CometAPI للاستعداد لوصول Claude Mythos. مستعد؟
