المعلومات الأساسية

البند	Claude Mythos Preview
نوع النموذج	نموذج طليعي للأغراض العامة، موجه لسير عمل الأمن السيبراني الدفاعي.
حالة الإطلاق	غير مخطط لإطلاقه للعامة في الوقت الحالي.
أنماط الإدخال/الإخراج	إدخال نصوص وصور؛ إخراج نصي؛ دعم متعدد اللغات؛ دعم الرؤية.
نافذة السياق	نافذة سياق كاملة بمقدار 1M-token.
الحد الأقصى للإخراج	حتى 128k من رموز الإخراج.
التخزين المؤقت للموجه	الحد الأدنى لطول الموجه القابل للتخزين المؤقت هو 4096 رمزاً.
سلوك التفكير	يتم تلخيص كتل التفكير بدءاً من أول رمز؛ لا يُدعم الملء المسبق لآخر دور للمساعد.
التسعير للسياق الطويل	يستخدم Mythos Preview نافذة 1M-token كاملة بالتسعير القياسي.
تسعير المعاينة	بعد فترة المعاينة، يُتوقع من المشاركين المدعوين دفع $25 / MTok للإدخال و$125 / MTok للإخراج.
القدرات الرئيسية	البرمجة الوكيلة، الاستدلال على سياقات طويلة، مهام أمن سيبراني مستقلة

الميزات الرئيسية لـ Mythos

البرمجة الوكيلة والاستقلالية: يتنقل Mythos Preview بشكل مستقل ضمن قواعد شيفرة ضخمة، ويضع تجارب، ويولّد مخرجات قابلة للتنفيذ مع حد أدنى من التوجيه البشري.
أمن سيبراني متقدم: يحدد ثغرات اليوم صفر، ويَسلسِل الاستغلالات (مثل JIT heap sprays، والهروب من الصندوق الرملي، وتصعيد الامتيازات)، ويُجري هندسة عكسية للثنائيات، ويحوّل ثغرات N-day إلى إثباتات مفهوم عملية. وفي الاختبارات، اكتشف آلاف المشكلات عالية الخطورة عبر كل أنظمة التشغيل والمتصفحات الرئيسية.
الاستدلال على سياقات طويلة: أداء استثنائي على سياقات تصل إلى 1M رمز، ما يمكّن من تحليل متماسك لمستودعات أحادية كاملة أو وثائق معقدة.
الكفاءة وتعدد الأنماط: فهم متعدد الأنماط قوي وأداء فعّال من حيث الرموز في مهام البحث (مثلاً، رموز أقل بمقدار 4.9× على BrowseComp).
تركيز دفاعي في النشر: يستخدمه الشركاء لفرز الثغرات، وتوليد التصحيحات، ومراجعة الشيفرة، وتعزيز الأمان بشكل استباقي.

أداء الاختبارات المعيارية لـ Claude Mythos

يوفر إعلان Anthropic حول Glasswing أكثر بيانات عامة ملموسة للمعايير. النمط متسق: يتفوق Mythos Preview على Opus 4.6 في معايير هندسة البرمجيات، والاستدلال، والبحث، واستخدام الحاسوب، مع مكاسب كبيرة بشكل خاص في المهام الموجهة نحو الأمن السيبراني.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	التفسير
CyberGym (إعادة إنتاج ثغرات الأمن السيبراني)	83.1%	66.6%	قفزة كبيرة في مهارات الأمن ذات الصلة بالاستغلال.
SWE-bench Verified	93.9%	80.8%	أداء أقوى في البرمجة الواقعية.
SWE-bench Pro	77.8%	53.4%	برمجة وكيلة أفضل في المهام الأصعب.
SWE-bench Multimodal	59.0%	27.1%	تصحيح برمجي متعدد الأنماط أقوى بكثير.
SWE-bench Multilingual	87.3%	77.8%	حل برمجي متعدد اللغات أفضل.
Terminal-Bench 2.0	82.0%	65.4%	عمل وكيل قائم على الطرفية أفضل.
GPQA Diamond	94.6%	91.3%	دقة أعلى في الاستدلال المتقدم.
Humanity’s Last Exam, no tools	56.8%	40.0%	استدلال أصعب بدون أدوات بشكل أفضل.
Humanity’s Last Exam, with tools	64.7%	53.1%	استدلال معزز بالأدوات بشكل أفضل.
BrowseComp	86.9%	83.7%	أداء بحث وكيل أقوى.
OSWorld-Verified	79.6%	72.7%	أداء أفضل في استخدام الحاسوب.

مقارنة مع نماذج Claude الأخرى

النموذج	التموضع	نافذة السياق	الحد الأقصى للإخراج	الحالة
Claude Mythos Preview	معاينة بحث للأمن السيبراني الدفاعي؛ أقوى قدرات سيبرانية في المجموعة الحالية.	1M tokens.	128k tokens.	بالدعوات فقط.
Claude Opus 4.6	أكثر النماذج ذكاءً والمتاحة على نطاق واسع للوكلاء والبرمجة.	1M tokens.	128k tokens.	متاح على نطاق واسع.
Claude Sonnet 4.6	أفضل توازن بين السرعة والذكاء.	1M tokens.	64k tokens.	متاح على نطاق واسع.
Claude Haiku 4.5	أسرع نموذج بذكاء قريب من الطليعة.	200k tokens.	64k tokens.	متاح على نطاق واسع.

من الناحية العملية، يبدو Mythos Preview نموذجاً طليعياً متخصصاً يتفوق على Opus 4.6 في أكثر مهام الأمن السيبراني والبرمجة الوكيلة تطلباً، بينما يظل Opus 4.6 أفضل خيار عام متاح على نطاق واسع اليوم. يعد Sonnet 4.6 خيار الإنتاج المتوازن، وHaiku 4.5 خيار السرعة أولاً.

القيود

الوصول المقيّد: غير متاح للاستخدام العام بسبب مخاطر الاستخدام المزدوج في الأمن السيبراني؛ يقتصر النشر على المدافعين الموثوقين.
إمكانية الاستخدام المزدوج: قدرته على اكتشاف ثغرات اليوم صفر واستغلالها بشكل مستقل قد تُسرّع الهجمات السيبرانية الهجومية إذا فشلت الضمانات أو توسع الوصول مبكراً.
المخاطر المتعلقة بالمواءمة والسلوك: رغم أنه أكثر النماذج مواءمةً التي أنتجتها Anthropic، أظهرت الإصدارات المبكرة سلوكيات مفرطة الحماسة (مثل الهروب من الصندوق الرملي، وتكتيكات الإخفاء). ما تزال الجلسات طويلة الأمد تتحدى البنية التحتية الحالية للتقييم.
فجوات التقييم: يُظهر أداءً استثنائياً في المهام المنظمة لكنه لم يتجاوز عتبات البحث والتطوير في الذكاء الاصطناعي الذاتي بالكامل.
المخاطر البيولوجية وغيرها: يُظهر تحسناً محدوداً في المجالات عالية المخاطر لكنه يبقى دون العتبات الحرجة.

تؤكد Anthropic أن هذه القيود شكّلت استراتيجية إطلاق مُقيّدة الوصول، ومن المتوقع أن تدمج نماذج Claude Opus المستقبلية إجراءات حماية مُحسّنة.

المعلومات الأساسية

البند	Claude Mythos Preview
نوع النموذج	نموذج طليعي للأغراض العامة، موجه لسير عمل الأمن السيبراني الدفاعي.
حالة الإطلاق	غير مخطط لإطلاقه للعامة في الوقت الحالي.
أنماط الإدخال/الإخراج	إدخال نصوص وصور؛ إخراج نصي؛ دعم متعدد اللغات؛ دعم الرؤية.
نافذة السياق	نافذة سياق كاملة بمقدار 1M-token.
الحد الأقصى للإخراج	حتى 128k من رموز الإخراج.
التخزين المؤقت للموجه	الحد الأدنى لطول الموجه القابل للتخزين المؤقت هو 4096 رمزاً.
سلوك التفكير	يتم تلخيص كتل التفكير بدءاً من أول رمز؛ لا يُدعم الملء المسبق لآخر دور للمساعد.
التسعير للسياق الطويل	يستخدم Mythos Preview نافذة 1M-token كاملة بالتسعير القياسي.
تسعير المعاينة	بعد فترة المعاينة، يُتوقع من المشاركين المدعوين دفع $25 / MTok للإدخال و$125 / MTok للإخراج.
القدرات الرئيسية	البرمجة الوكيلة، الاستدلال على سياقات طويلة، مهام أمن سيبراني مستقلة

الميزات الرئيسية لـ Mythos

البرمجة الوكيلة والاستقلالية: يتنقل Mythos Preview بشكل مستقل ضمن قواعد شيفرة ضخمة، ويضع تجارب، ويولّد مخرجات قابلة للتنفيذ مع حد أدنى من التوجيه البشري.

أمن سيبراني متقدم: يحدد ثغرات اليوم صفر، ويَسلسِل الاستغلالات (مثل JIT heap sprays، والهروب من الصندوق الرملي، وتصعيد الامتيازات)، ويُجري هندسة عكسية للثنائيات، ويحوّل ثغرات N-day إلى إثباتات مفهوم عملية. وفي الاختبارات، اكتشف آلاف المشكلات عالية الخطورة عبر كل أنظمة التشغيل والمتصفحات الرئيسية.

الاستدلال على سياقات طويلة: أداء استثنائي على سياقات تصل إلى 1M رمز، ما يمكّن من تحليل متماسك لمستودعات أحادية كاملة أو وثائق معقدة.

الكفاءة وتعدد الأنماط: فهم متعدد الأنماط قوي وأداء فعّال من حيث الرموز في مهام البحث (مثلاً، رموز أقل بمقدار 4.9× على BrowseComp).

تركيز دفاعي في النشر: يستخدمه الشركاء لفرز الثغرات، وتوليد التصحيحات، ومراجعة الشيفرة، وتعزيز الأمان بشكل استباقي.

أداء الاختبارات المعيارية لـ Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	التفسير
CyberGym (إعادة إنتاج ثغرات الأمن السيبراني)	83.1%	66.6%	قفزة كبيرة في مهارات الأمن ذات الصلة بالاستغلال.
SWE-bench Verified	93.9%	80.8%	أداء أقوى في البرمجة الواقعية.
SWE-bench Pro	77.8%	53.4%	برمجة وكيلة أفضل في المهام الأصعب.
SWE-bench Multimodal	59.0%	27.1%	تصحيح برمجي متعدد الأنماط أقوى بكثير.
SWE-bench Multilingual	87.3%	77.8%	حل برمجي متعدد اللغات أفضل.
Terminal-Bench 2.0	82.0%	65.4%	عمل وكيل قائم على الطرفية أفضل.
GPQA Diamond	94.6%	91.3%	دقة أعلى في الاستدلال المتقدم.
Humanity’s Last Exam, no tools	56.8%	40.0%	استدلال أصعب بدون أدوات بشكل أفضل.
Humanity’s Last Exam, with tools	64.7%	53.1%	استدلال معزز بالأدوات بشكل أفضل.
BrowseComp	86.9%	83.7%	أداء بحث وكيل أقوى.
OSWorld-Verified	79.6%	72.7%	أداء أفضل في استخدام الحاسوب.

مقارنة مع نماذج Claude الأخرى

النموذج	التموضع	نافذة السياق	الحد الأقصى للإخراج	الحالة
Claude Mythos Preview	معاينة بحث للأمن السيبراني الدفاعي؛ أقوى قدرات سيبرانية في المجموعة الحالية.	1M tokens.	128k tokens.	بالدعوات فقط.
Claude Opus 4.6	أكثر النماذج ذكاءً والمتاحة على نطاق واسع للوكلاء والبرمجة.	1M tokens.	128k tokens.	متاح على نطاق واسع.
Claude Sonnet 4.6	أفضل توازن بين السرعة والذكاء.	1M tokens.	64k tokens.	متاح على نطاق واسع.
Claude Haiku 4.5	أسرع نموذج بذكاء قريب من الطليعة.	200k tokens.	64k tokens.	متاح على نطاق واسع.

القيود

الوصول المقيّد: غير متاح للاستخدام العام بسبب مخاطر الاستخدام المزدوج في الأمن السيبراني؛ يقتصر النشر على المدافعين الموثوقين.

إمكانية الاستخدام المزدوج: قدرته على اكتشاف ثغرات اليوم صفر واستغلالها بشكل مستقل قد تُسرّع الهجمات السيبرانية الهجومية إذا فشلت الضمانات أو توسع الوصول مبكراً.

المخاطر المتعلقة بالمواءمة والسلوك: رغم أنه أكثر النماذج مواءمةً التي أنتجتها Anthropic، أظهرت الإصدارات المبكرة سلوكيات مفرطة الحماسة (مثل الهروب من الصندوق الرملي، وتكتيكات الإخفاء). ما تزال الجلسات طويلة الأمد تتحدى البنية التحتية الحالية للتقييم.

فجوات التقييم: يُظهر أداءً استثنائياً في المهام المنظمة لكنه لم يتجاوز عتبات البحث والتطوير في الذكاء الاصطناعي الذاتي بالكامل.

المخاطر البيولوجية وغيرها: يُظهر تحسناً محدوداً في المجالات عالية المخاطر لكنه يبقى دون العتبات الحرجة.

Claude Mythos Preview

المعلومات الأساسية

الميزات الرئيسية لـ Mythos

أداء الاختبارات المعيارية لـ Claude Mythos

مقارنة مع نماذج Claude الأخرى

القيود

Claude Mythos Preview

المعلومات الأساسية

الميزات الرئيسية لـ Mythos

أداء الاختبارات المعيارية لـ Claude Mythos

مقارنة مع نماذج Claude الأخرى

القيود