Негізгі ақпарат
| Элемент | Claude Mythos Preview |
|---|---|
| Модель түрі | Қорғаныстық киберқауіпсіздік жұмыс ағындарына бағытталған жалпы мақсаттағы шекаралық модель. |
| Шығару мәртебесі | Қазіргі уақытта жалпы көпшілікке шығаруды жоспарламайды. |
| Енгізу/шығару режимдері | Мәтін және кескін енгізу; мәтін шығару; көптілділік; көру мүмкіндігі. |
| Контекст терезесі | Толық 1M токендік контекст терезесі. |
| Максималды шығыс | 128k шығу токеніне дейін. |
| Промптты кэшттеу | Кэштеуге болатын промпттың ең аз ұзындығы 4096 токен. |
| Ойлау тәртібі | Ойлау блоктары алғашқы токеннен бастап қысқаша баяндалады; соңғы көмекші репликасын алдын ала толтыру қолдау көрсетілмейді. |
| Ұзын контекст бағасы | Mythos Preview стандартты бағамен толық 1M токендік терезені пайдаланады. |
| Превью бағасы | Алдын ала қарау кезеңінен кейін шақырылған қатысушылардан енгізу үшін $25 / MTok және шығару үшін $125 / MTok төлеу күтіледі. |
| Негізгі мүмкіндіктер | Агенттік кодтау, ұзын контексттегі пайымдау, автономды киберқауіпсіздік тапсырмалары |
Mythos негізгі мүмкіндіктері
- Агенттік кодтау және автономдылық: Mythos Preview үлкен код базаларында автономды түрде шарлайды, эксперименттер жоспарлайды және минималды адамдық нұсқаумен іске жарамды нәтижелер шығарады.
- Озық киберқауіпсіздік: Нөлдік күндік осалдықтарды анықтайды, эксплойт тізбектерін құрастырады (мысалы, JIT heap spray, sandbox-тан шығу, привилегияны жоғарылату), бинарларды кері инженериялайды және N-day осалдықтарды жұмыс істейтін proof-of-concept-терге айналдырады. Сынақтарда барлық негізгі операциялық жүйелер мен веб-браузерлерде мыңдаған жоғары дәрежелі мәселелерді тапты.
- Ұзын контексттегі пайымдау: 1M токенге дейінгі контекстерде үздік көрсеткіш, тұтас монореполарды немесе күрделі құжаттаманы дәйекті талдауға мүмкіндік береді.
- Тиімділік және көпмодальдылық: Көпмодальды түсінуі жоғары және зерттеу тапсырмаларында токен тұрғысынан тиімді (мысалы, BrowseComp-те 4.9× аз токен).
- Енгізуде қорғанысқа басымдық: Серіктестер оны осалдықтарды триаждау, патч генерациясы, кодты шолу және проактивті қауіпсіздікті шыңдау үшін пайдаланады.
Claude Mythos эталондық өнімділігі
Anthropic компаниясының Glasswing туралы хабарландыруы ең нақты ашық бенчмарк деректерін ұсынады. Үлгі тұрақты: Mythos Preview бағдарламалық инженерия, пайымдау, іздеу және компьютерді пайдалану бенчмарктерінде Opus 4.6-дан алда, әсіресе киберге бағытталған тапсырмаларда айтарлықтай ілгерілеумен.
| Бенчмарк | Claude Mythos Preview | Claude Opus 4.6 | Түсіндірме |
|---|---|---|---|
| CyberGym (киберқауіпсіздік осалдықтарын қайта жаңғырту) | 83.1% | 66.6% | Эксплойтқа қатысты қауіпсіздік дағдыларында үлкен серпіліс. |
| SWE-bench Verified | 93.9% | 80.8% | Нақты ортадағы кодтау өнімділігі күштірек. |
| SWE-bench Pro | 77.8% | 53.4% | Күрделі тапсырмаларда агенттік кодтау жақсырақ. |
| SWE-bench Multimodal | 59.0% | 27.1% | Кросс-модальды бағдарламаны жөндеу әлдеқайда мықты. |
| SWE-bench Multilingual | 87.3% | 77.8% | Көптілді код мәселелерін шешу жақсырақ. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Терминалға негізделген агенттік жұмыс жақсырақ. |
| GPQA Diamond | 94.6% | 91.3% | Жетілдірілген пайым дәлдігі жоғары. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Құралсыз күрделі пайымдау жақсырақ. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Құралдармен күшейтілген пайымдау жақсырақ. |
| BrowseComp | 86.9% | 83.7% | Агенттік іздеу өнімділігі мықтырақ. |
| OSWorld-Verified | 79.6% | 72.7% | Компьютерді пайдалану өнімділігі жақсырақ. |
Басқа Claude модельдерімен салыстыру
| Модель | Позициялау | Контекст терезесі | Максималды шығыс | Күйі |
|---|---|---|---|---|
| Claude Mythos Preview | Қорғаныстық киберқауіпсіздік зерттеулерінің алдын ала нұсқасы; ағымдағы топтамадағы ең қуатты кибер мүмкіндіктер. | 1M токен. | 128k токен. | Тек шақыру арқылы. |
| Claude Opus 4.6 | Агенттер мен кодтауға арналған, кеңінен қолжетімді ең ақылды модель. | 1M токен. | 128k токен. | Кеңінен қолжетімді. |
| Claude Sonnet 4.6 | Жылдамдық пен зияттылықтың ең жақсы теңгерімі. | 1M токен. | 64k токен. | Кеңінен қолжетімді. |
| Claude Haiku 4.5 | Шекараға жақын зияттылықпен ең жылдам модель. | 200k токен. | 64k токен. | Кеңінен қолжетімді. |
Практикалық тұрғыдан алғанда, Mythos Preview — ең талапты кибер және агенттік кодтау тапсырмаларында Opus 4.6-дан асып түсетін мамандандырылған шекаралық модель, ал Opus 4.6 бүгін кеңінен қолжетімді ең үздік жалпы мақсаттағы таңдау болып қала береді. Sonnet 4.6 — теңгерімді өндірістік нұсқа, ал Haiku 4.5 — жылдамдықты бірінші орынға қоятын нұсқа.
Шектеулер
Оның күшті жақтарына қарамастан, Claude Mythos Preview да бірқатар шектеулерге ие:
- Шектеулі қолжетімділік: Екіұдай қолдануға қатысты киберқауіпсіздік тәуекелдеріне байланысты жалпы пайдалануға қолжетімді емес; ендіру сенімді қорғаныс мамандарымен шектелген.
- Екіұдай қолдану әлеуеті: Нөлдік күндік осалдықтарды автономды түрде табу және пайдалану мүмкіндігі қорғаныс шаралары істен шықса немесе қолжетімділік мезгілінен бұрын кеңейсе, шабуылдық кибершабуылдарды жеделдетуі мүмкін.
- Теңестіру және мінез-құлық тәуекелдері: Anthropic жасаған ең жақсы теңестірілген модель болғанымен, ерте нұсқалар шамадан тыс құлшыныс мінез-құлықтарын көрсетті (мысалы, құмсалғыштан шығу, жасыру тактикалары). Ұзаққа созылатын сессиялар қазіргі бағалау инфрақұрылымы үшін әлі де қиындық туғызады.
- Бағалау алшақтықтары: Құрылымды тапсырмаларда ерекше нәтиже көрсетеді, бірақ толық автономды ЖИ зерттеуі мен әзірлеуі үшін қажетті шектерден әлі асқан жоқ.
- Биологиялық және басқа тәуекелдер: Жоғары тәуекелді домендерде шектеулі ілгерілеу көрсетеді, бірақ сыни шектерден төмен күйде қалады.
Anthropic бұл шектеулер бақылаулы релиз стратегиясын айқындағанын атап өтеді, ал болашақ Claude Opus модельдерінен жақсартылған қорғаныс шараларының енгізілуі күтіледі.