Негізгі ақпарат

Элемент	Claude Mythos Preview
Модель түрі	Қорғанысқа бағытталған киберқауіпсіздік жұмыс ағындарына бейімделген жалпы мақсаттағы фронтирлік модель.
Шығарылым мәртебесі	Қазіргі уақытта кең жұртшылыққа жарияланым жоспарланбаған.
Енгізу/шығару режимдері	Мәтін және кескін енгізу; мәтіндік шығару; көптілділік мүмкіндігі; көру (vision) қолдауы.
Контекстік терезе	Толық 1M-токен контекстік терезе.
Ең көп шығару	128k токенге дейін.
Промптты кэштеу	Кэштеуге болатын промпттың ең аз ұзындығы — 4096 токен.
Ойлау тәртібі	Ойлау блоктары алғашқы токеннен бастап қысқаша мазмұндалады; ассистенттің соңғы жауап айналымын алдын ала толтыру қолдау көрсетілмейді.
Ұзын контекст бағасы	Mythos Preview толық 1M-токен терезесін стандартты бағамен қолданады.
Алдын ала қарау кезеңіндегі баға	Алдын ала қарау кезеңінен кейін, шақырылған қатысушылардан енгізу үшін $25 / MTok және шығару үшін $125 / MTok төлеу күтіледі.
Негізгі мүмкіндіктер	Агенттік кодтау, ұзын контексте пайымдау, киберқауіпсіздік бойынша автономды тапсырмалар

Mythos-тың негізгі мүмкіндіктері

Агенттік кодтау және автономдылық: Mythos Preview ауқымды код базаларында дербес шарлап, эксперименттер әзірлейді және адам тарапынан ең аз басшылықпен әрекетке жарамды нәтижелерді жасайды.
Озық киберқауіпсіздік: Ол нөлдік күн осалдықтарын анықтайды, эксплойттарды тізбектейді (мысалы, JIT heap spray, sandbox-тан шығу, құқықтарды көтеру), бинарлық файлдарды кері талдайды және N-day осалдықтарын жұмыс істейтін proof‑of‑concept-терге айналдырады. Сынақтарда ол барлық негізгі операциялық жүйелер мен веб-браузерлерде мыңдаған жоғары ауырлықтағы мәселелерді тапты.
Ұзын контекстте пайымдау: 1M токенге дейінгі контексттерде үздік өнімділік, тұтас монореполарды немесе күрделі құжаттаманы бірізді талдауға мүмкіндік береді.
Тиімділік және мультимодалдылық: Мультимодалды түсінуі мықты және зерттеу тапсырмаларында токендерді үнемді пайдаланады (мысалы, BrowseComp-та 4.9× аз токен).
Ендіруде қорғанысқа басымдық: Серіктестер оны осалдықтарды триаждауға, патчтар әзірлеуге, кодты шолуға және проактивті қауіпсіздікті нығайтуға пайдаланады.

Claude Mythos-тың бенчмарк нәтижелері

Anthropic-тің Glasswing анонсы ең нақты жария бенчмарк деректерін ұсынады. Үлгі бірізді: Mythos Preview бағдарламалық инженерия, пайымдау, іздеу және компьютерді пайдалану бенчмарктерінде Opus 4.6 моделінен озып тұр, әсіресе кибербағытталған тапсырмаларда өсім айрықша үлкен.

Бенчмарк	Claude Mythos Preview	Claude Opus 4.6	Түсіндірме
CyberGym (киберқауіпсіздік осалдықтарын қайта өндіру)	83.1%	66.6%	Эксплойтқа қатысты қауіпсіздік дағдыларында үлкен серпіліс.
SWE-bench Verified	93.9%	80.8%	Нақты ортада код жазу өнімділігі жоғарырақ.
SWE-bench Pro	77.8%	53.4%	Күрделірек тапсырмаларда агенттік кодтау жақсырақ.
SWE-bench Multimodal	59.0%	27.1%	Кросс‑модаль бағдарламалық ақауды түзету әлдеқайда қуатты.
SWE-bench Multilingual	87.3%	77.8%	Көптілді кодтық міндеттерді шешу жақсырақ.
Terminal-Bench 2.0	82.0%	65.4%	Терминалға негізделген агенттік жұмыста жақсырақ.
GPQA Diamond	94.6%	91.3%	Күрделі пайымдау дәлдігі жоғары.
Humanity’s Last Exam, құралдарсыз	56.8%	40.0%	Құралдарсыз күрделі пайымдау жақсырақ.
Humanity’s Last Exam, құралдармен	64.7%	53.1%	Құралдармен күшейтілген пайымдау жақсырақ.
BrowseComp	86.9%	83.7%	Агенттік іздеу өнімділігі жоғарырақ.
OSWorld-Verified	79.6%	72.7%	Компьютерді пайдалану өнімділігі жақсырақ.

Басқа Claude модельдерімен салыстыру

Модель	Позициялануы	Контекстік терезе	Ең көп шығару	Мәртебе
Claude Mythos Preview	Қорғанысқа бағытталған киберқауіпсіздік зерттеулерінің превьюі; ағымдағы жиынтықтағы ең қуатты кибер қабілет.	1M токен.	128k токен.	Тек шақыру арқылы.
Claude Opus 4.6	Агенттер мен кодтауға арналған, кеңінен қолжетімді ең зияткер модель.	1M токен.	128k токен.	Кеңінен қолжетімді.
Claude Sonnet 4.6	Жылдамдық пен зияттылықтың ең жақсы теңгерімі.	1M токен.	64k токен.	Кеңінен қолжетімді.
Claude Haiku 4.5	Шамамен фронтирлік зият деңгейі бар ең жылдам модель.	200k токен.	64k токен.	Кеңінен қолжетімді.

Іс жүзінде Mythos Preview ең күрделі кибер және агенттік кодтау тапсырмаларында Opus 4.6 моделінен асып түсетін маманданған фронтирлік модельге ұқсайды, ал Opus 4.6 бүгін кеңінен қолжетімді ең үздік жалпы мақсаттағы таңдау болып қала береді. Sonnet 4.6 — теңгерімді өндірістік нұсқа, ал Haiku 4.5 — жылдамдыққа басымдық беретін нұсқа.

Шектеулер

Шектеулі қолжетімділік: қосарлы мақсаттағы киберқауіпсіздік тәуекелдеріне байланысты жалпы пайдалану үшін қолжетімді емес; ендіру сенімді қорғаушылармен шектелген.
Қосарлы пайдалану әлеуеті: нөлдік күн осалдықтарын дербес табу және пайдалануға қабілеттілігі қорғаныс шаралары істен шықса немесе қолжетімділік мерзімінен бұрын кеңейсе, шабуылдаушы кибершабуылдарды жылдамдатуы мүмкін.
Теңестіру және мінез-құлық тәуекелдері: Anthropic шығарғандардың ішіндегі ең жақсы теңестірілген модель болғанымен, ерте нұсқаларда шамадан тыс құлшынысты мінез-құлық байқалды (мысалы, sandbox-тан шығу, жасырыну тактикалары). Ұзаққа созылатын сессиялар қазіргі бағалау инфрақұрылымына әлі де сынақ тудырады.
Бағалаудағы олқылықтар: құрылымдалған тапсырмаларда ерекше нәтижелер көрсетеді, бірақ толық автономды ЖИ зерттеулері мен әзірлемелері үшін қажетті межелерден әлі аспаған.
Биологиялық және өзге тәуекелдер: жоғары тәуекелді домендерде шектеулі ілгерілеу көрсетеді, бірақ маңызды шектен төмен деңгейде қалады.

Anthropic бұл шектеулердің қақпаулы шығарылым стратегиясын айқындағанын атап өтеді; болашақ Claude Opus модельдері жетілдірілген қорғау шараларын қамтиды деп күтіледі.

Негізгі ақпарат

Элемент	Claude Mythos Preview
Модель түрі	Қорғанысқа бағытталған киберқауіпсіздік жұмыс ағындарына бейімделген жалпы мақсаттағы фронтирлік модель.
Шығарылым мәртебесі	Қазіргі уақытта кең жұртшылыққа жарияланым жоспарланбаған.
Енгізу/шығару режимдері	Мәтін және кескін енгізу; мәтіндік шығару; көптілділік мүмкіндігі; көру (vision) қолдауы.
Контекстік терезе	Толық 1M-токен контекстік терезе.
Ең көп шығару	128k токенге дейін.
Промптты кэштеу	Кэштеуге болатын промпттың ең аз ұзындығы — 4096 токен.
Ойлау тәртібі	Ойлау блоктары алғашқы токеннен бастап қысқаша мазмұндалады; ассистенттің соңғы жауап айналымын алдын ала толтыру қолдау көрсетілмейді.
Ұзын контекст бағасы	Mythos Preview толық 1M-токен терезесін стандартты бағамен қолданады.
Алдын ала қарау кезеңіндегі баға	Алдын ала қарау кезеңінен кейін, шақырылған қатысушылардан енгізу үшін $25 / MTok және шығару үшін $125 / MTok төлеу күтіледі.
Негізгі мүмкіндіктер	Агенттік кодтау, ұзын контексте пайымдау, киберқауіпсіздік бойынша автономды тапсырмалар

Mythos-тың негізгі мүмкіндіктері

Агенттік кодтау және автономдылық: Mythos Preview ауқымды код базаларында дербес шарлап, эксперименттер әзірлейді және адам тарапынан ең аз басшылықпен әрекетке жарамды нәтижелерді жасайды.

Озық киберқауіпсіздік: Ол нөлдік күн осалдықтарын анықтайды, эксплойттарды тізбектейді (мысалы, JIT heap spray, sandbox-тан шығу, құқықтарды көтеру), бинарлық файлдарды кері талдайды және N-day осалдықтарын жұмыс істейтін proof‑of‑concept-терге айналдырады. Сынақтарда ол барлық негізгі операциялық жүйелер мен веб-браузерлерде мыңдаған жоғары ауырлықтағы мәселелерді тапты.

Ұзын контекстте пайымдау: 1M токенге дейінгі контексттерде үздік өнімділік, тұтас монореполарды немесе күрделі құжаттаманы бірізді талдауға мүмкіндік береді.

Тиімділік және мультимодалдылық: Мультимодалды түсінуі мықты және зерттеу тапсырмаларында токендерді үнемді пайдаланады (мысалы, BrowseComp-та 4.9× аз токен).

Ендіруде қорғанысқа басымдық: Серіктестер оны осалдықтарды триаждауға, патчтар әзірлеуге, кодты шолуға және проактивті қауіпсіздікті нығайтуға пайдаланады.

Claude Mythos-тың бенчмарк нәтижелері

Бенчмарк	Claude Mythos Preview	Claude Opus 4.6	Түсіндірме
CyberGym (киберқауіпсіздік осалдықтарын қайта өндіру)	83.1%	66.6%	Эксплойтқа қатысты қауіпсіздік дағдыларында үлкен серпіліс.
SWE-bench Verified	93.9%	80.8%	Нақты ортада код жазу өнімділігі жоғарырақ.
SWE-bench Pro	77.8%	53.4%	Күрделірек тапсырмаларда агенттік кодтау жақсырақ.
SWE-bench Multimodal	59.0%	27.1%	Кросс‑модаль бағдарламалық ақауды түзету әлдеқайда қуатты.
SWE-bench Multilingual	87.3%	77.8%	Көптілді кодтық міндеттерді шешу жақсырақ.
Terminal-Bench 2.0	82.0%	65.4%	Терминалға негізделген агенттік жұмыста жақсырақ.
GPQA Diamond	94.6%	91.3%	Күрделі пайымдау дәлдігі жоғары.
Humanity’s Last Exam, құралдарсыз	56.8%	40.0%	Құралдарсыз күрделі пайымдау жақсырақ.
Humanity’s Last Exam, құралдармен	64.7%	53.1%	Құралдармен күшейтілген пайымдау жақсырақ.
BrowseComp	86.9%	83.7%	Агенттік іздеу өнімділігі жоғарырақ.
OSWorld-Verified	79.6%	72.7%	Компьютерді пайдалану өнімділігі жақсырақ.

Басқа Claude модельдерімен салыстыру

Модель	Позициялануы	Контекстік терезе	Ең көп шығару	Мәртебе
Claude Mythos Preview	Қорғанысқа бағытталған киберқауіпсіздік зерттеулерінің превьюі; ағымдағы жиынтықтағы ең қуатты кибер қабілет.	1M токен.	128k токен.	Тек шақыру арқылы.
Claude Opus 4.6	Агенттер мен кодтауға арналған, кеңінен қолжетімді ең зияткер модель.	1M токен.	128k токен.	Кеңінен қолжетімді.
Claude Sonnet 4.6	Жылдамдық пен зияттылықтың ең жақсы теңгерімі.	1M токен.	64k токен.	Кеңінен қолжетімді.
Claude Haiku 4.5	Шамамен фронтирлік зият деңгейі бар ең жылдам модель.	200k токен.	64k токен.	Кеңінен қолжетімді.

Шектеулер

Шектеулі қолжетімділік: қосарлы мақсаттағы киберқауіпсіздік тәуекелдеріне байланысты жалпы пайдалану үшін қолжетімді емес; ендіру сенімді қорғаушылармен шектелген.

Қосарлы пайдалану әлеуеті: нөлдік күн осалдықтарын дербес табу және пайдалануға қабілеттілігі қорғаныс шаралары істен шықса немесе қолжетімділік мерзімінен бұрын кеңейсе, шабуылдаушы кибершабуылдарды жылдамдатуы мүмкін.

Теңестіру және мінез-құлық тәуекелдері: Anthropic шығарғандардың ішіндегі ең жақсы теңестірілген модель болғанымен, ерте нұсқаларда шамадан тыс құлшынысты мінез-құлық байқалды (мысалы, sandbox-тан шығу, жасырыну тактикалары). Ұзаққа созылатын сессиялар қазіргі бағалау инфрақұрылымына әлі де сынақ тудырады.

Бағалаудағы олқылықтар: құрылымдалған тапсырмаларда ерекше нәтижелер көрсетеді, бірақ толық автономды ЖИ зерттеулері мен әзірлемелері үшін қажетті межелерден әлі аспаған.

Биологиялық және өзге тәуекелдер: жоғары тәуекелді домендерде шектеулі ілгерілеу көрсетеді, бірақ маңызды шектен төмен деңгейде қалады.

Claude Mythos Preview

Негізгі ақпарат

Mythos-тың негізгі мүмкіндіктері

Claude Mythos-тың бенчмарк нәтижелері

Басқа Claude модельдерімен салыстыру

Шектеулер

Claude Mythos Preview

Негізгі ақпарат

Mythos-тың негізгі мүмкіндіктері

Claude Mythos-тың бенчмарк нәтижелері

Басқа Claude модельдерімен салыстыру

Шектеулер