Claude Mythos Preview — Anthropic шығарған ең жаңа және ең қуатты шекаралық AI моделі, Opus 4.6 сияқты алдыңғы Claude үлгілерінен айқын секірісті білдіреді. 2026 жылғы 7 сәуірде Project Glasswing аясында жарияланған бұл жалпы мақсаттағы тілдік модель агенттік кодтау, күрделі пайымдау және әсіресе киберқауіпсіздік тапсырмаларында бұрын-соңды болмаған күшті көрсетеді. Бұрынғы Claude нұсқаларынан айырмашылығы (API немесе чат интерфейстері арқылы көпшілікке қолжетімді), Mythos Preview қатаң шектелген зерттеу алдын-ала қарауы ретінде қалуда. Ол кең қолданысқа ұсынылмайды, өйткені ол негізгі операциялық жүйелерде, веб-браузерлерде және іргелі бағдарламалық жасақтамадағы zero-day осалдықтарды қоса алғанда, жоғары ауырлықтағы осалдықтарды өздігінен анықтап, тізбектеп пайдалану қабілетіне ие.
Claude API-ін пайдаланатын қарапайым қолданушылар үшін мен CometAPI қызметін ұсынамын. Ол әртүрлі домендердегі ең мықты модельдерді, Claude 4.6 сериясын қоса, біріктіреді және тұтынғаныңша төлеу үлгісін ұсынады; API бағалары ресми бағалардан едәуір төмен.
Бұл жан-жақты нұсқаулықта біз Claude Mythos Preview деген не екенін, бағдарламалау, пайымдау, қауіпсіздік және AI ҒЗТКЖ салаларындағы бенчмарк басымдығын, оның осалдықтарды қалай анықтап, тізбекті шабуылдар арқылы пайдаланатынын, бүгін оны кімдер пайдалана алатынын, серіктестерге арналған практикалық пайдалануларды және қарапайым қолданушылар болашақта нені күте алатынын (немесе күте алмайтынын) дәл талдап шығамыз.
Claude Mythos Preview деген не?
Claude Mythos Preview — Anthropic бүгінге дейін әзірлеген ең озық AI моделі — олардың қатарына Opus деңгейінен жоғары орналасқан жаңа “Mythos” класы. Ол Claude отбасының конституциялық AI қағидаттарына сүйенеді, бірақ әсіресе агенттік мінез-құлықта сапалық “қадамдық секіріс” береді. Ішкі әзірлеу кезінде (ерте ағып кеткен мәліметтерде “Capybara” аталуы мүмкін) ол терең код түсінуді, көпқадамды пайымдауды және құралдарды өздігінен қолдануды талап ететін ұзақ мерзімді тапсырмаларда үздік шығады.
Негізгі айырмашылықтары:
- Агенттік автономия: Оқшауланған ортада іске қосылып, ақауларды болжап, тесттер жүргізіп, дебаг жасап, минималды адам нұсқауымен толық дәлелдемелік PoC-эксплойттарды шығара алады.
- Ауқым және тиімділік: Үлкен код базаларын, ұзын контексттерді (қысу арқылы миллиондаған токенге дейін) және алдыңғы модельдерден әлдеқайда күрделі пайымдау тізбектерін өңдейді.
- Киберқауіпсіздікке бейімделу (эмергентті, арнайы fine-tune жасалмаған): Кодтау мен пайымдаудың жоғары қабілеттерінен туындай отырып, барлық негізгі ОЖ және браузерлер бойынша жоғары ауырлықтағы мыңдаған осалдықтарды анықтады.
Anthropic оны “біз шығарған ең кибер-қабілетті модель” деп сипаттайды, ол дерлік барлық ішкі және белгілі сыртқы бағалауларда жоғарғы шектерге жетеді. Ол тұтынушыға арналған чат-бот емес, AI дәуіріндегі бағдарламалық қауіпсіздік үшін трансформативті құрал ретінде орналасқан.
Неліктен Claude Mythos Preview көпшілікке жария шығарылмады?
Anthropic Claude Mythos Preview моделін жалпы қолжетімділікке шығармау туралы саналы шешім қабылдады. Негізгі себеп: оның мүмкіндіктері қаскөйлер қолына түскен жағдайда қолайсыз шабуылдық киберқауіпсіздік тәуекелін тудырады. Модель zero-day осалдықтарды өздігінен анықтап, күрделі, тізбекті эксплойттарды жылдар немесе айлар емес, минуттар не сағаттар ішінде жасап, “ашылудан пайдалануға дейінгі” дәстүрлі аралықты күрт қысқарта алады.
Anthropic: “Claude Mythos Preview мүмкіндіктерінің үлкен артуы бізді оны жалпы қолжетімді етпеуге шешім қабылдауға жетеледі. Оның орнына, біз оны шектеулі серіктестермен қорғаныс киберқауіпсіздігі бағдарламасының бөлігі ретінде пайдаланудамыз.”
Нақты тәуекелдер:
- Білімі жоқ адамдар бір түнде жұмыс істейтін эксплойттар жасай алады.
- Осалдықтары әлсіз шағын кәсіпорын желілеріне автономды, ұстанымнан-аяғына дейін шабуылдар.
- Қаскөйлерге таралу ықтималдығы — дүниежүзілік киберқылмыс құны қазірдің өзінде шамамен ~$500 миллиард — зиянды одан әрі күшейтуі мүмкін.
Кең көлемде шығарудың орнына, Anthropic Project Glasswing бастамасын іске қосты — Big Tech, киберқауіпсіздік фирмалары және ашық бастапқы код энтузиастары арасындағы бірлескен қорғаныстық бастама. Мақсат — осалдықтар кеңінен пайдаланылмай тұрып, қорғаушыларға оларды жамауға уақыт беру. Anthropic $100 миллион көлемінде пайдалану кредиттерін және ашық бастапқы қауіпсіздікке $4 миллион қайырымдылықты уәде етті.
Бұл — Anthropic алғаш рет шекаралық моделін көпшілікке мүлде қолжетімді етпей отырғаны, бұл мүмкіндіктердегі секірістің маңыздылығын айқындайды.
Claude Mythos Preview бенчмарк деректеріне шолу
Claude Mythos Preview Claude Opus 4.6 (және GPT-5.4 Pro немесе Gemini 3.1 Pro сияқты бәсекелестер) үстінен тұрақты, жиі драмалық жақсартуларды көрсетеді. Төменде Anthropic-тің System Card және Project Glasswing анонсынан алынған негізгі бенчмарктер келтірілген. Барлық көрсеткіштер стандартталған стендтермен жиналған, қажет болған жерлерде жаттап алудан қорғайтын сүзгілер қолданылған.
Бағдарламалау және кодтау дағдылары
Mythos Preview нақты әлемдегі кодты өңдеу, дебаг және агенттік жұмыс ағындарын талап ететін бағдарламалық инженерия тапсырмаларында жаңа рекордтар орнатады.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 тапсырма; есте сақтауды сүзгілеумен |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 тапсырма |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 тапсырма |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Ішкі стенд |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Агенттік терминал тапсырмалары |
Claude Mythos Preview кодтау бенчмарктерінде ерекше нәтижелер көрсетеді:
- SWE-bench Pro: 77.8% (Opus 4.6 үшін 53.4%-бен салыстырғанда)
- SWE-bench Verified: 93.9% (80.8%-бен салыстырғанда)
- Terminal-Bench 2.0: 82.0% (65.4%-бен салыстырғанда)
Бұл бенчмарктер дебаг, патч жасау және репозиторий деңгейіндегі пайымдау сияқты нақты инженерлік тапсырмаларды өлшейді.
Нәтижелер Mythos Preview жай ғана код құрмайтынын көрсетеді — ол бағдарламалық инженер ретінде жұмыс істейді.
Пайымдау және математикалық дағдылар
Магистр деңгейі мен олимпиадалық деңгейдегі тапсырмаларда үлкен өсім.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Дәлелге негізделген; 6 тапсырма |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 сұрақ |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Веб/код құралдары |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Магистр деңгейіндегі ғылым |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M токен |
Пайымдау бенчмарктерінде:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (with tools): 64.7%
Бұл көрсеткіштер күрделі, көпқадамды пайымдау тапсырмаларында, әсіресе сыртқы құралдар пайдаланылғанда, жоғары өнімділікті дәлелдейді.
Киберқауіпсіздік және қауіпсіздік дағдылары
Ең көзге түсер санат. Mythos Preview бұрынғы тестілерді “жапсырып” тастайды және нақты осалдықтарды қайталау мен пайдалануда үздік.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1 507 нысаналы осалдық тапсырмалары |
| Cybench | 100% pass@1 | Төмен (көрсетілмеген) | — | 35 тапсырма |
| Firefox 147 Exploitation | Едәуір жоғары (сенімді PoC-тер) | бірнеше жүз талпыныстан 2 | Сапалық секіріс | Құлаудан PoC құрастыру |
Ең маңызды бенчмарк санаты — қауіпсіздік:
- CyberGym: 83.1% (Opus 4.6 үшін 66.6%-бен салыстырғанда)
Бұл модельдің келесі қабілеттерін көрсетеді:
- Осалдықтарды анықтау
- Эксплойт механикасын түсіну
- Нақты әлемдегі шабуыл сценарийлерін қайта өндіру
Бұл модельдің жоғары тәуекел ретінде қарастырылуының басты себебі осы.
AI ҒЗТКЖ мүмкіндіктері
Mythos Preview зерттеу тапсырмаларын едәуір жеделдетеді (мысалы, ядроны оңтайландыруда 399.42× үдеу, Opus 4.6-ның 190×-ымен салыстырғанда). Сондай-ақ ол OSWorld (79.6% vs. 72.7%) және BrowseComp (86.9%, 4.9× азырақ токенмен) сияқты мультимодальды агенттік бенчмарктерде алда.
Бұл көрсеткіштер Anthropic пікірінше Mythos Preview-ды шекаралық AI тарихындағы ең айқын “секіріс” ретінде растайды.
Claude Mythos Preview қалай жұмыс істейді: Осалдықтарды табу және тізбекті шабуылдарды орындау
Mythos Preview-дың киберқауіпсіздік бойынша үстемдігі арнайы үйретуден емес, агенттік кодтау циклі арқылы қалыптасады. Әдеттегі жұмыс ағыны:
- Мақсатты бастапқы кодпен оқшауланған контейнерде іске қосу.
- Кодты шолуға сүйене отырып ықтимал ақауларды болжау.
- Құралдарды пайдаланып орындау, дебаг жасау және итерациялау.
- Рейтингтелген ақаулар қорытындысы + жұмыс істейтін PoC-эксплойт шығару.
Нақты әлемнен мысалдар:
- 27 жылдық OpenBSD TCP SACK DoS (1998 RFC): Жүгіру жарысы жағдайы + таңбаланған бүтін санның толуы нәтижесінде NULL көрсеткішіне жазу.
1 000 іске қосудан кейін табылды ($50 есептеу шығыны). - 16 жылдық FFmpeg H.264 шектен тыс жазу (2003): 5 миллион фаззер іске қосуынан және адамдық шолудан аман қалған.
- Linux ядросында артықшылықтарды көтеру: 2–4 осалдықты (шектен тыс шығу, use-after-free) тізбектеу → KASLR айналып өту → ядро құрылымдарын оқу → heap spray → root.
- Веб-браузер “sandbox”-ынан шығу: JIT heap spray арқылы оқу/жазу примитивтерін тізбектеу, рендерер және ОЖ “sandbox”-тарын айналып өту.
- FreeBSD NFS RCE: 17 жылдық стек толуы → RPC пакеттеріне бөлінген 20-gadget ROP тізбегі → аутентификациясыз қашықтан root.
Ол сондай-ақ N-day эксплойттарында (тек CVE + git hash берілгенде) және “қара жәшік” бинарлық тестілеуде үздік. Серіктестер оның жеке кибер полигонын ұшынан-аяғына дейін шешкенін хабарлады — бұл тапсырмаларға адам сарапшылары бұрын 10+ сағат деп баға берген.
Арнайы құралды пайдалану арқылы модельдегі “алдау”, “сыйақыны бұзу” және “ауырсыну” сияқты ұғымдарға сәйкес келетін нейрондық белгілердің белсенуі бақылауға алынады, сондай-ақ ішкі күйді адам тіліне аудару — ой оқитын құрылғыға ұқсас — мүмкін болады. Сандық деректер раундтардың 7.6%-ында модель өзін бағалап жатқанын ішкі түрде танығанын көрсетеді. Көп жағдайда ол бұл туралы айтуды таңдамайды.
Жүйелік картаның түпнұсқа сөздері: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." және "when it does perform misaligned actions on rare occasions, these can be very concerning."
Claude Mythos Preview қолданылу жағдайлары
Серіктестер Mythos Preview-ды келесілер үшін енгізуде:
- Бірінші тарап және ашық бастапқы код базаларын проактивті осалдыққа сканерлеу.
- Қара жәшік бинарлық талдау және эндпоинтты нығайту.
- Пенетрациялық тестілеу және red-team симуляциялары.
- Сын инфрақұрылым (ОЖ ядролары, браузерлер, крипто кітапханалар және т.б.) үшін патч әзірлеуді жылдамдату.
- Күнделікті ауқымды талдау (мысалы, AWS тәулігіне 400 триллион желілік ағынды шолу).
Ашық бастапқы кодты ұстап тұрушылар ондаған жылдар бойы дәстүрлі тесттен аман қалған ақауларды түзету құралдарын алады. Нәтижесінде: осалдықтың жариялануынан бастап жамауға дейінгі цикл қысқарады және продакшн жүйелердегі пайдаланылатындай ақаулар азаяды.
Қазір Claude Mythos Preview-ға кім қол жеткізе алады?
Қол жеткізу Project Glasswing қатысушыларына қатаң шектелген:
- Іске қосу серіктестері: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Қосымша ұйымдар: маңызды бағдарламалық жасақтама және ашық бастапқы инфрақұрылымға жауапты шамамен 40 ұйым.
- Платформалар: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Баға: Алғашқыда $100M тегін пайдалану кредиттері; кейінірек $25 бір миллион кіріс токені / $125 бір миллион шығыс токені үшін.
- OSS бағыты: Ұстап тұрушылар Claude for Open Source бағдарламасы арқылы өтініш бере алады.
Қауіпсіздік мамандары кейін Cyber Verification Program арқылы өтініш бере алады. Жалпы жұртшылық пен қарапайым пайдаланушыларға іске қосу сәтінде қолжетім жоқ.
Қарапайым пайдаланушылар оны не үшін пайдалана алады?
Қазіргі уақытта — ештеңе үшін — Claude Mythos Preview шектеулі бағдарлама сыртындағы жеке қолданушыларға, әзірлеушілерге немесе бизнеске қолжетімсіз. Anthropic болашақта оның қауіпсіздеу туындыларын (мысалы, келесі Opus релиздері) күшейтілген қорғаныс шараларымен көпшілікке арналған Claude модельдеріне енгізуді жоспарлап отыр. Әзірге қарапайым пайдаланушылар кодтау, пайымдау, жалпы тапсырмалар үшін Claude 4 жанұясына жататын модельдерді қолдана береді, ал индустрия Mythos Preview-ды қорғаныстық мақсатта пайдаланады. Claude Opus 4.6 — агенттер мен кодтау үшін кеңінен қолжетімді ең ақылды модель, ал Claude Sonnet 4.6 — жылдамдық пен интеллекттің ең жақсы үйлесімі.
Күнделікті жұмыс үшін Mythos Preview көпшіліктің қазір байқап көре алатын құралы емес, Claude мүмкіндіктерінің қайда бағыт алып бара жатқанын көрсететін сигнал ретінде түсінілгені дұрыс. Қарапайым пайдаланушылар үшін әлі де әрекетке айналатын қолданыстар — кодтауға көмек, пайымдауды қолдау, зерттеуге жәрдем, құжаттарды талдау және көпшілікке қолжетімді Claude өнімдері арқылы жұмыс ағындарын автоматтандыру. Айырмашылығы — Anthropic оны шектеулі, қауіпсіздікке бағытталған ортада іске қосқанда, базалық отбасы қаншалық алысқа кете алатынын Mythos Preview көрсетеді.
Claude Opus 4.6 және Sonnet 4.6 API-лері CometAPI-де 20% жеңілдікпен қолжетімді.
Салыстыру кестесі: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Күшті агенттік кодтау |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Терминал мен құралдарды жақсырақ орындау |
| SWE-bench Multimodal | 59.0% | 27.1% | Мәтін/код/кескін аралас жұмыс ағындары жақсырақ |
| SWE-bench Multilingual | 87.3% | 77.8% | Көптілді кодтау қабілеті жоғарырақ |
| SWE-bench Verified | 93.9% | 80.8% | Бағдарламалық жөндеудің мықты көрсеткіші |
| GPQA Diamond | 94.6% | 91.3% | Пайымдау сәл мықтырақ |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Шектеулі жағдайда күрделі пайымдау жақсырақ |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Құралдармен күшейтілген пайымдау жақсырақ |
| BrowseComp | 86.9% | 83.7% | Агенттік іздеу жақсырақ |
| OSWorld-Verified | 79.6% | 72.7% | Компьютерді пайдалану тапсырмалары жақсырақ |
| CyberGym | 83.1% | 66.6% | Қауіпсіздік-осалдықтарды қайталау әлдеқайда күшті |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Эксплойт қабілетіндегі үлкен секіріс |
Қорытынды
Claude Mythos Preview — жай ғана кезекті инкрементті модель емес; ол киберқауіпсіздікте AI не істей алатынын қайта анықтайтын, сонымен бірге қауіпсіз енгізу туралы маңызды сұрақтар көтеретін парадигмалық жүйе. Оны шектеуде ұстап, қуатын Project Glasswing-ке бағыттай отырып, Anthropic қағидатты ұстаным көрсетті: ең қуатты құралдар алдымен бәріміз сүйенетін жүйелерді қорғауы керек. Әзірге Mythos Preview тек мұқият тексерілген қорғаушылар шеңберіне тиесілі; қалғандар үшін ол AI мүмкіндігінің келесі фазасына шолу ғана.
Claude Mythos келуіне дайындалу үшін Claude API-ін CometAPI-де қолдана аласыз. Дайынсыз ба?
