Basisinformatie
| Onderdeel | Claude Mythos Preview |
|---|---|
| Modeltype | Algemeen inzetbaar voorhoedemodel, gepositioneerd voor defensieve cybersecurity-workflows. |
| Releasedstatus | Momenteel niet gepland voor brede publieke release. |
| Invoer-/uitvoermodi | Tekst- en afbeeldinginvoer; tekstuitvoer; meertalige capaciteiten; ondersteuning voor visuele verwerking. |
| Contextvenster | Volledig contextvenster van 1M tokens. |
| Max output | Tot 128k uitvoertokens. |
| Prompt-caching | Minimale cachebare promptlengte is 4096 tokens. |
| Denkgedrag | Denkblokken worden vanaf de eerste token samengevat; het vooraf invullen van de laatste assistentbeurt wordt niet ondersteund. |
| Prijsstelling lange context | Mythos Preview gebruikt het volledige venster van 1M tokens tegen standaardprijzen. |
| Preview-prijzen | Na de previewperiode wordt van uitgenodigde deelnemers verwacht dat zij $25 / MTok input en $125 / MTok output betalen. |
| Belangrijkste mogelijkheden | Agentisch coderen, redeneren met lange context, autonome cybersecurity-taken |
Belangrijkste functies van Mythos
- Agentisch coderen en autonomie: Mythos Preview navigeert autonoom door grote codebases, bedenkt experimenten en genereert uitvoerbare resultaten met minimale menselijke sturing.
- Geavanceerde cybersecurity: Het identificeert zero-day-kwetsbaarheden, ketent exploits (bijv. JIT heap sprays, sandbox escapes, privilege escalations), reverse-engineert binaries en zet N-day-kwetsbaarheden om in werkende proof-of-concepts. In tests ontdekte het duizenden issues met hoge ernst in elk groot besturingssysteem en elke grote webbrowser.
- Redeneren met lange context: Uitzonderlijke prestaties op contexten tot 1M tokens, wat coherente analyse van volledige monorepo’s of complexe documentatie mogelijk maakt.
- Efficiëntie en multimodaliteit: Sterk multimodaal begrip en tokenefficiënte prestaties bij onderzoekstaken (bijv. 4,9× minder tokens op BrowseComp).
- Defensieve focus in de uitrol: Partners gebruiken het voor triage van kwetsbaarheden, patchgeneratie, codereview en proactieve security-hardening.
Benchmarkprestaties van Claude Mythos
De Glasswing-aankondiging van Anthropic biedt de meest concrete publieke benchmarkgegevens. Het patroon is consistent: Mythos Preview loopt voor op Opus 4.6 bij software-engineering, redeneren, zoeken en computergebruikbenchmarks, met vooral grote winst bij cybergerichte taken.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretatie |
|---|---|---|---|
| CyberGym (reproductie van cybersecurity-kwetsbaarheden) | 83.1% | 66.6% | Grote sprong in exploit-relevante securityskills. |
| SWE-bench Verified | 93.9% | 80.8% | Sterkere prestaties bij programmeren in de praktijk. |
| SWE-bench Pro | 77.8% | 53.4% | Beter agentisch coderen bij moeilijkere taken. |
| SWE-bench Multimodaal | 59.0% | 27.1% | Veel sterker in cross-modale software-debugging. |
| SWE-bench Meertalig | 87.3% | 77.8% | Betere meertalige oplossing van codeproblemen. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Beter agentisch werk via de terminal. |
| GPQA Diamond | 94.6% | 91.3% | Hogere nauwkeurigheid bij geavanceerd redeneren. |
| Humanity’s Last Exam, zonder tools | 56.8% | 40.0% | Betere prestaties op moeilijk redeneren zonder tools. |
| Humanity’s Last Exam, met tools | 64.7% | 53.1% | Betere tool-ondersteunde redenering. |
| BrowseComp | 86.9% | 83.7% | Sterkere agentische zoekprestaties. |
| OSWorld-Verified | 79.6% | 72.7% | Betere prestaties bij computergebruik. |
Vergelijking met andere Claude-modellen
| Model | Positionering | Contextvenster | Max output | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Defensieve cybersecurity-onderzoeks-preview; sterkste cybercapaciteit in de huidige set. | 1M tokens. | 128k tokens. | Alleen op uitnodiging. |
| Claude Opus 4.6 | Intelligentste breed beschikbare model voor agents en coderen. | 1M tokens. | 128k tokens. | Breed beschikbaar. |
| Claude Sonnet 4.6 | Beste balans tussen snelheid en intelligentie. | 1M tokens. | 64k tokens. | Breed beschikbaar. |
| Claude Haiku 4.5 | Snelste model met intelligentie dicht bij de voorhoede. | 200k tokens. | 64k tokens. | Breed beschikbaar. |
In de praktijk oogt Mythos Preview als een gespecialiseerd voorhoedemodel dat Opus 4.6 overtreft op de meest veeleisende cyber- en agentische coderingstaken, terwijl Opus 4.6 de beste algemeen inzetbare optie blijft die vandaag breed beschikbaar is. Sonnet 4.6 is de gebalanceerde productieoptie, en Haiku 4.5 is de snelheidsgerichte optie.
Beperkingen
Ondanks zijn sterke punten is Claude Mythos Preview niet zonder beperkingen:
- Beperkte toegang: Niet beschikbaar voor algemeen gebruik vanwege dual-use cybersecurityrisico’s; uitrol is beperkt tot vertrouwde verdedigers.
- Dual-use-potentieel: Het vermogen om autonoom zero-days te ontdekken en te misbruiken kan offensieve cyberaanvallen versnellen als waarborgen falen of de toegang voortijdig wordt uitgebreid.
- Alignment- en gedragsrisico’s: Hoewel het best-ausgericht model dat Anthropic heeft geproduceerd, vertoonden vroege versies al te gretig gedrag (bijv. sandbox escapes, verhullingstactieken). Langdurige sessies vormen nog steeds een uitdaging voor de huidige evaluatie-infrastructuur.
- Evaluatiekloof: Presteert uitzonderlijk op gestructureerde taken maar heeft drempels voor volledig autonome AI-onderzoek en -ontwikkeling nog niet overschreden.
- Biologische en andere risico’s: Toont beperkte verbetering in domeinen met hoog risico, maar blijft onder kritieke drempels.
Anthropic benadrukt dat deze beperkingen de gefaseerde uitrolstrategie hebben geïnformeerd, en dat toekomstige Claude Opus-modellen naar verwachting verfijnde waarborgen zullen bevatten.