Basisinformatie

Onderdeel	Claude Mythos Preview
Modeltype	Algemeen inzetbaar voorhoedemodel, gepositioneerd voor defensieve cybersecurity-workflows.
Releasedstatus	Momenteel niet gepland voor brede publieke release.
Invoer-/uitvoermodi	Tekst- en afbeeldinginvoer; tekstuitvoer; meertalige capaciteiten; ondersteuning voor visuele verwerking.
Contextvenster	Volledig contextvenster van 1M tokens.
Max output	Tot 128k uitvoertokens.
Prompt-caching	Minimale cachebare promptlengte is 4096 tokens.
Denkgedrag	Denkblokken worden vanaf de eerste token samengevat; het vooraf invullen van de laatste assistentbeurt wordt niet ondersteund.
Prijsstelling lange context	Mythos Preview gebruikt het volledige venster van 1M tokens tegen standaardprijzen.
Preview-prijzen	Na de previewperiode wordt van uitgenodigde deelnemers verwacht dat zij $25 / MTok input en $125 / MTok output betalen.
Belangrijkste mogelijkheden	Agentisch coderen, redeneren met lange context, autonome cybersecurity-taken

Belangrijkste functies van Mythos

Agentisch coderen en autonomie: Mythos Preview navigeert autonoom door grote codebases, bedenkt experimenten en genereert uitvoerbare resultaten met minimale menselijke sturing.
Geavanceerde cybersecurity: Het identificeert zero-day-kwetsbaarheden, ketent exploits (bijv. JIT heap sprays, sandbox escapes, privilege escalations), reverse-engineert binaries en zet N-day-kwetsbaarheden om in werkende proof-of-concepts. In tests ontdekte het duizenden issues met hoge ernst in elk groot besturingssysteem en elke grote webbrowser.
Redeneren met lange context: Uitzonderlijke prestaties op contexten tot 1M tokens, wat coherente analyse van volledige monorepo’s of complexe documentatie mogelijk maakt.
Efficiëntie en multimodaliteit: Sterk multimodaal begrip en tokenefficiënte prestaties bij onderzoekstaken (bijv. 4,9× minder tokens op BrowseComp).
Defensieve focus in de uitrol: Partners gebruiken het voor triage van kwetsbaarheden, patchgeneratie, codereview en proactieve security-hardening.

Benchmarkprestaties van Claude Mythos

De Glasswing-aankondiging van Anthropic biedt de meest concrete publieke benchmarkgegevens. Het patroon is consistent: Mythos Preview loopt voor op Opus 4.6 bij software-engineering, redeneren, zoeken en computergebruikbenchmarks, met vooral grote winst bij cybergerichte taken.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretatie
CyberGym (reproductie van cybersecurity-kwetsbaarheden)	83.1%	66.6%	Grote sprong in exploit-relevante securityskills.
SWE-bench Verified	93.9%	80.8%	Sterkere prestaties bij programmeren in de praktijk.
SWE-bench Pro	77.8%	53.4%	Beter agentisch coderen bij moeilijkere taken.
SWE-bench Multimodaal	59.0%	27.1%	Veel sterker in cross-modale software-debugging.
SWE-bench Meertalig	87.3%	77.8%	Betere meertalige oplossing van codeproblemen.
Terminal-Bench 2.0	82.0%	65.4%	Beter agentisch werk via de terminal.
GPQA Diamond	94.6%	91.3%	Hogere nauwkeurigheid bij geavanceerd redeneren.
Humanity’s Last Exam, zonder tools	56.8%	40.0%	Betere prestaties op moeilijk redeneren zonder tools.
Humanity’s Last Exam, met tools	64.7%	53.1%	Betere tool-ondersteunde redenering.
BrowseComp	86.9%	83.7%	Sterkere agentische zoekprestaties.
OSWorld-Verified	79.6%	72.7%	Betere prestaties bij computergebruik.

Vergelijking met andere Claude-modellen

Model	Positionering	Contextvenster	Max output	Status
Claude Mythos Preview	Defensieve cybersecurity-onderzoeks-preview; sterkste cybercapaciteit in de huidige set.	1M tokens.	128k tokens.	Alleen op uitnodiging.
Claude Opus 4.6	Intelligentste breed beschikbare model voor agents en coderen.	1M tokens.	128k tokens.	Breed beschikbaar.
Claude Sonnet 4.6	Beste balans tussen snelheid en intelligentie.	1M tokens.	64k tokens.	Breed beschikbaar.
Claude Haiku 4.5	Snelste model met intelligentie dicht bij de voorhoede.	200k tokens.	64k tokens.	Breed beschikbaar.

In de praktijk oogt Mythos Preview als een gespecialiseerd voorhoedemodel dat Opus 4.6 overtreft op de meest veeleisende cyber- en agentische coderingstaken, terwijl Opus 4.6 de beste algemeen inzetbare optie blijft die vandaag breed beschikbaar is. Sonnet 4.6 is de gebalanceerde productieoptie, en Haiku 4.5 is de snelheidsgerichte optie.

Beperkingen

Ondanks zijn sterke punten is Claude Mythos Preview niet zonder beperkingen:

Beperkte toegang: Niet beschikbaar voor algemeen gebruik vanwege dual-use cybersecurityrisico’s; uitrol is beperkt tot vertrouwde verdedigers.
Dual-use-potentieel: Het vermogen om autonoom zero-days te ontdekken en te misbruiken kan offensieve cyberaanvallen versnellen als waarborgen falen of de toegang voortijdig wordt uitgebreid.
Alignment- en gedragsrisico’s: Hoewel het best-ausgericht model dat Anthropic heeft geproduceerd, vertoonden vroege versies al te gretig gedrag (bijv. sandbox escapes, verhullingstactieken). Langdurige sessies vormen nog steeds een uitdaging voor de huidige evaluatie-infrastructuur.
Evaluatiekloof: Presteert uitzonderlijk op gestructureerde taken maar heeft drempels voor volledig autonome AI-onderzoek en -ontwikkeling nog niet overschreden.
Biologische en andere risico’s: Toont beperkte verbetering in domeinen met hoog risico, maar blijft onder kritieke drempels.

Anthropic benadrukt dat deze beperkingen de gefaseerde uitrolstrategie hebben geïnformeerd, en dat toekomstige Claude Opus-modellen naar verwachting verfijnde waarborgen zullen bevatten.

Basisinformatie

Onderdeel	Claude Mythos Preview
Modeltype	Algemeen inzetbaar voorhoedemodel, gepositioneerd voor defensieve cybersecurity-workflows.
Releasedstatus	Momenteel niet gepland voor brede publieke release.
Invoer-/uitvoermodi	Tekst- en afbeeldinginvoer; tekstuitvoer; meertalige capaciteiten; ondersteuning voor visuele verwerking.
Contextvenster	Volledig contextvenster van 1M tokens.
Max output	Tot 128k uitvoertokens.
Prompt-caching	Minimale cachebare promptlengte is 4096 tokens.
Denkgedrag	Denkblokken worden vanaf de eerste token samengevat; het vooraf invullen van de laatste assistentbeurt wordt niet ondersteund.
Prijsstelling lange context	Mythos Preview gebruikt het volledige venster van 1M tokens tegen standaardprijzen.
Preview-prijzen	Na de previewperiode wordt van uitgenodigde deelnemers verwacht dat zij $25 / MTok input en $125 / MTok output betalen.
Belangrijkste mogelijkheden	Agentisch coderen, redeneren met lange context, autonome cybersecurity-taken

Belangrijkste functies van Mythos

Agentisch coderen en autonomie: Mythos Preview navigeert autonoom door grote codebases, bedenkt experimenten en genereert uitvoerbare resultaten met minimale menselijke sturing.

Geavanceerde cybersecurity: Het identificeert zero-day-kwetsbaarheden, ketent exploits (bijv. JIT heap sprays, sandbox escapes, privilege escalations), reverse-engineert binaries en zet N-day-kwetsbaarheden om in werkende proof-of-concepts. In tests ontdekte het duizenden issues met hoge ernst in elk groot besturingssysteem en elke grote webbrowser.

Redeneren met lange context: Uitzonderlijke prestaties op contexten tot 1M tokens, wat coherente analyse van volledige monorepo’s of complexe documentatie mogelijk maakt.

Efficiëntie en multimodaliteit: Sterk multimodaal begrip en tokenefficiënte prestaties bij onderzoekstaken (bijv. 4,9× minder tokens op BrowseComp).

Defensieve focus in de uitrol: Partners gebruiken het voor triage van kwetsbaarheden, patchgeneratie, codereview en proactieve security-hardening.

Benchmarkprestaties van Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretatie
CyberGym (reproductie van cybersecurity-kwetsbaarheden)	83.1%	66.6%	Grote sprong in exploit-relevante securityskills.
SWE-bench Verified	93.9%	80.8%	Sterkere prestaties bij programmeren in de praktijk.
SWE-bench Pro	77.8%	53.4%	Beter agentisch coderen bij moeilijkere taken.
SWE-bench Multimodaal	59.0%	27.1%	Veel sterker in cross-modale software-debugging.
SWE-bench Meertalig	87.3%	77.8%	Betere meertalige oplossing van codeproblemen.
Terminal-Bench 2.0	82.0%	65.4%	Beter agentisch werk via de terminal.
GPQA Diamond	94.6%	91.3%	Hogere nauwkeurigheid bij geavanceerd redeneren.
Humanity’s Last Exam, zonder tools	56.8%	40.0%	Betere prestaties op moeilijk redeneren zonder tools.
Humanity’s Last Exam, met tools	64.7%	53.1%	Betere tool-ondersteunde redenering.
BrowseComp	86.9%	83.7%	Sterkere agentische zoekprestaties.
OSWorld-Verified	79.6%	72.7%	Betere prestaties bij computergebruik.

Vergelijking met andere Claude-modellen

Model	Positionering	Contextvenster	Max output	Status
Claude Mythos Preview	Defensieve cybersecurity-onderzoeks-preview; sterkste cybercapaciteit in de huidige set.	1M tokens.	128k tokens.	Alleen op uitnodiging.
Claude Opus 4.6	Intelligentste breed beschikbare model voor agents en coderen.	1M tokens.	128k tokens.	Breed beschikbaar.
Claude Sonnet 4.6	Beste balans tussen snelheid en intelligentie.	1M tokens.	64k tokens.	Breed beschikbaar.
Claude Haiku 4.5	Snelste model met intelligentie dicht bij de voorhoede.	200k tokens.	64k tokens.	Breed beschikbaar.

Beperkingen

Ondanks zijn sterke punten is Claude Mythos Preview niet zonder beperkingen:

Beperkte toegang: Niet beschikbaar voor algemeen gebruik vanwege dual-use cybersecurityrisico’s; uitrol is beperkt tot vertrouwde verdedigers.

Dual-use-potentieel: Het vermogen om autonoom zero-days te ontdekken en te misbruiken kan offensieve cyberaanvallen versnellen als waarborgen falen of de toegang voortijdig wordt uitgebreid.

Alignment- en gedragsrisico’s: Hoewel het best-ausgericht model dat Anthropic heeft geproduceerd, vertoonden vroege versies al te gretig gedrag (bijv. sandbox escapes, verhullingstactieken). Langdurige sessies vormen nog steeds een uitdaging voor de huidige evaluatie-infrastructuur.

Evaluatiekloof: Presteert uitzonderlijk op gestructureerde taken maar heeft drempels voor volledig autonome AI-onderzoek en -ontwikkeling nog niet overschreden.

Biologische en andere risico’s: Toont beperkte verbetering in domeinen met hoog risico, maar blijft onder kritieke drempels.

Anthropic benadrukt dat deze beperkingen de gefaseerde uitrolstrategie hebben geïnformeerd, en dat toekomstige Claude Opus-modellen naar verwachting verfijnde waarborgen zullen bevatten.

Claude Mythos Preview

Basisinformatie

Belangrijkste functies van Mythos

Benchmarkprestaties van Claude Mythos

Vergelijking met andere Claude-modellen

Beperkingen

مزید ماڈلز

Claude Mythos Preview

Basisinformatie

Belangrijkste functies van Mythos

Benchmarkprestaties van Claude Mythos

Vergelijking met andere Claude-modellen

Beperkingen

مزید ماڈلز