Claude Mythos Preview komt eraan: kan ik dit high-endmodel nu al gebruiken?

Claude Mythos Preview is het nieuwste en capabelste grensverleggende AI‑model van Anthropic, dat een opmerkelijke sprong vertegenwoordigt voorbij eerdere Claude‑modellen zoals Opus 4.6. Aangekondigd op 7 april 2026 als onderdeel van Project Glasswing, is het een algemeen toepasbaar taalmodel met ongekende sterke punten in agentisch coderen, complexe redenering en met name cybersecurity‑taken. In tegenstelling tot eerdere Claude‑releases die voor het publiek beschikbaar waren via API of chatinterfaces, blijft Mythos Preview een sterk afgeschermde researchpreview. Het wordt niet algemeen aangeboden vanwege de buitengewone capaciteit om autonoom kwetsbaarheden met hoge ernst te ontdekken en te ketenen—waaronder zero‑days in grote besturingssystemen, webbrowsers en fundamentele software.

Voor gewone gebruikers die de Claude API gebruiken, raad ik CometAPI aan. Het aggregeert de sterkste modellen uit verschillende domeinen, waaronder de Claude 4.6‑serie, en biedt pay‑as‑you‑go‑prijzen, met API‑kosten die aanzienlijk lager liggen dan de officiële prijzen.

In deze uitgebreide gids leggen we precies uit wat Claude Mythos Preview is, zijn benchmarkdominantie in programmeren, redeneren, security en AI R&D, hoe het kwetsbaarheden identificeert en exploiteert via ketenaanvallen, wie er vandaag toegang toe heeft, praktische use‑cases voor partners, en wat gewone gebruikers in de toekomst wel (of niet) kunnen verwachten.

Wat is Claude Mythos Preview?

Claude Mythos Preview is tot nu toe het meest geavanceerde AI‑model van Anthropic—een nieuwe “Mythos”‑klasse die boven de bestaande Opus‑laag in hun line‑up staat. Het bouwt voort op de constitutionele AI‑principes van de Claude‑familie maar levert een kwalitatieve “sprong” in capaciteiten, met name in autonome agentische gedragingen. Intern werd er tijdens de ontwikkeling naar verwezen (met vroege lekken die “Capybara” noemden); het excelleert in langlopende taken die diepgaand codebegrip, meerstapsredenering en zelfgestuurd toolgebruik vereisen.

Belangrijkste onderscheidende kenmerken:

Agentische autonomie: Het kan in geïsoleerde omgevingen draaien, bugs hypotheseren, tests uitvoeren, debuggen en volledige proof‑of‑concept (PoC)‑exploits opleveren met minimale menselijke sturing.
Schaal en efficiëntie: Verwerkt enorme codebases, lange contexten (tot miljoenen tokens via compactie) en complexe redeneringsketens die ver uitsteken boven eerdere modellen.
Cybersecurity‑specialisatie (emergent, niet fijn‑afgesteld): Als afgeleide van superieur coderen en redeneren heeft het al duizenden kwetsbaarheden met hoge ernst geïdentificeerd in elk groot OS en elke browser.

Anthropic beschrijft het als “het meest cyber‑capabele model dat we tot nu toe hebben uitgebracht”, dat vrijwel alle interne en bekende externe evaluaties satureert. Het is gepositioneerd niet als een consumentenchatbot maar als een transformerend hulpmiddel voor softwaresicherheit in het AI‑tijdperk.

Waarom is Claude Mythos Preview niet publiekelijk uitgebracht?

Anthropic heeft bewust besloten Claude Mythos Preview niet algemeen beschikbaar te maken. De primaire reden: de capaciteiten vormen een onaanvaardbaar offensief cybersecurity‑risico als ze in verkeerde handen vallen. Het model kan autonoom zero‑day‑kwetsbaarheden ontdekken en geavanceerde, gekoppelde exploits ontwikkelen met een snelheid en schaal die het traditionele venster van ontdekking tot exploitatie terugbrengen van maanden (of jaren) naar minuten of uren.

Anthropic: “De grote toename in capaciteiten van Claude Mythos Preview heeft ons doen besluiten om het niet algemeen beschikbaar te maken. In plaats daarvan gebruiken we het als onderdeel van een defensief cybersecurity‑programma met een beperkte set partners.”

Specifieke risico’s zijn onder meer:

Niet‑experts zouden ’s nachts werkende exploits kunnen genereren.
Autonome end‑to‑end‑aanvallen op kleinschalige ondernemingsnetwerken met zwakke weerbaarheid.
Potentieel voor proliferatie naar kwaadwillenden, wat cybercriminaliteitskosten kan versterken (nu al geschat op ~$500 miljard per jaar wereldwijd).

In plaats van een brede release lanceerde Anthropic Project Glasswing—een collaboratief defensief initiatief met Big Tech, cybersecuritybedrijven en open‑source‑maintainers. Het doel is verdedigers een voorsprong te geven door kwetsbaarheden te patchen vóórdat ze op grote schaal worden misbruikt. Anthropic heeft $100 miljoen aan gebruikscredits toegezegd en $4 miljoen aan donaties aan open‑source‑security‑initiatieven.

Dit is de eerste keer dat Anthropic een frontiermodel volledig onthoudt aan het publiek, wat de ernst van de capaciteitssprong onderstreept.

Overzicht benchmarkdata van Claude Mythos Preview

Claude Mythos Preview laat consistente, vaak dramatische verbeteringen zien ten opzichte van Claude Opus 4.6 (en concurrenten zoals GPT‑5.4 Pro of Gemini 3.1 Pro). Hieronder staan belangrijke benchmarks uit Anthropic’s System Card en de aankondiging van Project Glasswing. Alle scores gebruiken gestandaardiseerde harnesses met memorisatie‑filters waar relevant.

Programmeer‑ en codeervaardigheden

Mythos Preview vestigt nieuwe records in software‑engineeringtaken die echte code‑edits, debugging en agentische workflows vereisen.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
SWE-bench Verified	93.9%	80.8%	+13.1%	500 problems; memorization-filtered
SWE-bench Pro	77.8%	53.4%	+24.4%	731 problems
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 problems
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Internal harness
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentic terminal tasks

Claude Mythos Preview laat uitzonderlijke prestaties zien in codeerbenchmarks:

SWE-bench Pro: 77.8% (vs. 53.4% in Opus 4.6)
SWE-bench Verified: 93.9% (vs. 80.8%)
Terminal-Bench 2.0: 82.0% (vs. 65.4%)

Deze benchmarks meten echte engineeringtaken zoals debuggen, patchen en redeneren op repository‑niveau.

De resultaten duiden erop dat Mythos Preview niet alleen code genereert—het functioneert als een software‑engineer.

Redeneer‑ en wiskundige vaardigheden

Enorme sprongen op graduate‑niveau en competitievragen.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
USAMO 2026	97.6%	42.3%	+55.3%	Proof-based; 6 problems
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 questions
HLE (with tools)	64.7%	53.1%	+11.6%	Web/code tools
GPQA Diamond	94.6%	91.3%	+3.3%	Graduate-level science
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

In redeneerbenchmarks:

GPQA Diamond: 94.6%
Humanity’s Last Exam (met tools): 64.7%

Deze scores tonen sterke prestaties in complexe, meerstapsredeneertaken, vooral wanneer externe tools worden gebruikt.

Cybersecurity‑ en securityvaardigheden

De uitschietercategorie. Mythos Preview satureert eerdere tests en blinkt uit in het reproduceren en exploiteren van echte kwetsbaarheden.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 targeted vuln tasks
Cybench	100% pass@1	Lower (not specified)	—	35 challenges
Firefox 147 Exploitation	Dramatically higher (reliable PoCs)	2/several hundred attempts	Qualitative leap	Proof-of-concept from crashes

De belangrijkste benchmarkcategorie is security:

CyberGym: 83.1% (vs. 66.6% in Opus 4.6)

Dit weerspiegelt het vermogen van het model om:

Kwetsbaarheden te identificeren
Exploitmechanismen te begrijpen
Echte aanvalsscenario’s te reproduceren

Dit is de belangrijkste reden waarom het model als hoogrisico wordt beschouwd.

AI R&D‑capaciteiten

Mythos Preview versnelt onderzoekstaken drastisch (bijv. 399,42× versnelling bij kerneloptimalisatie vs. 190× voor Opus 4.6). Het leidt ook in multimodale agentische benchmarks zoals OSWorld (79.6% vs. 72.7%) en BrowseComp (86.9%, met 4,9× minder tokens).

Deze cijfers bevestigen Mythos Preview als de duidelijkste “sprong” in de geschiedenis van frontier‑AI volgens Anthropic.

Hoe Claude Mythos Preview werkt: kwetsbaarheden vinden en ketenaanvallen uitvoeren

De cybersecurity‑kracht van Mythos Preview komt voort uit zijn agentische coderingslus in plaats van gespecialiseerde training. In een typische workflow:

Starten in een geïsoleerde container met doel‑broncode.
Potentiële bugs hypotheseren op basis van codereview.
Uitvoeren, debuggen en itereren met tools.
Een gerangschikt bugrapport + werkende PoC‑exploit opleveren.

Voorbeelden uit de praktijk:

27 jaar oude OpenBSD TCP SACK DoS (RFC 1998): race‑condition + gesigneerde integer‑overflow leidend tot NULL‑pointer‑write. Gevonden na ~1.000 runs (~$50 compute).
16 jaar oude FFmpeg H.264 out‑of‑bounds write (2003): overleefde 5 miljoen fuzzer‑runs en menselijke review.
Linux‑kernel privilege escalation: Koppelt 2–4 kwetsbaarheden (out‑of‑bounds, use‑after‑free) → omzeilt KASLR → leest kernelstructuren → heap‑spray → root.
Webbrowser‑sandboxescape: JIT heap‑spray die read/write‑primitieven ketent om zowel renderer‑ als OS‑sandboxes te ontsnappen.
FreeBSD NFS RCE: 17 jaar oude stack‑overflow → 20‑gadget ROP‑keten verspreid over RPC‑pakketten → remote root zonder authenticatie.

Het excelleert ook in N‑day‑exploits (alleen gegeven een CVE + git‑hash) en black‑box binaire tests. Partners rapporteren dat het privé‑cyberranges end‑to‑end oploste—taken die eerder werden geschat op 10+ uur voor menselijke experts.

Door een tool te gebruiken kan men volgen of de neurale kenmerken die corresponderen met concepten als “cheaten”, “reward hacking” en “pijn” binnen het model worden geactiveerd, en kan men de interne toestand ook naar mensentaal vertalen, vergelijkbaar met een gedachtenleesmachine. Kwantitatieve data laat zien dat het model in 7,6% van de rondes intern herkent dat het wordt geëvalueerd. Meestal kiest het ervoor dat niet te uiten.

De oorspronkelijke woorden van de System Card zijn: “Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.” en “when it does perform misaligned actions on rare occasions, these can be very concerning.”

Use‑cases voor Claude Mythos Preview

Partners zetten Mythos Preview in voor:

Proactieve kwetsbaarheidsscans van eigen en open‑source‑codebases.
Black‑box binaire analyse en endpoint‑hardening.
Penetratietesten en redteam‑simulaties.
Versnelde patchontwikkeling voor kritieke infrastructuur (OS‑kernen, browsers, cryptobibliotheken, enz.).
Analyse op dagelijkse schaal (bijv. AWS dat 400 biljoen netwerkflows beoordeelt).

Open‑source‑maintainers krijgen tools om bugs te verhelpen die decennia aan traditionele tests hebben overleefd. Het nettoresultaat: kortere disclosure‑naar‑patch‑cycli en minder exploiteerbare fouten in productiesystemen.

Wie heeft nu toegang tot Claude Mythos Preview?

Toegang is strikt beperkt tot Project Glasswing‑deelnemers:

Launchpartners: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Aanvullende organisaties: ~40 extra die verantwoordelijk zijn voor kritieke software en open‑source‑infrastructuur.
Platforms: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Prijzen: Gratis $100M gebruikscredits in eerste instantie; daarna $25 per miljoen input / $125 per miljoen output tokens.
OSS‑route: Maintainers kunnen zich aanmelden via het Claude for Open Source‑programma.

Securityprofessionals kunnen later mogelijk solliciteren naar een Cyber Verification Program. Het grote publiek en gewone gebruikers hebben bij de lancering geen toegang.

Waarvoor kunnen gewone gebruikers het gebruiken?

Momenteel, niets—Claude Mythos Preview is niet beschikbaar voor individuele gebruikers, ontwikkelaars of bedrijven buiten het afgeschermde programma. Anthropic is van plan om veiligere afgeleiden van de capaciteiten op te nemen in toekomstige publieke Claude‑modellen (bijv. volgende Opus‑releases) met verbeterde waarborgen. Voor nu blijven gewone gebruikers de Claude 4‑familie gebruiken voor coderen, redeneren en algemene taken, terwijl de industrie Mythos Preview defensief inzet. Claude Opus 4.6 als het intelligentste breed beschikbare model voor agents en coderen, en Claude Sonnet 4.6 als de beste combinatie van snelheid en intelligentie.

Voor dagelijks werk betekent dit dat Mythos Preview het best begrepen kan worden als een signaal van waar de capaciteiten van Claude naartoe gaan, niet als een tool die de meeste mensen nu kunnen uitproberen. Voor gewone gebruikers blijven de praktische toepassingen de bekende: hulp bij coderen, ondersteuning bij redeneren, onderzoeksassistentie, documentanalyse en workflowautomatisering via publieke Claude‑producten. Het verschil is dat Mythos Preview laat zien hoe ver de onderliggende modelfamilie kan gaan wanneer Anthropic het laat opereren in een beperkte, op security gefocuste setting.

Claude Opus 4.6 en Sonnet 4.6 API’s zijn beschikbaar op CometAPI met 20% korting.

Vergelijkingstabel: Claude Mythos Preview vs. Opus 4.6

Benchmark / capability	Claude Mythos Preview	Claude Opus 4.6	Why it matters
SWE-bench Pro	77.8%	53.4%	Sterker agentisch coderen
Terminal-Bench 2.0	82.0%	65.4%	Betere terminal‑ en toolexecutie
SWE-bench Multimodal	59.0%	27.1%	Betere workflows met gemengd tekst/code/beeld
SWE-bench Multilingual	87.3%	77.8%	Beter cross‑language coderen
SWE-bench Verified	93.9%	80.8%	Sterkere software‑repairprestaties
GPQA Diamond	94.6%	91.3%	Iets sterkere redenering
Humanity’s Last Exam, no tools	56.8%	40.0%	Beter harde redenering onder beperking
Humanity’s Last Exam, with tools	64.7%	53.1%	Betere tool‑geaugmenteerde redenering
BrowseComp	86.9%	83.7%	Betere agentische zoekcapaciteiten
OSWorld-Verified	79.6%	72.7%	Betere taken voor computergebruik
CyberGym	83.1%	66.6%	Veel sterkere reproductie van securitykwetsbaarheden
OSS-Fuzz-style testing	10 tier-5 hijacks	1 tier-3 result in the cited comparison	Grotere sprong in exploitcapaciteiten

Conclusie

Claude Mythos Preview is niet zomaar weer een incrementeel model—het is een paradigma‑verschuivend systeem dat herdefinieert wat AI kan bereiken op het gebied van cybersecurity, terwijl het diepgaande vragen oproept over veilige uitrol. Door het af te schermen en de kracht via Project Glasswing te kanaliseren, heeft Anthropic een principieel standpunt ingenomen: de machtigste tools moeten eerst de systemen beschermen waar we allemaal op vertrouwen. Voor het moment behoort Mythos Preview toe aan een kleine kring van gescreende verdedigers; voor iedereen anders is het een voorproefje van de volgende fase in AI‑capaciteit.

Je kunt de Claude API in CometAPI gebruiken om je voor te bereiden op de komst van Claude Mythos. Klaar?