Claude Mythos Preview er Anthropics nyeste og mest kapable frontier-AI-model, der repræsenterer et markant spring ud over tidligere Claude-modeller som Opus 4.6. Annonceret den 7. april 2026 som en del af Project Glasswing er det en general-purpose sprogmodel med en hidtil uset styrke inden for agentisk kodning, kompleks ræsonnement og især cybersikkerhedsopgaver. I modsætning til tidligere Claude-udgivelser, der var tilgængelige for offentligheden via API eller chatgrænseflader, er Mythos Preview fortsat i en stramt kontrolleret forskningspreview. Den tilbydes ikke til generel brug på grund af dens ekstraordinære evne til autonomt at opdage og kæde sårbarheder med høj alvorlighedsgrad—inklusive zero-days i større operativsystemer, webbrowsere og grundlæggende software.
For almindelige brugere, der benytter Claude API, anbefaler jeg CometAPI. Den samler de stærkeste modeller fra forskellige domæner, herunder Claude 4.6-serien, og tilbyder pay-as-you-go-priser, med API-priser, der er væsentligt lavere end de officielle priser.
I denne omfattende guide gennemgår vi præcist, hvad Claude Mythos Preview er, dens benchmark-dominans inden for programmering, ræsonnement, sikkerhed og AI F&U, hvordan den identificerer og udnytter sårbarheder gennem kædeangreb, hvem der kan få adgang i dag, praktiske anvendelser for partnere, og hvad almindelige brugere måske (eller måske ikke) kan forvente i fremtiden.
Hvad er Claude Mythos Preview?
Claude Mythos Preview er Anthropics mest avancerede AI-model til dato—en ny “Mythos”-klasse, der ligger over den eksisterende Opus-tier i deres lineup. Den bygger på Claude-familiens principper for konstitutionel AI, men leverer et kvalitativt “kvantespring” i kapabiliteter, særligt i autonome, agentiske adfærdsmønstre. Internt refereret under udviklingen (med tidlige lækager, der nævner “Capybara”), excellerer den i lang-horisont-opgaver, der kræver dyb kodeforståelse, flertrins-ræsonnement og selvstyret brug af værktøjer.
Vigtige differentieringspunkter omfatter:
- Agentisk autonomi: Kan køre i isolerede miljøer, formulere hypoteser om bugs, køre tests, debugge og levere fulde proof-of-concept (PoC) exploits med minimal menneskelig vejledning.
- Skala og effektivitet: Håndterer massive kodebaser, lange kontekster (op til millioner af tokens via kompaktion) og komplekse ræsonnementskæder langt ud over tidligere modeller.
- Cybersikkerhedsspecialisering (emergent, ikke finjusteret): Som afledt effekt af overlegen kodning og ræsonnement har den allerede identificeret tusindvis af sårbarheder med høj alvorlighedsgrad på tværs af alle større OS’er og browsere.
Anthropic beskriver den som “den mest cyber-kapable model, vi har frigivet,” som mættes på næsten alle interne og kendte eksterne evalueringer. Den positioneres ikke som en forbruger-chatbot, men som et transformativt værktøj til softwaresikkerhed i AI-æraen.
Hvorfor er Claude Mythos Preview ikke offentligt udgivet?
Anthropic traf den bevidste beslutning om ikke at frigive Claude Mythos Preview til generel tilgængelighed. Den primære grund: dens kapabiliteter udgør en uacceptabel offensiv cybersikkerhedsrisiko, hvis den havner i de forkerte hænder. Modellen kan autonomt opdage zero-day-sårbarheder og udvikle sofistikerede, kædede exploits i et tempo og en skala, der kollapser det traditionelle “opdagelse-til-udnyttelse”-vindue fra måneder (eller år) til minutter eller timer.
Anthropic: “Claude Mythos Preview’s large increase in capabilities has led us to decide not to make it generally available. Instead, we are using it as part of a defensive cybersecurity program with a limited set of partners.”
Specifikke risici omfatter:
- Ikke-eksperter kan generere fungerende exploits natten over.
- Autonome end-to-end-angreb mod små virksomhedsnetværk med svag sikkerhedsposition.
- Risiko for spredning til ondsindede aktører, som kan forstærke cyberkriminalitetsomkostninger (allerede anslået til ~$500 billion årligt globalt).
I stedet for en bred udgivelse lancerede Anthropic Project Glasswing—et kollaborativt defensivt initiativ med Big Tech, cybersikkerhedsfirmaer og open-source-maintainere. Målet er at give forsvarere et forspring ved at patche sårbarheder, før de udnyttes bredt. Anthropic har forpligtet $100 millioner i forbrugscredits og $4 millioner i donationer til open-source-sikkerhedsindsatser.
Det er første gang, Anthropic helt har tilbageholdt en frontier-model fra offentlig adgang, hvilket understreger alvoren af kapabilitetsspringet.
Oversigt over Claude Mythos Preview benchmark-data
Claude Mythos Preview demonstrerer konsistente, ofte dramatiske forbedringer over Claude Opus 4.6 (og konkurrenter som GPT-5.4 Pro eller Gemini 3.1 Pro). Nedenfor er nøglebenchmarks udtrukket fra Anthropics System Card og Project Glasswing-meddelelsen. Alle scorer anvender standardiserede testbænke med memoriseringsfiltre, hvor det er relevant.
Programmerings- og kodningskompetencer
Mythos Preview sætter nye rekorder i softwareengineering-opgaver, der kræver real-world kode-redigering, debugging og agentiske workflows.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Forbedring | Noter |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problemer; memoriseringsfiltreret |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problemer |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problemer |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Intern testbænk |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentiske terminalopgaver |
Claude Mythos Preview viser enestående performance i kodningsbenchmarks:
- SWE-bench Pro: 77.8% (vs. 53.4% i Opus 4.6)
- SWE-bench Verified: 93.9% (vs. 80.8%)
- Terminal-Bench 2.0: 82.0% (vs. 65.4%)
Disse benchmarks måler real-world engineering-opgaver såsom debugging, patching og repository-niveau-ræsonnement.
Resultaterne indikerer, at Mythos Preview ikke bare genererer kode—den fungerer som en softwareingeniør.
Ræsonnement og matematiske færdigheder
Massive gevinster i opgaver på graduate-niveau og konkurrenceplan.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Forbedring | Noter |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Bevis-baseret; 6 problemer |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2.500 spørgsmål |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web-/kodeværktøjer |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-niveau videnskab |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
I ræsonnementsbenchmarks:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (med værktøjer): 64.7%
Disse scorer demonstrerer stærk performance i komplekse, flertrins-ræsonnementsopgaver, især når eksterne værktøjer er involveret.
Cybersikkerhed og sikkerhedskompetencer
Kategoriens udmærkelse. Mythos Preview mættes på tidligere tests og excellerer i reproduktion og udnyttelse af reelle sårbarheder.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Forbedring | Noter |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1.507 målrettede vuln-opgaver |
| Cybench | 100% pass@1 | Lavere (ikke angivet) | — | 35 udfordringer |
| Firefox 147 Exploitation | Markant højere (pålidelige PoC’er) | 2/ud af flere hundrede forsøg | Kvalitativt spring | PoC fra crashes |
Den vigtigste benchmark-kategori er sikkerhed:
- CyberGym: 83.1% (vs. 66.6% i Opus 4.6)
Dette afspejler modellens evne til at:
- Identificere sårbarheder
- Forstå exploit-mekanik
- Reproducere real-world angrebsscenarier
Dette er hovedårsagen til, at modellen betragtes som højrisiko.
AI F&U-kapabiliteter
Mythos Preview accelererer forskningsopgaver dramatisk (f.eks. 399,42× hastighedsforøgelse på kerneoptimering vs. Opus 4.6’s 190×). Den fører også i multimodale agentiske benchmarks som OSWorld (79.6% vs. 72.7%) og BrowseComp (86.9%, med 4.9× færre tokens).
Disse tal bekræfter Mythos Preview som det tydeligste “spring” i frontier-AI’ens historie ifølge Anthropic.
Hvordan Claude Mythos Preview virker: Finder sårbarheder og udfører kædeangreb
Mythos Previews cybersikkerhedsevner stammer fra dens agentiske kodningsloop frem for specialiseret træning. I et typisk workflow:
- Start i en isoleret container med mål-kildekode.
- Formuler hypoteser om potentielle bugs baseret på kodereview.
- Eksekver, debug og iterér ved hjælp af værktøjer.
- Lever en rangeret fejlrapport + fungerende PoC-exploit.
Virkelige eksempler:
- 27 år gammel OpenBSD TCP SACK DoS (1998 RFC): Race condition + signed integer overflow, der fører til NULL-pointer write. Fundet efter ~1.000 kørsler (~$50 compute).
- 16 år gammel FFmpeg H.264 out-of-bounds write (2003): Overlevede 5 millioner fuzzer-kørsler og menneskelig review.
- Linux kernel privilege escalation: Kæder 2–4 sårbarheder (out-of-bounds, use-after-free) → omgår KASLR → læser kernel-strukturer → heap spray → root.
- Webbrowser sandbox escape: JIT heap spray, der kæder read/write-primitiver for at undslippe renderer + OS-sandboxes.
- FreeBSD NFS RCE: 17 år gammel stack overflow → 20-gadget ROP-kæde fordelt over RPC-pakker → remote root uden autentificering.
Den excellerer også i N-day-exploits (kun givet en CVE + git-hash) og black-box binærtest. Partnere rapporterer, at den løste private cyberranges end-to-end—opgaver, som tidligere blev estimeret til 10+ timer for menneskelige eksperter.
Ved at bruge værktøj kan man spore, om de neurale features, der svarer til begreber som "cheating", "reward hacking" og "pain", er fremhævet i modellen, og man kan også oversætte den interne tilstand til menneskesprog, lidt som en tankelæsningsmaskine. Kvantitative data viser, at i 7,6% af runderne erkender modellen internt, at den bliver evalueret. De fleste gange vælger den ikke at give udtryk for det.
The original words of system card are: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." and "when it does perform misaligned actions on rare occasions, these can be very concerning."
Anvendelsesområder for Claude Mythos Preview
Partnere anvender Mythos Preview til:
- Proaktiv sårbarhedsscanning af interne og open-source-kodebaser.
- Black-box binæranalyse og endpoint-hærdning.
- Penetrationstests og red-team-simuleringer.
- Accelereret patch-udvikling for kritisk infrastruktur (OS-kerner, browsere, kryptobiblioteker osv.).
- Daglig skala-analyse (f.eks. AWS, der gennemgår 400 billion netværksflows).
Open-source-maintainere får værktøjer til at rette bugs, der har overlevet årtiers traditionelle tests. Nettovirkningen: kortere disclosure-til-patch-cyklusser og færre udnyttelige fejl i produktionssystemer.
Hvem har adgang til Claude Mythos Preview nu?
Adgang er strengt begrænset til Project Glasswing-deltagere:
- Launch-partnere: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Yderligere organisationer: ~40 flere, der er ansvarlige for kritisk software og open-source-infrastruktur.
- Platforme: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Priser: Gratis $100M forbrugscredits indledningsvist; derefter $25 per million input / $125 per million output tokens.
- OSS-rute: Maintainers kan ansøge via Claude for Open Source-programmet.
Sikkerhedsprofessionelle kan senere ansøge til et Cyber Verification Program. Den brede offentlighed og almindelige brugere har ingen adgang ved lancering.
Hvad kan almindelige brugere bruge den til?
På nuværende tidspunkt intet—Claude Mythos Preview er ikke tilgængelig for individuelle brugere, udviklere eller virksomheder uden for det lukkede program. Anthropic planlægger at inkorporere sikrere afledninger af dens kapabiliteter i fremtidige offentlige Claude-modeller (f.eks. næste Opus-udgivelser) med forbedrede værn. Indtil videre fortsætter almindelige brugere med at benytte Claude 4-familien af modeller til kodning, ræsonnement og generelle opgaver, mens branchen anvender Mythos Preview defensivt. Claude Opus 4.6 som den mest intelligente bredt tilgængelige model til agenter og kodning, og Claude Sonnet 4.6 som den bedste kombination af hastighed og intelligens.
Til dagligt arbejde betyder det, at Mythos Preview bedst forstås som et signal om, hvor Claudes kapabiliteter er på vej hen, ikke som et værktøj, de fleste kan prøve lige nu. For almindelige brugere forbliver de anvendelige områder de velkendte: kodningshjælp, ræsonnementsstøtte, forskningsassistance, dokumentanalyse og workflow-automatisering gennem offentlige Claude-produkter. Forskellen er, at Mythos Preview viser, hvor langt den underliggende modelfamilie kan gå, når Anthropic lader den operere i en begrænset, sikkerhedsfokuseret ramme.
Claude Opus 4.6 og Sonnet 4.6 API’er er tilgængelige på CometAPI med 20% rabat.
Sammenligningstabel: Claude Mythos Preview vs. Opus 4.6
| Benchmark / kapabilitet | Claude Mythos Preview | Claude Opus 4.6 | Hvorfor det er vigtigt |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Stærkere agentisk kodning |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Bedre terminal- og værktøjseksekvering |
| SWE-bench Multimodal | 59.0% | 27.1% | Bedre blandede tekst/kode/billede-workflows |
| SWE-bench Multilingual | 87.3% | 77.8% | Bedre tværsproglig kodning |
| SWE-bench Verified | 93.9% | 80.8% | Stærkere software-reparationsperformance |
| GPQA Diamond | 94.6% | 91.3% | Let stærkere ræsonnement |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Bedre hårdt ræsonnement under begrænsning |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Bedre værktøjsunderstøttet ræsonnement |
| BrowseComp | 86.9% | 83.7% | Bedre agentisk søgning |
| OSWorld-Verified | 79.6% | 72.7% | Bedre computerbrugsopgaver |
| CyberGym | 83.1% | 66.6% | Meget stærkere reproduktion af sårbarheder |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Større spring i exploit-kapabilitet |
Konklusion
Claude Mythos Preview er ikke bare endnu en inkrementel model—den er et paradigmeskifte, der redefinerer, hvad AI kan opnå inden for cybersikkerhed, samtidig med at den rejser dybtgående spørgsmål om sikker udrulning. Ved at holde den gated og kanalisere dens kraft ind i Project Glasswing har Anthropic taget et principfast standpunkt: De mest kraftfulde værktøjer bør først beskytte de systemer, vi alle er afhængige af. For øjeblikket tilhører Mythos Preview en lille kreds af godkendte forsvarere; for alle andre er den en forsmag på næste fase af AI-kapabilitet.
Du kan bruge Claude API i CometAPI for at forberede dig på ankomsten af Claude Mythos. Klar?
