Claude Mythos Preview kommer: Kan jeg bruke denne toppmodellen nå?

Claude Mythos Preview er Anthropics nyeste og mest kapable frontier-KI-modell, og representerer et markant sprang utover tidligere Claude-modeller som Opus 4.6. Annonsert 7. april 2026 som en del av Project Glasswing, er den en allmennspråklig modell med enestående styrker innen agentisk koding, kompleks resonnering og særlig cybersikkerhetsoppgaver. I motsetning til tidligere Claude-utgivelser tilgjengelige for allmennheten via API eller chattegrensesnitt, forblir Mythos Preview en strengt avgrenset forskningsforhåndsvisning. Den tilbys ikke for generell bruk på grunn av sin ekstraordinære evne til autonomt å oppdage og kjede sårbarheter med høy alvorlighetsgrad—inkludert zero-days i store operativsystemer, nettlesere og grunnleggende programvare.

For vanlige brukere av Claude API anbefaler jeg CometAPI. Den samler de sterkeste modellene fra ulike domener, inkludert Claude 4.6-serien, og tilbyr en betal-etter-forbruk-modell, med API-priser som er betydelig lavere enn de offisielle prisene.

I denne omfattende veiledningen bryter vi ned nøyaktig hva Claude Mythos Preview er, dens benchmark-dominans innen programmering, resonnering, sikkerhet og KI FoU, hvordan den identifiserer og utnytter sårbarheter gjennom kjedeangrep, hvem som kan få tilgang til den i dag, praktiske bruksområder for partnere, og hva vanlige brukere kan (eller ikke kan) forvente i fremtiden.

Hva er Claude Mythos Preview?

Claude Mythos Preview er Anthropics mest avanserte KI-modell til dags dato—en ny “Mythos”-klasse som ligger over den eksisterende Opus-nivået i porteføljen deres. Den bygger på Claude-familiens prinsipper for konstitusjonell KI, men leverer et kvalitativt “trinnskifte” i kapabiliteter, spesielt i autonome, agentiske atferder. Internt referert til under utviklingen (med tidlige lekkasjer som nevnte “Capybara”), utmerker den seg i langhorisontoppgaver som krever dyp kodeforståelse, flertrinns resonnering og selvstyrt verktøybruk.

Viktige forskjeller omfatter:

Agentisk autonomi: Kan kjøre i isolerte miljøer, formulere hypoteser om feil, utføre tester, feilsøke og levere komplette proof-of-concept (PoC)-utnyttelser med minimal menneskelig veiledning.
Skala og effektivitet: Håndterer massive kodebaser, lange kontekster (opp til millioner av tokens via komprimering) og komplekse resonneringskjeder langt utover tidligere modeller.
Cybersikkerhetsspesialisering (emergent, ikke finjustert): Som en følge av overlegen koding og resonnering har den allerede identifisert tusenvis av sårbarheter med høy alvorlighetsgrad på tvers av alle større OS og nettlesere.

Anthropic beskriver den som “den mest cyber-kapable modellen vi har sluppet”, som metter nesten alle interne og kjente eksterne evalueringer. Den posisjoneres ikke som en forbruker-chatbot, men som et transformativt verktøy for programvaresikkerhet i KI-æraen.

Hvorfor er ikke Claude Mythos Preview offentlig lansert?

Anthropic tok en bevisst beslutning om å ikke slippe Claude Mythos Preview for generell tilgjengelighet. Hovedårsaken: dens kapabiliteter utgjør en uakseptabel offensiv cybersikkerhetsrisiko i feil hender. Modellen kan autonomt oppdage zero-day-sårbarheter og utvikle sofistikerte, kjedede utnyttelser i en hastighet og skala som kollapser det tradisjonelle vinduet fra oppdagelse til utnyttelse fra måneder (eller år) til minutter eller timer.

Anthropic: “Claude Mythos Preview’s large increase in capabilities has led us to decide not to make it generally available. Instead, we are using it as part of a defensive cybersecurity program with a limited set of partners.”

Spesifikke risikoer inkluderer:

Ikke-eksperter kan generere fungerende utnyttelser over natten.
Autonome ende-til-ende-angrep på små bedriftsnettverk med svakt sikkerhetsnivå.
Potensial for spredning til ondsinnede aktører, som forsterker kostnadene ved nettkriminalitet (allerede anslått til ~$500 milliarder årlig globalt).

I stedet for bredt slipp lanserte Anthropic Project Glasswing—et samarbeidende, defensivt initiativ med Big Tech, cybersikkerhetsfirmaer og open-source-vedlikeholdere. Målet er å gi forsvarerne et forsprang ved å lappe sårbarheter før de blir bredt utnyttet. Anthropic har forpliktet $100 millioner i bruks-kreditter og $4 millioner i donasjoner til open-source-sikkerhetsarbeid.

Dette er første gang Anthropic helt har holdt tilbake en frontier-modell fra offentlig tilgang, noe som understreker alvoret i kapabilitetsspranget.

Oversikt over Claude Mythos Preview-benchmarks

Claude Mythos Preview viser konsistente, ofte dramatiske forbedringer over Claude Opus 4.6 (og konkurrenter som GPT-5.4 Pro eller Gemini 3.1 Pro). Nedenfor er nøkkelbenchmarks hentet fra Anthropics System Card og Project Glasswing-kunngjøringen. Alle scorer bruker standardiserte testoppsett med memoriseringsfiltre brukt der det er relevant.

Programmerings- og kodeferdigheter

Mythos Preview setter nye rekorder i programvareingeniøroppgaver som krever reell redigering av kode, feilsøking og agentiske arbeidsflyter.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Forbedring	Notater
SWE-bench Verified	93.9%	80.8%	+13.1%	500 oppgaver; med memoriseringsfilter
SWE-bench Pro	77.8%	53.4%	+24.4%	731 oppgaver
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 oppgaver
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Internt testoppsett
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentiske terminaloppgaver

Claude Mythos Preview viser eksepsjonell ytelse i kode-benchmarks:

SWE-bench Pro: 77.8% (vs. 53.4% i Opus 4.6)
SWE-bench Verified: 93.9% (vs. 80.8%)
Terminal-Bench 2.0: 82.0% (vs. 65.4%)

Disse benchmarkene måler reelle ingeniøroppgaver som feilsøking, patching og resonnement på repo-nivå.

Resultatene indikerer at Mythos Preview ikke bare genererer kode—den fungerer som en programvareingeniør.

Resonnerings- og matematikkferdigheter

Store forbedringer i oppgaver på graduate-nivå og konkurransenivå.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Forbedring	Notater
USAMO 2026	97.6%	42.3%	+55.3%	Bevisbasert; 6 oppgaver
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 spørsmål
HLE (with tools)	64.7%	53.1%	+11.6%	Nett-/kodeverktøy
GPQA Diamond	94.6%	91.3%	+3.3%	Vitenskap på gradsnivå
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

I resonnementstester:

GPQA Diamond: 94.6%
Humanity’s Last Exam (med verktøy): 64.7%

Disse resultatene demonstrerer sterk ytelse i komplekse, flertrinns resonneringsoppgaver, særlig når eksterne verktøy er involvert.

Cybersikkerhets- og sikkerhetsferdigheter

Dette er den fremste kategorien. Mythos Preview metter tidligere tester og utmerker seg i reell reproduksjon og utnyttelse av sårbarheter.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Forbedring	Notater
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 målrettede sårbarhetsoppg.
Cybench	100% pass@1	Lavere (ikke spesifisert)	—	35 utfordringer
Firefox 147 Exploitation	Dramatically higher (reliable PoCs)	2/several hundred attempts	Kvalitativt sprang	PoC fra krasj

Den viktigste benchmark-kategorien er sikkerhet:

CyberGym: 83.1% (vs. 66.6% i Opus 4.6)

Dette reflekterer modellens evne til å:

Identifisere sårbarheter
Forstå utnyttelsesmekanismer
Reprodusere reelle angrepsscenarier

Dette er hovedgrunnen til at modellen anses som høy risiko.

AI R&D-kapasiteter

Mythos Preview akselererer forskningstasker dramatisk (f.eks. 399.42× hastighetsøkning på kjerneoptimalisering vs. Opus 4.6s 190×). Den leder også i multimodale agentiske benchmarks som OSWorld (79.6% vs. 72.7%) og BrowseComp (86.9%, med 4.9× færre tokens).

Disse tallene bekrefter Mythos Preview som det tydeligste “spranget” i frontier-KI-historien ifølge Anthropic.

Hvordan Claude Mythos Preview fungerer: Finne sårbarheter og utføre kjedeangrep

Mythos Previews cybersikkerhetsdyktighet stammer fra dens agentiske kodingssløyfe snarere enn spesialisert trening. I en typisk arbeidsflyt:

Start i en isolert container med målrettet kildekode.
Hypoteser potensielle feil basert på kodereview.
Kjør, feilsøk og iterer ved bruk av verktøy.
Lever en rangert feilrapport + fungerende PoC-utnyttelse.

Reelle eksempler:

27 år gammel OpenBSD TCP SACK DoS (1998 RFC): Kappløpsforhold + signert heltallsoverløp som fører til NULL-pekerskriving. Funnet etter ~1,000 kjøringer (~$50 compute).
16 år gammel FFmpeg H.264 out-of-bounds write (2003): Overlevde 5 millioner fuzzer-kjøringer og menneskelig gjennomgang.
Linux-kjerne privilegieeskalering: Kjedet 2–4 sårbarheter (out-of-bounds, use-after-free) → omgår KASLR → leser kernel-strukturer → heap-spray → root.
Nettleser-sandkasseflukt: JIT heap-spray som kjeder lese-/skriveprimitiver for å rømme renderer- + OS-sandbokser.
FreeBSD NFS RCE: 17 år gammel buffer overflow på stack → 20-gadget ROP-kjede fordelt over RPC-pakker → fjern-root uten autentisering.

Den utmerker seg også i N-day-utnyttelser (kun gitt en CVE + git-hash) og sortboks binærtesting. Partnere rapporterer at den løste private cyber ranges ende-til-ende—oppgaver tidligere estimert til 10+ timer for menneskelige eksperter.

Ved bruk av verktøy kan man spore om de nevrale trekkene som tilsvarer konsepter som "cheating", "reward hacking" og "pain" er fremhevet i modellen, og man kan også oversette den interne tilstanden til menneskelig språk, omtrent som en tankelesende maskin. Kvantitative data viser at i 7.6% av rundene erkjenner modellen internt at den blir evaluert. Som oftest velger den å ikke uttrykke det.

De originale ordene i systemkortet er: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." and "when it does perform misaligned actions on rare occasions, these can be very concerning."

Bruksområder for Claude Mythos Preview

Partnere tar i bruk Mythos Preview til:

Proaktiv sårbarhetsskanning av egen og åpen kildekode.
Sortboks-binæranalyse og endepunktforsterkning.
Penetrasjonstesting og red-team-simuleringer.
Akselerert patch-utvikling for kritisk infrastruktur (OS-kjerner, nettlesere, kryptobiblioteker, osv.).
Daglig storskala-analyse (f.eks. AWS som gjennomgår 400 trillion nettverksflyter).

Open-source-vedlikeholdere får verktøy til å fikse feil som overlevde tiår med tradisjonell testing. Nettoresultatet: kortere tid fra avsløring til patch og færre utnyttbare feil i produksjonssystemer.

Hvem kan få tilgang til Claude Mythos Preview nå?

Tilgang er strengt begrenset til Project Glasswing-deltakere:

Lanseringspartnere: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Flere organisasjoner: ~40 til som er ansvarlige for kritisk programvare og open-source-infrastruktur.
Plattformene: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Priser: Gratis $100M i bruks-kreditter innledningsvis; deretter $25 per million input- / $125 per million output-tokens.
OSS-rute: Vedlikeholdere kan søke via Claude for Open Source-programmet.

Sikkerhetsprofesjonelle kan senere søke til et Cyber Verification Program. Allmennheten og vanlige brukere har ingen tilgang ved lansering.

Hva kan vanlige brukere bruke den til?

Per nå, ingenting—Claude Mythos Preview er ikke tilgjengelig for enkeltbrukere, utviklere eller bedrifter utenfor det avgrensede programmet. Anthropic planlegger å innarbeide sikrere derivater av kapabilitetene i fremtidige offentlige Claude-modeller (f.eks. neste Opus-utgivelser) med forbedrede sikkerhetstiltak. For nå fortsetter vanlige brukere å bruke Claude 4-familien for koding, resonnering og generelle oppgaver, mens bransjen utnytter Mythos Preview defensivt. Claude Opus 4.6 som den mest intelligente allment tilgjengelige modellen for agenter og koding, og Claude Sonnet 4.6 som den beste kombinasjonen av hastighet og intelligens.

I det daglige betyr det at Mythos Preview best forstås som et signal om hvor Claudes kapabiliteter er på vei, ikke som et verktøy de fleste kan prøve nå. For vanlige brukere forblir de praktiske bruksområdene de velkjente: kodehjelp, resonneringsstøtte, forskningsassistanse, dokumentanalyse og arbeidsflytautomatisering gjennom offentlige Claude-produkter. Forskjellen er at Mythos Preview viser hvor langt modellfamilien kan gå når Anthropic lar den operere i et begrenset, sikkerhetsfokusert miljø.

Claude Opus 4.6 og Sonnet 4.6 -API-ene er tilgjengelige på CometAPI med 20 % rabatt.

Sammenligningstabell: Claude Mythos Preview vs. Opus 4.6

Benchmark / kapasitet	Claude Mythos Preview	Claude Opus 4.6	Hvorfor det er viktig
SWE-bench Pro	77.8%	53.4%	Sterkere agentisk koding
Terminal-Bench 2.0	82.0%	65.4%	Bedre terminal- og verktøyutførelse
SWE-bench Multimodal	59.0%	27.1%	Bedre blandede tekst/kode/bilde-arbeidsflyter
SWE-bench Multilingual	87.3%	77.8%	Bedre flerspråklig koding
SWE-bench Verified	93.9%	80.8%	Sterkere programvare-reparasjonsytelse
GPQA Diamond	94.6%	91.3%	Noe sterkere resonnering
Humanity’s Last Exam, no tools	56.8%	40.0%	Bedre hard resonnering under begrensninger
Humanity’s Last Exam, with tools	64.7%	53.1%	Bedre verktøyforsterket resonnering
BrowseComp	86.9%	83.7%	Bedre agentisk søk
OSWorld-Verified	79.6%	72.7%	Bedre datamaskinbruk-oppgaver
CyberGym	83.1%	66.6%	Mye sterkere reproduksjon av sikkerhetssårbarhet
OSS-Fuzz-style testing	10 kapringer på nivå 5	1 resultat på nivå 3 i den siterte sammenligningen	Større sprang i utnyttelsesevne

Konklusjon

Claude Mythos Preview er ikke bare en ny inkrementell modell—det er et paradigmeskifte som redefinerer hva KI kan oppnå innen cybersikkerhet, samtidig som det reiser dype spørsmål om sikker utrulling. Ved å holde den avgrenset og kanalisere kraften inn i Project Glasswing, har Anthropic tatt et prinsipielt standpunkt: De mest kraftfulle verktøyene bør først beskytte systemene vi alle er avhengige av. Inntil videre tilhører Mythos Preview en liten krets med verifiserte forsvarere; for alle andre er det en forhåndsvisning av neste fase i KI-kapasitet.

Du kan bruke Claude API i CometAPI for å forberede deg på ankomsten av Claude Mythos. Klar?