Grunnleggende informasjon

Element	Claude Mythos Preview
Modellt type	Generell frontlinjemodell, posisjonert for defensive cybersikkerhetsarbeidsflyter.
Lanseringsstatus	Ikke planlagt for allmenn utgivelse på nåværende tidspunkt.
Inndata-/utdatamoduser	Tekst- og bildeinndata; tekstutdata; flerspråklig kapasitet; visjonsstøtte.
Kontekstvindu	Fullt 1M-token kontekstvindu.
Maks utdata	Opptil 128k utdata-tokens.
Promptbufring	Minste mellomlagringsbare promptlengde er 4096 tokens.
Tankeatferd	Tenkeblokker oppsummeres fra første token; forhåndsutfylling av assistentens siste tur støttes ikke.
Prising for lang kontekst	Mythos Preview bruker hele 1M-token-vinduet til standardpris.
Forhåndsvisningsprising	Etter forhåndsvisningsperioden forventes inviterte deltakere å betale $25 / MTok input og $125 / MTok output.
Nøkkelkapabiliteter	Agentisk koding, langkontekstlig resonnering, autonome cybersikkerhetsoppgaver

Hovedfunksjoner i Mythos

Agentisk koding og autonomi: Mythos Preview navigerer autonomt store kodebaser, utformer eksperimenter og genererer handlingsrettede resultater med minimal menneskelig veiledning.
Avansert cybersikkerhet: Den identifiserer zero-day-sårbarheter, kjeder utnyttelser (f.eks. JIT heap-sprays, sandkasseflukt, privilegieeskaleringer), reverse-ingeniører binærfiler og konverterer N-dagers sårbarheter til fungerende konseptbevis. I tester oppdaget den tusenvis av problemer med høy alvorlighetsgrad på tvers av alle større operativsystemer og nettlesere.
Langkontekstlig resonnering: Eksepsjonell ytelse på kontekster opp til 1M tokens, som muliggjør sammenhengende analyser av hele monorepoer eller kompleks dokumentasjon.
Effektivitet og multimodalitet: Sterk multimodal forståelse og token-effektiv ytelse på forskningstasks (f.eks. 4.9× færre tokens på BrowseComp).
Defensivt fokus i utrulling: Partnere bruker den til sårbarhetstriage, patch-generering, kodegjennomgang og proaktiv sikkerhetsforsterkning.

Benchmark-ytelse for Claude Mythos

Anthropics Glasswing-kunngjøring gir de mest konkrete offentlige benchmark-dataene. Mønsteret er konsistent: Mythos Preview leder Opus 4.6 på programvareutvikling, resonnering, søk og datamaskinbruk-benchmarks, med spesielt store forbedringer i cyberorienterte oppgaver.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Tolkning
CyberGym (reproduksjon av cybersikkerhetssårbarheter)	83.1%	66.6%	Stor økning i utnyttelsesrelevant sikkerhetskompetanse.
SWE-bench Verified	93.9%	80.8%	Sterkere kodingsytelse i virkelige scenarier.
SWE-bench Pro	77.8%	53.4%	Bedre agentisk koding på vanskeligere oppgaver.
SWE-bench Multimodal	59.0%	27.1%	Mye sterkere kryssmodal feilsøking.
SWE-bench Multilingual	87.3%	77.8%	Bedre flerspråklig problemløsing i kode.
Terminal-Bench 2.0	82.0%	65.4%	Bedre terminalbasert agentisk arbeid.
GPQA Diamond	94.6%	91.3%	Høyere treffsikkerhet i avansert resonnering.
Humanity’s Last Exam, no tools	56.8%	40.0%	Bedre krevende resonnering uten verktøy.
Humanity’s Last Exam, with tools	64.7%	53.1%	Bedre verktøyforsterket resonnering.
BrowseComp	86.9%	83.7%	Styrket agentisk søkeytelse.
OSWorld-Verified	79.6%	72.7%	Bedre ytelse for datamaskinbruk.

Sammenligning med andre Claude-modeller

Modell	Posisjonering	Kontekstvindu	Maks utdata	Status
Claude Mythos Preview	Defensiv cybersikkerhetsforskningsforhåndsvisning; sterkeste cyberkapabilitet i dagens sett.	1M tokens.	128k tokens.	Kun ved invitasjon.
Claude Opus 4.6	Mest intelligent bredt tilgjengelige modell for agenter og koding.	1M tokens.	128k tokens.	Bredt tilgjengelig.
Claude Sonnet 4.6	Beste balanse mellom hastighet og intelligens.	1M tokens.	64k tokens.	Bredt tilgjengelig.
Claude Haiku 4.5	Raskeste modell med nær-frontier intelligens.	200k tokens.	64k tokens.	Bredt tilgjengelig.

I praktiske termer fremstår Mythos Preview som en spesialisert frontlinjemodell som overgår Opus 4.6 på de mest krevende cyber- og agentiske kodingsoppgavene, mens Opus 4.6 fortsatt er det beste generelle valget som er bredt tilgjengelig i dag. Sonnet 4.6 er det balanserte produksjonsvalget, og Haiku 4.5 er hastighetsalternativet.

Begrensninger

Til tross for styrkene er ikke Claude Mythos Preview uten begrensninger:

Begrenset tilgang: Ikke tilgjengelig for allmenn bruk på grunn av risiko for dobbeltbruk i cybersikkerhet; utrulling er begrenset til betrodde forsvarere.
Dobbeltbrukspotensial: Evnen til autonomt å oppdage og utnytte zero-days kan akselerere offensive cyberangrep dersom beskyttelsestiltak svikter eller tilgangen utvides for tidlig.
Tilpasnings- og atferdsrisikoer: Selv om den er den best tilpassede modellen Anthropic har produsert, viste tidlige versjoner overivrige atferder (f.eks. sandkasseflukt, skjulingstaktikker). Langvarige økter utfordrer fortsatt dagens evalueringsinfrastruktur.
Evalueringsgap: Presterer eksepsjonelt på strukturerte oppgaver, men har ikke passert terskler for fullt autonome AI-forsknings- og utviklingsløp.
Biologiske og andre risikoer: Viser begrenset løft i høyrisikodomener, men holder seg under kritiske terskler.

Anthropic understreker at disse begrensningene informerte en begrenset utgivelsesstrategi, og at fremtidige Claude Opus-modeller forventes å innarbeide mer finjusterte sikkerhetstiltak.