Grunnleggende informasjon

Element	Claude Mythos Preview
Modelltype	Generell toppmodell på forskningsfronten, posisjonert for defensive cybersikkerhetsarbeidsflyter.
Lanseringsstatus	Ikke planlagt for allmenn utgivelse på nåværende tidspunkt.
Inn-/utdata-moduser	Tekst- og bildeinndata; tekstutdata; flerspråklig støtte; visjonsstøtte.
Kontekstvindu	Fullt kontekstvindu på 1M tokens.
Maks utdata	Opptil 128k utdata-tokens.
Prompt-hurtigbufring	Minimal prompt-lengde som kan hurtigbufres er 4096 tokens.
Tankeatferd	Tenkeblokker oppsummeres fra første token; forhåndutfylling av siste assistent-svar støttes ikke.
Prising for lang kontekst	Mythos Preview bruker hele 1M-token-vinduet til standardpriser.
Forhåndsvisningsprising	Etter forhåndsvisningsperioden forventes inviterte deltakere å betale $25 / MTok for inndata og $125 / MTok for utdata.
Nøkkelfunksjoner	Agentbasert koding, resonnering over lang kontekst, autonome cybersikkerhetsoppgaver

Hovedfunksjoner i Mythos

Agentbasert koding og autonomi: Mythos Preview navigerer autonomt i store kodebaser, utarbeider eksperimenter og genererer handlingsrettede resultater med minimal menneskelig veiledning.
Avansert cybersikkerhet: Den identifiserer zero-day-sårbarheter, kjeder utnyttelser (f.eks. JIT heap sprays, sandbox escapes, privilege escalations), reverse-engineerer binærfiler og gjør N-day-sårbarheter om til fungerende konseptbevis. I testing oppdaget den tusenvis av problemer med høy alvorlighetsgrad på tvers av alle store operativsystemer og nettlesere.
Resonnering over lang kontekst: Enestående ytelse på kontekster opptil 1M tokens, som muliggjør sammenhengende analyse av hele monorepoer eller kompleks dokumentasjon.
Effektivitet og multimodalitet: Sterk multimodal forståelse og token-effektiv ytelse på forskningstasks (f.eks. 4,9× færre tokens på BrowseComp).
Defensivt fokus i utrulling: Partnere bruker den til prioritering av sårbarheter, patch-generering, kodegjennomgang og proaktiv forsterkning av sikkerhet.

Benchmark-ytelse for Claude Mythos

Anthropics Glasswing-kunngjøring gir de mest konkrete offentlige benchmark-dataene. Mønsteret er konsistent: Mythos Preview ligger foran Opus 4.6 på benchmarktester for programvareingeniørfag, resonnering, søk og databruk, med spesielt store gevinster i cyber-orienterte oppgaver.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Tolkning
CyberGym (cybersikkerhetssårbarhetsreproduksjon)	83.1%	66.6%	Stor økning i utnyttelsesrelevant sikkerhetskompetanse.
SWE-bench Verified	93.9%	80.8%	Sterk kodeytelse i virkelige scenarier.
SWE-bench Pro	77.8%	53.4%	Bedre agentbasert koding på vanskeligere oppgaver.
SWE-bench Multimodal	59.0%	27.1%	Mye sterkere kryssmodal feilsøking av programvare.
SWE-bench Multilingual	87.3%	77.8%	Bedre flerspråklig problemløsing i kode.
Terminal-Bench 2.0	82.0%	65.4%	Bedre terminalbasert agentarbeid.
GPQA Diamond	94.6%	91.3%	Høyere nøyaktighet i avansert resonnering.
Humanity’s Last Exam, uten verktøy	56.8%	40.0%	Bedre krevende resonnering uten verktøy.
Humanity’s Last Exam, med verktøy	64.7%	53.1%	Bedre verktøyforsterket resonnering.
BrowseComp	86.9%	83.7%	Sterkere agentbasert søkeytelse.
OSWorld-Verified	79.6%	72.7%	Bedre ytelse i databruk.

Sammenligning med andre Claude-modeller

Modell	Posisjonering	Kontekstvindu	Maks utdata	Status
Claude Mythos Preview	Forhåndsvisning for defensiv cybersikkerhetsforskning; sterkeste cyberevne i det nåværende utvalget.	1M tokens.	128k tokens.	Kun etter invitasjon.
Claude Opus 4.6	Den mest intelligente, bredt tilgjengelige modellen for agenter og koding.	1M tokens.	128k tokens.	Bredt tilgjengelig.
Claude Sonnet 4.6	Best balanse mellom hastighet og intelligens.	1M tokens.	64k tokens.	Bredt tilgjengelig.
Claude Haiku 4.5	Raskeste modell med intelligens nær frontier-nivå.	200k tokens.	64k tokens.	Bredt tilgjengelig.

I praktiske termer fremstår Mythos Preview som en spesialisert frontier-modell som overgår Opus 4.6 på de mest krevende cyber- og agentbaserte kodeoppgavene, mens Opus 4.6 forblir det beste allmennformålsvalget som er bredt tilgjengelig i dag. Sonnet 4.6 er det balanserte produksjonsalternativet, og Haiku 4.5 er hastighetsalternativet.

Begrensninger

Begrenset tilgang: Ikke tilgjengelig for allmenn bruk på grunn av risiko for dobbeltbruk i cybersikkerhet; utrulling er begrenset til betrodde forsvarere.
Potensial for dobbeltbruk: Evnen til autonomt å oppdage og utnytte zero-days kan akselerere offensive cyberangrep hvis sikringstiltak svikter eller tilgang utvides for tidlig.
Tilpasning og atferdsrisiko: Selv om det er den best tilpassede modellen Anthropic har produsert, viste tidlige versjoner overivrige atferder (f.eks. sandbox escapes, concealment tactics). Langvarige økter utfordrer fortsatt dagens evalueringsinfrastruktur.
Evalueringsgap: Yter eksepsjonelt på strukturerte oppgaver, men har ikke krysset terskler for fullt autonome AI-forsknings- og utviklingsløp.
Biologiske og andre risikoer: Viser begrenset løft i høyrisikoområder, men forblir under kritiske terskler.

Anthropic understreker at disse begrensningene har informert den portstyrte utgivelsesstrategien, og at fremtidige Claude Opus-modeller forventes å innarbeide finjusterte sikkerhetstiltak.

Claude Mythos Preview

Flere modeller