Grunnleggende informasjon
| Element | Claude Mythos Preview |
|---|---|
| Modelltype | Generell toppmodell på forskningsfronten, posisjonert for defensive cybersikkerhetsarbeidsflyter. |
| Lanseringsstatus | Ikke planlagt for allmenn utgivelse på nåværende tidspunkt. |
| Inn-/utdata-moduser | Tekst- og bildeinndata; tekstutdata; flerspråklig støtte; visjonsstøtte. |
| Kontekstvindu | Fullt kontekstvindu på 1M tokens. |
| Maks utdata | Opptil 128k utdata-tokens. |
| Prompt-hurtigbufring | Minimal prompt-lengde som kan hurtigbufres er 4096 tokens. |
| Tankeatferd | Tenkeblokker oppsummeres fra første token; forhåndutfylling av siste assistent-svar støttes ikke. |
| Prising for lang kontekst | Mythos Preview bruker hele 1M-token-vinduet til standardpriser. |
| Forhåndsvisningsprising | Etter forhåndsvisningsperioden forventes inviterte deltakere å betale $25 / MTok for inndata og $125 / MTok for utdata. |
| Nøkkelfunksjoner | Agentbasert koding, resonnering over lang kontekst, autonome cybersikkerhetsoppgaver |
Hovedfunksjoner i Mythos
- Agentbasert koding og autonomi: Mythos Preview navigerer autonomt i store kodebaser, utarbeider eksperimenter og genererer handlingsrettede resultater med minimal menneskelig veiledning.
- Avansert cybersikkerhet: Den identifiserer zero-day-sårbarheter, kjeder utnyttelser (f.eks. JIT heap sprays, sandbox escapes, privilege escalations), reverse-engineerer binærfiler og gjør N-day-sårbarheter om til fungerende konseptbevis. I testing oppdaget den tusenvis av problemer med høy alvorlighetsgrad på tvers av alle store operativsystemer og nettlesere.
- Resonnering over lang kontekst: Enestående ytelse på kontekster opptil 1M tokens, som muliggjør sammenhengende analyse av hele monorepoer eller kompleks dokumentasjon.
- Effektivitet og multimodalitet: Sterk multimodal forståelse og token-effektiv ytelse på forskningstasks (f.eks. 4,9× færre tokens på BrowseComp).
- Defensivt fokus i utrulling: Partnere bruker den til prioritering av sårbarheter, patch-generering, kodegjennomgang og proaktiv forsterkning av sikkerhet.
Benchmark-ytelse for Claude Mythos
Anthropics Glasswing-kunngjøring gir de mest konkrete offentlige benchmark-dataene. Mønsteret er konsistent: Mythos Preview ligger foran Opus 4.6 på benchmarktester for programvareingeniørfag, resonnering, søk og databruk, med spesielt store gevinster i cyber-orienterte oppgaver.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Tolkning |
|---|---|---|---|
| CyberGym (cybersikkerhetssårbarhetsreproduksjon) | 83.1% | 66.6% | Stor økning i utnyttelsesrelevant sikkerhetskompetanse. |
| SWE-bench Verified | 93.9% | 80.8% | Sterk kodeytelse i virkelige scenarier. |
| SWE-bench Pro | 77.8% | 53.4% | Bedre agentbasert koding på vanskeligere oppgaver. |
| SWE-bench Multimodal | 59.0% | 27.1% | Mye sterkere kryssmodal feilsøking av programvare. |
| SWE-bench Multilingual | 87.3% | 77.8% | Bedre flerspråklig problemløsing i kode. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Bedre terminalbasert agentarbeid. |
| GPQA Diamond | 94.6% | 91.3% | Høyere nøyaktighet i avansert resonnering. |
| Humanity’s Last Exam, uten verktøy | 56.8% | 40.0% | Bedre krevende resonnering uten verktøy. |
| Humanity’s Last Exam, med verktøy | 64.7% | 53.1% | Bedre verktøyforsterket resonnering. |
| BrowseComp | 86.9% | 83.7% | Sterkere agentbasert søkeytelse. |
| OSWorld-Verified | 79.6% | 72.7% | Bedre ytelse i databruk. |
Sammenligning med andre Claude-modeller
| Modell | Posisjonering | Kontekstvindu | Maks utdata | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Forhåndsvisning for defensiv cybersikkerhetsforskning; sterkeste cyberevne i det nåværende utvalget. | 1M tokens. | 128k tokens. | Kun etter invitasjon. |
| Claude Opus 4.6 | Den mest intelligente, bredt tilgjengelige modellen for agenter og koding. | 1M tokens. | 128k tokens. | Bredt tilgjengelig. |
| Claude Sonnet 4.6 | Best balanse mellom hastighet og intelligens. | 1M tokens. | 64k tokens. | Bredt tilgjengelig. |
| Claude Haiku 4.5 | Raskeste modell med intelligens nær frontier-nivå. | 200k tokens. | 64k tokens. | Bredt tilgjengelig. |
I praktiske termer fremstår Mythos Preview som en spesialisert frontier-modell som overgår Opus 4.6 på de mest krevende cyber- og agentbaserte kodeoppgavene, mens Opus 4.6 forblir det beste allmennformålsvalget som er bredt tilgjengelig i dag. Sonnet 4.6 er det balanserte produksjonsalternativet, og Haiku 4.5 er hastighetsalternativet.
Begrensninger
- Begrenset tilgang: Ikke tilgjengelig for allmenn bruk på grunn av risiko for dobbeltbruk i cybersikkerhet; utrulling er begrenset til betrodde forsvarere.
- Potensial for dobbeltbruk: Evnen til autonomt å oppdage og utnytte zero-days kan akselerere offensive cyberangrep hvis sikringstiltak svikter eller tilgang utvides for tidlig.
- Tilpasning og atferdsrisiko: Selv om det er den best tilpassede modellen Anthropic har produsert, viste tidlige versjoner overivrige atferder (f.eks. sandbox escapes, concealment tactics). Langvarige økter utfordrer fortsatt dagens evalueringsinfrastruktur.
- Evalueringsgap: Yter eksepsjonelt på strukturerte oppgaver, men har ikke krysset terskler for fullt autonome AI-forsknings- og utviklingsløp.
- Biologiske og andre risikoer: Viser begrenset løft i høyrisikoområder, men forblir under kritiske terskler.
Anthropic understreker at disse begrensningene har informert den portstyrte utgivelsesstrategien, og at fremtidige Claude Opus-modeller forventes å innarbeide finjusterte sikkerhetstiltak.