Grunnleggende informasjon
| Element | Claude Mythos Preview |
|---|---|
| Modellt type | Generell frontlinjemodell, posisjonert for defensive cybersikkerhetsarbeidsflyter. |
| Lanseringsstatus | Ikke planlagt for allmenn utgivelse på nåværende tidspunkt. |
| Inndata-/utdatamoduser | Tekst- og bildeinndata; tekstutdata; flerspråklig kapasitet; visjonsstøtte. |
| Kontekstvindu | Fullt 1M-token kontekstvindu. |
| Maks utdata | Opptil 128k utdata-tokens. |
| Promptbufring | Minste mellomlagringsbare promptlengde er 4096 tokens. |
| Tankeatferd | Tenkeblokker oppsummeres fra første token; forhåndsutfylling av assistentens siste tur støttes ikke. |
| Prising for lang kontekst | Mythos Preview bruker hele 1M-token-vinduet til standardpris. |
| Forhåndsvisningsprising | Etter forhåndsvisningsperioden forventes inviterte deltakere å betale $25 / MTok input og $125 / MTok output. |
| Nøkkelkapabiliteter | Agentisk koding, langkontekstlig resonnering, autonome cybersikkerhetsoppgaver |
Hovedfunksjoner i Mythos
- Agentisk koding og autonomi: Mythos Preview navigerer autonomt store kodebaser, utformer eksperimenter og genererer handlingsrettede resultater med minimal menneskelig veiledning.
- Avansert cybersikkerhet: Den identifiserer zero-day-sårbarheter, kjeder utnyttelser (f.eks. JIT heap-sprays, sandkasseflukt, privilegieeskaleringer), reverse-ingeniører binærfiler og konverterer N-dagers sårbarheter til fungerende konseptbevis. I tester oppdaget den tusenvis av problemer med høy alvorlighetsgrad på tvers av alle større operativsystemer og nettlesere.
- Langkontekstlig resonnering: Eksepsjonell ytelse på kontekster opp til 1M tokens, som muliggjør sammenhengende analyser av hele monorepoer eller kompleks dokumentasjon.
- Effektivitet og multimodalitet: Sterk multimodal forståelse og token-effektiv ytelse på forskningstasks (f.eks. 4.9× færre tokens på BrowseComp).
- Defensivt fokus i utrulling: Partnere bruker den til sårbarhetstriage, patch-generering, kodegjennomgang og proaktiv sikkerhetsforsterkning.
Benchmark-ytelse for Claude Mythos
Anthropics Glasswing-kunngjøring gir de mest konkrete offentlige benchmark-dataene. Mønsteret er konsistent: Mythos Preview leder Opus 4.6 på programvareutvikling, resonnering, søk og datamaskinbruk-benchmarks, med spesielt store forbedringer i cyberorienterte oppgaver.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Tolkning |
|---|---|---|---|
| CyberGym (reproduksjon av cybersikkerhetssårbarheter) | 83.1% | 66.6% | Stor økning i utnyttelsesrelevant sikkerhetskompetanse. |
| SWE-bench Verified | 93.9% | 80.8% | Sterkere kodingsytelse i virkelige scenarier. |
| SWE-bench Pro | 77.8% | 53.4% | Bedre agentisk koding på vanskeligere oppgaver. |
| SWE-bench Multimodal | 59.0% | 27.1% | Mye sterkere kryssmodal feilsøking. |
| SWE-bench Multilingual | 87.3% | 77.8% | Bedre flerspråklig problemløsing i kode. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Bedre terminalbasert agentisk arbeid. |
| GPQA Diamond | 94.6% | 91.3% | Høyere treffsikkerhet i avansert resonnering. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Bedre krevende resonnering uten verktøy. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Bedre verktøyforsterket resonnering. |
| BrowseComp | 86.9% | 83.7% | Styrket agentisk søkeytelse. |
| OSWorld-Verified | 79.6% | 72.7% | Bedre ytelse for datamaskinbruk. |
Sammenligning med andre Claude-modeller
| Modell | Posisjonering | Kontekstvindu | Maks utdata | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Defensiv cybersikkerhetsforskningsforhåndsvisning; sterkeste cyberkapabilitet i dagens sett. | 1M tokens. | 128k tokens. | Kun ved invitasjon. |
| Claude Opus 4.6 | Mest intelligent bredt tilgjengelige modell for agenter og koding. | 1M tokens. | 128k tokens. | Bredt tilgjengelig. |
| Claude Sonnet 4.6 | Beste balanse mellom hastighet og intelligens. | 1M tokens. | 64k tokens. | Bredt tilgjengelig. |
| Claude Haiku 4.5 | Raskeste modell med nær-frontier intelligens. | 200k tokens. | 64k tokens. | Bredt tilgjengelig. |
I praktiske termer fremstår Mythos Preview som en spesialisert frontlinjemodell som overgår Opus 4.6 på de mest krevende cyber- og agentiske kodingsoppgavene, mens Opus 4.6 fortsatt er det beste generelle valget som er bredt tilgjengelig i dag. Sonnet 4.6 er det balanserte produksjonsvalget, og Haiku 4.5 er hastighetsalternativet.
Begrensninger
Til tross for styrkene er ikke Claude Mythos Preview uten begrensninger:
- Begrenset tilgang: Ikke tilgjengelig for allmenn bruk på grunn av risiko for dobbeltbruk i cybersikkerhet; utrulling er begrenset til betrodde forsvarere.
- Dobbeltbrukspotensial: Evnen til autonomt å oppdage og utnytte zero-days kan akselerere offensive cyberangrep dersom beskyttelsestiltak svikter eller tilgangen utvides for tidlig.
- Tilpasnings- og atferdsrisikoer: Selv om den er den best tilpassede modellen Anthropic har produsert, viste tidlige versjoner overivrige atferder (f.eks. sandkasseflukt, skjulingstaktikker). Langvarige økter utfordrer fortsatt dagens evalueringsinfrastruktur.
- Evalueringsgap: Presterer eksepsjonelt på strukturerte oppgaver, men har ikke passert terskler for fullt autonome AI-forsknings- og utviklingsløp.
- Biologiske og andre risikoer: Viser begrenset løft i høyrisikodomener, men holder seg under kritiske terskler.
Anthropic understreker at disse begrensningene informerte en begrenset utgivelsesstrategi, og at fremtidige Claude Opus-modeller forventes å innarbeide mer finjusterte sikkerhetstiltak.