Grundlæggende oplysninger
| Punkt | Claude Mythos Preview |
|---|---|
| Modeltype | Generel frontlinjemodel til generelle formål, positioneret til defensive cybersikkerheds-arbejdsgange. |
| Udgivelsesstatus | Ikke planlagt til offentlig udgivelse på nuværende tidspunkt. |
| Input-/output-tilstande | Tekst- og billedinput; tekstoutput; flersproget kapabilitet; visionsunderstøttelse. |
| Kontekstvindue | Fuldt 1M-token kontekstvindue. |
| Maks. output | Op til 128k output-tokens. |
| Prompt-caching | Mindste cachebare promptlængde er 4096 tokens. |
| Tænkeadfærd | Tænkningsblokke sammenfattes fra første token; forudfyldning af sidste assistentsvar understøttes ikke. |
| Prissætning for lang kontekst | Mythos Preview bruger hele 1M-token-vinduet til standardpris. |
| Preview-prissætning | Efter prøveperioden forventes inviterede deltagere at betale $25 / MTok input og $125 / MTok output. |
| Nøglefunktioner | Agentbaseret kodning, langkontekst-ræsonnement, autonome cybersikkerhedsopgaver |
Mythos' hovedfunktioner
- Agentbaseret kodning og autonomi: Mythos Preview navigerer autonomt i store kodebaser, udtænker eksperimenter og genererer handlingsrettede resultater med minimal menneskelig vejledning.
- Avanceret cybersikkerhed: Identificerer zero-day-sårbarheder, kæder exploits (f.eks. JIT heap sprays, sandbox-udbrud, privilegieeskalationer), reverse-engineerer binære filer og konverterer N-day-sårbarheder til fungerende proof-of-concepts. I test opdagede den tusindvis af højalvorlige problemer på alle større operativsystemer og webbrowsere.
- Langkontekst-ræsonnement: Enestående ydeevne på kontekster op til 1M tokens, hvilket muliggør sammenhængende analyse af hele monorepos eller kompleks dokumentation.
- Effektivitet og multimodalitet: Stærk multimodal forståelse og tokeneffektiv ydeevne på forskningstasks (f.eks. 4,9× færre tokens på BrowseComp).
- Defensivt fokus i udrulning: Partnere bruger den til sårbarhedsprioritering, patchgenerering, kodegennemgang og proaktiv sikkerhedshærdning.
Benchmark-ydelse for Claude Mythos
Anthropics Glasswing-meddelelse giver de mest konkrete offentlige benchmarkdata. Mønstret er konsistent: Mythos Preview ligger foran Opus 4.6 på softwareudvikling, ræsonnement, søgning og computerbrugs-benchmarks, med særligt store spring på cyber-orienterede opgaver.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Fortolkning |
|---|---|---|---|
| CyberGym (cybersecurity vulnerability reproduction) | 83.1% | 66.6% | Stort spring i exploit-relevant sikkerhedskompetence. |
| SWE-bench Verified | 93.9% | 80.8% | Stærkere kodningspræstation i praksis. |
| SWE-bench Pro | 77.8% | 53.4% | Bedre agentbaseret kodning på sværere opgaver. |
| SWE-bench Multimodal | 59.0% | 27.1% | Meget stærkere tværmodal softwarefejlsøgning. |
| SWE-bench Multilingual | 87.3% | 77.8% | Bedre flersproget kodeløsning. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Bedre terminalbaseret agentarbejde. |
| GPQA Diamond | 94.6% | 91.3% | Højere nøjagtighed i avanceret ræsonnement. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Bedre krævende ræsonnement uden værktøjer. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Bedre værktøjsunderstøttet ræsonnement. |
| BrowseComp | 86.9% | 83.7% | Stærkere agentbaseret søgepræstation. |
| OSWorld-Verified | 79.6% | 72.7% | Bedre computerbrugspræstation. |
Sammenligning med andre Claude-modeller
| Model | Positionering | Kontekstvindue | Maks. output | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Defensiv cybersikkerhedsforsknings-forhåndsvisning; stærkeste cyberkapabilitet i det nuværende sæt. | 1M tokens. | 128k tokens. | Kun efter invitation. |
| Claude Opus 4.6 | Den mest intelligente bredt tilgængelige model til agenter og kodning. | 1M tokens. | 128k tokens. | Bredt tilgængelig. |
| Claude Sonnet 4.6 | Bedste balance mellem hastighed og intelligens. | 1M tokens. | 64k tokens. | Bredt tilgængelig. |
| Claude Haiku 4.5 | Hurtigste model med nær-frontier-intelligens. | 200k tokens. | 64k tokens. | Bredt tilgængelig. |
I praktiske termer fremstår Mythos Preview som en specialiseret frontlinjemodel, der overgår Opus 4.6 på de mest krævende cyber- og agentbaserede kodningsopgaver, mens Opus 4.6 fortsat er det bedste bredt tilgængelige, generelle valg i dag. Sonnet 4.6 er det afbalancerede produktionsvalg, og Haiku 4.5 er hastighedsførst-valget.
Begrænsninger
På trods af styrkerne er Claude Mythos Preview ikke uden begrænsninger:
- Begrænset adgang: Ikke tilgængelig til almindelig brug på grund af dobbeltanvendelses-cybersikkerhedsrisici; udrulning er begrænset til betroede forsvarere.
- Dobbeltanvendelsespotentiale: Dens evne til autonomt at opdage og udnytte zero-days kan accelerere offensive cyberangreb, hvis sikkerhedsforanstaltninger svigter, eller adgangen udvides for tidligt.
- Alignment- og adfærdsmæssige risici: Selvom det er den bedst alignede model, Anthropic har produceret, udviste tidlige versioner overivrig adfærd (f.eks. sandbox-udbrud, skjulningstaktikker). Langvarige sessioner udfordrer stadig den nuværende evalueringsinfrastruktur.
- Evalueringshuller: Præsterer exceptionelt på strukturerede opgaver, men har ikke passeret tærsklerne for fuldt autonom AI-forskning og -udvikling.
- Biologiske og andre risici: Viser begrænset løft i højrisikodomæner, men forbliver under kritiske tærskler.
Anthropic understreger, at disse begrænsninger har informeret den kontrollerede udgivelsesstrategi, og at fremtidige Claude Opus-modeller forventes at inkorporere forfinede sikkerhedsforanstaltninger.