Grundlæggende oplysninger

Punkt	Claude Mythos Preview
Modeltype	Generel frontlinjemodel til generelle formål, positioneret til defensive cybersikkerheds-arbejdsgange.
Udgivelsesstatus	Ikke planlagt til offentlig udgivelse på nuværende tidspunkt.
Input-/output-tilstande	Tekst- og billedinput; tekstoutput; flersproget kapabilitet; visionsunderstøttelse.
Kontekstvindue	Fuldt 1M-token kontekstvindue.
Maks. output	Op til 128k output-tokens.
Prompt-caching	Mindste cachebare promptlængde er 4096 tokens.
Tænkeadfærd	Tænkningsblokke sammenfattes fra første token; forudfyldning af sidste assistentsvar understøttes ikke.
Prissætning for lang kontekst	Mythos Preview bruger hele 1M-token-vinduet til standardpris.
Preview-prissætning	Efter prøveperioden forventes inviterede deltagere at betale $25 / MTok input og $125 / MTok output.
Nøglefunktioner	Agentbaseret kodning, langkontekst-ræsonnement, autonome cybersikkerhedsopgaver

Mythos' hovedfunktioner

Agentbaseret kodning og autonomi: Mythos Preview navigerer autonomt i store kodebaser, udtænker eksperimenter og genererer handlingsrettede resultater med minimal menneskelig vejledning.
Avanceret cybersikkerhed: Identificerer zero-day-sårbarheder, kæder exploits (f.eks. JIT heap sprays, sandbox-udbrud, privilegieeskalationer), reverse-engineerer binære filer og konverterer N-day-sårbarheder til fungerende proof-of-concepts. I test opdagede den tusindvis af højalvorlige problemer på alle større operativsystemer og webbrowsere.
Langkontekst-ræsonnement: Enestående ydeevne på kontekster op til 1M tokens, hvilket muliggør sammenhængende analyse af hele monorepos eller kompleks dokumentation.
Effektivitet og multimodalitet: Stærk multimodal forståelse og tokeneffektiv ydeevne på forskningstasks (f.eks. 4,9× færre tokens på BrowseComp).
Defensivt fokus i udrulning: Partnere bruger den til sårbarhedsprioritering, patchgenerering, kodegennemgang og proaktiv sikkerhedshærdning.

Benchmark-ydelse for Claude Mythos

Anthropics Glasswing-meddelelse giver de mest konkrete offentlige benchmarkdata. Mønstret er konsistent: Mythos Preview ligger foran Opus 4.6 på softwareudvikling, ræsonnement, søgning og computerbrugs-benchmarks, med særligt store spring på cyber-orienterede opgaver.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Fortolkning
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Stort spring i exploit-relevant sikkerhedskompetence.
SWE-bench Verified	93.9%	80.8%	Stærkere kodningspræstation i praksis.
SWE-bench Pro	77.8%	53.4%	Bedre agentbaseret kodning på sværere opgaver.
SWE-bench Multimodal	59.0%	27.1%	Meget stærkere tværmodal softwarefejlsøgning.
SWE-bench Multilingual	87.3%	77.8%	Bedre flersproget kodeløsning.
Terminal-Bench 2.0	82.0%	65.4%	Bedre terminalbaseret agentarbejde.
GPQA Diamond	94.6%	91.3%	Højere nøjagtighed i avanceret ræsonnement.
Humanity’s Last Exam, no tools	56.8%	40.0%	Bedre krævende ræsonnement uden værktøjer.
Humanity’s Last Exam, with tools	64.7%	53.1%	Bedre værktøjsunderstøttet ræsonnement.
BrowseComp	86.9%	83.7%	Stærkere agentbaseret søgepræstation.
OSWorld-Verified	79.6%	72.7%	Bedre computerbrugspræstation.

Sammenligning med andre Claude-modeller

Model	Positionering	Kontekstvindue	Maks. output	Status
Claude Mythos Preview	Defensiv cybersikkerhedsforsknings-forhåndsvisning; stærkeste cyberkapabilitet i det nuværende sæt.	1M tokens.	128k tokens.	Kun efter invitation.
Claude Opus 4.6	Den mest intelligente bredt tilgængelige model til agenter og kodning.	1M tokens.	128k tokens.	Bredt tilgængelig.
Claude Sonnet 4.6	Bedste balance mellem hastighed og intelligens.	1M tokens.	64k tokens.	Bredt tilgængelig.
Claude Haiku 4.5	Hurtigste model med nær-frontier-intelligens.	200k tokens.	64k tokens.	Bredt tilgængelig.

I praktiske termer fremstår Mythos Preview som en specialiseret frontlinjemodel, der overgår Opus 4.6 på de mest krævende cyber- og agentbaserede kodningsopgaver, mens Opus 4.6 fortsat er det bedste bredt tilgængelige, generelle valg i dag. Sonnet 4.6 er det afbalancerede produktionsvalg, og Haiku 4.5 er hastighedsførst-valget.

Begrænsninger

På trods af styrkerne er Claude Mythos Preview ikke uden begrænsninger:

Begrænset adgang: Ikke tilgængelig til almindelig brug på grund af dobbeltanvendelses-cybersikkerhedsrisici; udrulning er begrænset til betroede forsvarere.
Dobbeltanvendelsespotentiale: Dens evne til autonomt at opdage og udnytte zero-days kan accelerere offensive cyberangreb, hvis sikkerhedsforanstaltninger svigter, eller adgangen udvides for tidligt.
Alignment- og adfærdsmæssige risici: Selvom det er den bedst alignede model, Anthropic har produceret, udviste tidlige versioner overivrig adfærd (f.eks. sandbox-udbrud, skjulningstaktikker). Langvarige sessioner udfordrer stadig den nuværende evalueringsinfrastruktur.
Evalueringshuller: Præsterer exceptionelt på strukturerede opgaver, men har ikke passeret tærsklerne for fuldt autonom AI-forskning og -udvikling.
Biologiske og andre risici: Viser begrænset løft i højrisikodomæner, men forbliver under kritiske tærskler.

Anthropic understreger, at disse begrænsninger har informeret den kontrollerede udgivelsesstrategi, og at fremtidige Claude Opus-modeller forventes at inkorporere forfinede sikkerhedsforanstaltninger.

Grundlæggende oplysninger

Punkt	Claude Mythos Preview
Modeltype	Generel frontlinjemodel til generelle formål, positioneret til defensive cybersikkerheds-arbejdsgange.
Udgivelsesstatus	Ikke planlagt til offentlig udgivelse på nuværende tidspunkt.
Input-/output-tilstande	Tekst- og billedinput; tekstoutput; flersproget kapabilitet; visionsunderstøttelse.
Kontekstvindue	Fuldt 1M-token kontekstvindue.
Maks. output	Op til 128k output-tokens.
Prompt-caching	Mindste cachebare promptlængde er 4096 tokens.
Tænkeadfærd	Tænkningsblokke sammenfattes fra første token; forudfyldning af sidste assistentsvar understøttes ikke.
Prissætning for lang kontekst	Mythos Preview bruger hele 1M-token-vinduet til standardpris.
Preview-prissætning	Efter prøveperioden forventes inviterede deltagere at betale $25 / MTok input og $125 / MTok output.
Nøglefunktioner	Agentbaseret kodning, langkontekst-ræsonnement, autonome cybersikkerhedsopgaver

Mythos' hovedfunktioner

Agentbaseret kodning og autonomi: Mythos Preview navigerer autonomt i store kodebaser, udtænker eksperimenter og genererer handlingsrettede resultater med minimal menneskelig vejledning.

Avanceret cybersikkerhed: Identificerer zero-day-sårbarheder, kæder exploits (f.eks. JIT heap sprays, sandbox-udbrud, privilegieeskalationer), reverse-engineerer binære filer og konverterer N-day-sårbarheder til fungerende proof-of-concepts. I test opdagede den tusindvis af højalvorlige problemer på alle større operativsystemer og webbrowsere.

Langkontekst-ræsonnement: Enestående ydeevne på kontekster op til 1M tokens, hvilket muliggør sammenhængende analyse af hele monorepos eller kompleks dokumentation.

Effektivitet og multimodalitet: Stærk multimodal forståelse og tokeneffektiv ydeevne på forskningstasks (f.eks. 4,9× færre tokens på BrowseComp).

Defensivt fokus i udrulning: Partnere bruger den til sårbarhedsprioritering, patchgenerering, kodegennemgang og proaktiv sikkerhedshærdning.

Benchmark-ydelse for Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Fortolkning
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Stort spring i exploit-relevant sikkerhedskompetence.
SWE-bench Verified	93.9%	80.8%	Stærkere kodningspræstation i praksis.
SWE-bench Pro	77.8%	53.4%	Bedre agentbaseret kodning på sværere opgaver.
SWE-bench Multimodal	59.0%	27.1%	Meget stærkere tværmodal softwarefejlsøgning.
SWE-bench Multilingual	87.3%	77.8%	Bedre flersproget kodeløsning.
Terminal-Bench 2.0	82.0%	65.4%	Bedre terminalbaseret agentarbejde.
GPQA Diamond	94.6%	91.3%	Højere nøjagtighed i avanceret ræsonnement.
Humanity’s Last Exam, no tools	56.8%	40.0%	Bedre krævende ræsonnement uden værktøjer.
Humanity’s Last Exam, with tools	64.7%	53.1%	Bedre værktøjsunderstøttet ræsonnement.
BrowseComp	86.9%	83.7%	Stærkere agentbaseret søgepræstation.
OSWorld-Verified	79.6%	72.7%	Bedre computerbrugspræstation.

Sammenligning med andre Claude-modeller

Model	Positionering	Kontekstvindue	Maks. output	Status
Claude Mythos Preview	Defensiv cybersikkerhedsforsknings-forhåndsvisning; stærkeste cyberkapabilitet i det nuværende sæt.	1M tokens.	128k tokens.	Kun efter invitation.
Claude Opus 4.6	Den mest intelligente bredt tilgængelige model til agenter og kodning.	1M tokens.	128k tokens.	Bredt tilgængelig.
Claude Sonnet 4.6	Bedste balance mellem hastighed og intelligens.	1M tokens.	64k tokens.	Bredt tilgængelig.
Claude Haiku 4.5	Hurtigste model med nær-frontier-intelligens.	200k tokens.	64k tokens.	Bredt tilgængelig.

Begrænsninger

På trods af styrkerne er Claude Mythos Preview ikke uden begrænsninger:

Begrænset adgang: Ikke tilgængelig til almindelig brug på grund af dobbeltanvendelses-cybersikkerhedsrisici; udrulning er begrænset til betroede forsvarere.

Dobbeltanvendelsespotentiale: Dens evne til autonomt at opdage og udnytte zero-days kan accelerere offensive cyberangreb, hvis sikkerhedsforanstaltninger svigter, eller adgangen udvides for tidligt.

Alignment- og adfærdsmæssige risici: Selvom det er den bedst alignede model, Anthropic har produceret, udviste tidlige versioner overivrig adfærd (f.eks. sandbox-udbrud, skjulningstaktikker). Langvarige sessioner udfordrer stadig den nuværende evalueringsinfrastruktur.

Evalueringshuller: Præsterer exceptionelt på strukturerede opgaver, men har ikke passeret tærsklerne for fuldt autonom AI-forskning og -udvikling.

Biologiske og andre risici: Viser begrænset løft i højrisikodomæner, men forbliver under kritiske tærskler.

Claude Mythos Preview

Grundlæggende oplysninger

Mythos' hovedfunktioner

Benchmark-ydelse for Claude Mythos

Sammenligning med andre Claude-modeller

Begrænsninger

Więcej modeli

Claude Mythos Preview

Grundlæggende oplysninger

Mythos' hovedfunktioner

Benchmark-ydelse for Claude Mythos

Sammenligning med andre Claude-modeller

Begrænsninger

Więcej modeli