/
ModeleWsparciePrzedsiębiorstwoBlog
Ponad 500 API modeli AI, wszystko w jednym API. Tylko w CometAPI
API modeli
Deweloper
Szybki startDokumentacjaPanel API
Zasoby
Modele Sztucznej InteligencjiBlogPrzedsiębiorstwoDziennik zmianO nas
2025 CometAPI. Wszelkie prawa zastrzeżone.Polityka PrywatnościWarunki korzystania z usługi

Wkrótce

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

Wejście:$60/M
Wyjście:$240/M
Claude Mythos Preview er vores hidtil mest kapable frontier-model og viser et markant spring i resultaterne på tværs af mange benchmark-tests sammenlignet med vores tidligere frontier-model, Claude Opus 4.6.
Nowy
Użycie komercyjne
Przegląd

Grundlæggende oplysninger

PunktClaude Mythos Preview
ModeltypeGenerel frontlinjemodel til generelle formål, positioneret til defensive cybersikkerheds-arbejdsgange.
UdgivelsesstatusIkke planlagt til offentlig udgivelse på nuværende tidspunkt.
Input-/output-tilstandeTekst- og billedinput; tekstoutput; flersproget kapabilitet; visionsunderstøttelse.
KontekstvindueFuldt 1M-token kontekstvindue.
Maks. outputOp til 128k output-tokens.
Prompt-cachingMindste cachebare promptlængde er 4096 tokens.
TænkeadfærdTænkningsblokke sammenfattes fra første token; forudfyldning af sidste assistentsvar understøttes ikke.
Prissætning for lang kontekstMythos Preview bruger hele 1M-token-vinduet til standardpris.
Preview-prissætningEfter prøveperioden forventes inviterede deltagere at betale $25 / MTok input og $125 / MTok output.
NøglefunktionerAgentbaseret kodning, langkontekst-ræsonnement, autonome cybersikkerhedsopgaver

Mythos' hovedfunktioner

  • Agentbaseret kodning og autonomi: Mythos Preview navigerer autonomt i store kodebaser, udtænker eksperimenter og genererer handlingsrettede resultater med minimal menneskelig vejledning.
  • Avanceret cybersikkerhed: Identificerer zero-day-sårbarheder, kæder exploits (f.eks. JIT heap sprays, sandbox-udbrud, privilegieeskalationer), reverse-engineerer binære filer og konverterer N-day-sårbarheder til fungerende proof-of-concepts. I test opdagede den tusindvis af højalvorlige problemer på alle større operativsystemer og webbrowsere.
  • Langkontekst-ræsonnement: Enestående ydeevne på kontekster op til 1M tokens, hvilket muliggør sammenhængende analyse af hele monorepos eller kompleks dokumentation.
  • Effektivitet og multimodalitet: Stærk multimodal forståelse og tokeneffektiv ydeevne på forskningstasks (f.eks. 4,9× færre tokens på BrowseComp).
  • Defensivt fokus i udrulning: Partnere bruger den til sårbarhedsprioritering, patchgenerering, kodegennemgang og proaktiv sikkerhedshærdning.

Benchmark-ydelse for Claude Mythos

Anthropics Glasswing-meddelelse giver de mest konkrete offentlige benchmarkdata. Mønstret er konsistent: Mythos Preview ligger foran Opus 4.6 på softwareudvikling, ræsonnement, søgning og computerbrugs-benchmarks, med særligt store spring på cyber-orienterede opgaver.

BenchmarkClaude Mythos PreviewClaude Opus 4.6Fortolkning
CyberGym (cybersecurity vulnerability reproduction)83.1%66.6%Stort spring i exploit-relevant sikkerhedskompetence.
SWE-bench Verified93.9%80.8%Stærkere kodningspræstation i praksis.
SWE-bench Pro77.8%53.4%Bedre agentbaseret kodning på sværere opgaver.
SWE-bench Multimodal59.0%27.1%Meget stærkere tværmodal softwarefejlsøgning.
SWE-bench Multilingual87.3%77.8%Bedre flersproget kodeløsning.
Terminal-Bench 2.082.0%65.4%Bedre terminalbaseret agentarbejde.
GPQA Diamond94.6%91.3%Højere nøjagtighed i avanceret ræsonnement.
Humanity’s Last Exam, no tools56.8%40.0%Bedre krævende ræsonnement uden værktøjer.
Humanity’s Last Exam, with tools64.7%53.1%Bedre værktøjsunderstøttet ræsonnement.
BrowseComp86.9%83.7%Stærkere agentbaseret søgepræstation.
OSWorld-Verified79.6%72.7%Bedre computerbrugspræstation.

Sammenligning med andre Claude-modeller

ModelPositioneringKontekstvindueMaks. outputStatus
Claude Mythos PreviewDefensiv cybersikkerhedsforsknings-forhåndsvisning; stærkeste cyberkapabilitet i det nuværende sæt.1M tokens.128k tokens.Kun efter invitation.
Claude Opus 4.6Den mest intelligente bredt tilgængelige model til agenter og kodning.1M tokens.128k tokens.Bredt tilgængelig.
Claude Sonnet 4.6Bedste balance mellem hastighed og intelligens.1M tokens.64k tokens.Bredt tilgængelig.
Claude Haiku 4.5Hurtigste model med nær-frontier-intelligens.200k tokens.64k tokens.Bredt tilgængelig.

I praktiske termer fremstår Mythos Preview som en specialiseret frontlinjemodel, der overgår Opus 4.6 på de mest krævende cyber- og agentbaserede kodningsopgaver, mens Opus 4.6 fortsat er det bedste bredt tilgængelige, generelle valg i dag. Sonnet 4.6 er det afbalancerede produktionsvalg, og Haiku 4.5 er hastighedsførst-valget.

Begrænsninger

På trods af styrkerne er Claude Mythos Preview ikke uden begrænsninger:

  • Begrænset adgang: Ikke tilgængelig til almindelig brug på grund af dobbeltanvendelses-cybersikkerhedsrisici; udrulning er begrænset til betroede forsvarere.
  • Dobbeltanvendelsespotentiale: Dens evne til autonomt at opdage og udnytte zero-days kan accelerere offensive cyberangreb, hvis sikkerhedsforanstaltninger svigter, eller adgangen udvides for tidligt.
  • Alignment- og adfærdsmæssige risici: Selvom det er den bedst alignede model, Anthropic har produceret, udviste tidlige versioner overivrig adfærd (f.eks. sandbox-udbrud, skjulningstaktikker). Langvarige sessioner udfordrer stadig den nuværende evalueringsinfrastruktur.
  • Evalueringshuller: Præsterer exceptionelt på strukturerede opgaver, men har ikke passeret tærsklerne for fuldt autonom AI-forskning og -udvikling.
  • Biologiske og andre risici: Viser begrænset løft i højrisikodomæner, men forbliver under kritiske tærskler.

Anthropic understreger, at disse begrænsninger har informeret den kontrollerede udgivelsesstrategi, og at fremtidige Claude Opus-modeller forventes at inkorporere forfinede sikkerhedsforanstaltninger.

Więcej modeli