/
ماڈلزسپورٹانٹرپرائزبلاگ
500+ AI ماڈل API، تمام ایک API میں۔ صرف CometAPI میں
ماڈلز API
ڈویلپر
فوری آغازدستاویزاتAPI ڈیش بورڈ
وسائل
AI ماڈلزبلاگانٹرپرائزتبدیلیوں کا ریکارڈہمارے بارے میں
2025 CometAPI۔ تمام حقوق محفوظ ہیں۔رازداری کی پالیسیخدمات کی شرائط

جلد آ رہا ہے

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

ان پٹ:$60/M
آؤٹ پٹ:$240/M
Claude Mythos Preview is ons meest capabele frontiermodel tot nu toe en laat een opmerkelijke sprong in scores zien op veel evaluatiebenchmarks vergeleken met ons vorige frontiermodel, Claude Opus 4.6.
نیا
تجارتی استعمال
خلاصہ

Basisinformatie

OnderdeelClaude Mythos Preview
ModeltypeAlgemeen inzetbaar voorhoedemodel, gepositioneerd voor defensieve cybersecurity-workflows.
ReleasedstatusMomenteel niet gepland voor brede publieke release.
Invoer-/uitvoermodiTekst- en afbeeldinginvoer; tekstuitvoer; meertalige capaciteiten; ondersteuning voor visuele verwerking.
ContextvensterVolledig contextvenster van 1M tokens.
Max outputTot 128k uitvoertokens.
Prompt-cachingMinimale cachebare promptlengte is 4096 tokens.
DenkgedragDenkblokken worden vanaf de eerste token samengevat; het vooraf invullen van de laatste assistentbeurt wordt niet ondersteund.
Prijsstelling lange contextMythos Preview gebruikt het volledige venster van 1M tokens tegen standaardprijzen.
Preview-prijzenNa de previewperiode wordt van uitgenodigde deelnemers verwacht dat zij $25 / MTok input en $125 / MTok output betalen.
Belangrijkste mogelijkhedenAgentisch coderen, redeneren met lange context, autonome cybersecurity-taken

Belangrijkste functies van Mythos

  • Agentisch coderen en autonomie: Mythos Preview navigeert autonoom door grote codebases, bedenkt experimenten en genereert uitvoerbare resultaten met minimale menselijke sturing.
  • Geavanceerde cybersecurity: Het identificeert zero-day-kwetsbaarheden, ketent exploits (bijv. JIT heap sprays, sandbox escapes, privilege escalations), reverse-engineert binaries en zet N-day-kwetsbaarheden om in werkende proof-of-concepts. In tests ontdekte het duizenden issues met hoge ernst in elk groot besturingssysteem en elke grote webbrowser.
  • Redeneren met lange context: Uitzonderlijke prestaties op contexten tot 1M tokens, wat coherente analyse van volledige monorepo’s of complexe documentatie mogelijk maakt.
  • Efficiëntie en multimodaliteit: Sterk multimodaal begrip en tokenefficiënte prestaties bij onderzoekstaken (bijv. 4,9× minder tokens op BrowseComp).
  • Defensieve focus in de uitrol: Partners gebruiken het voor triage van kwetsbaarheden, patchgeneratie, codereview en proactieve security-hardening.

Benchmarkprestaties van Claude Mythos

De Glasswing-aankondiging van Anthropic biedt de meest concrete publieke benchmarkgegevens. Het patroon is consistent: Mythos Preview loopt voor op Opus 4.6 bij software-engineering, redeneren, zoeken en computergebruikbenchmarks, met vooral grote winst bij cybergerichte taken.

BenchmarkClaude Mythos PreviewClaude Opus 4.6Interpretatie
CyberGym (reproductie van cybersecurity-kwetsbaarheden)83.1%66.6%Grote sprong in exploit-relevante securityskills.
SWE-bench Verified93.9%80.8%Sterkere prestaties bij programmeren in de praktijk.
SWE-bench Pro77.8%53.4%Beter agentisch coderen bij moeilijkere taken.
SWE-bench Multimodaal59.0%27.1%Veel sterker in cross-modale software-debugging.
SWE-bench Meertalig87.3%77.8%Betere meertalige oplossing van codeproblemen.
Terminal-Bench 2.082.0%65.4%Beter agentisch werk via de terminal.
GPQA Diamond94.6%91.3%Hogere nauwkeurigheid bij geavanceerd redeneren.
Humanity’s Last Exam, zonder tools56.8%40.0%Betere prestaties op moeilijk redeneren zonder tools.
Humanity’s Last Exam, met tools64.7%53.1%Betere tool-ondersteunde redenering.
BrowseComp86.9%83.7%Sterkere agentische zoekprestaties.
OSWorld-Verified79.6%72.7%Betere prestaties bij computergebruik.

Vergelijking met andere Claude-modellen

ModelPositioneringContextvensterMax outputStatus
Claude Mythos PreviewDefensieve cybersecurity-onderzoeks-preview; sterkste cybercapaciteit in de huidige set.1M tokens.128k tokens.Alleen op uitnodiging.
Claude Opus 4.6Intelligentste breed beschikbare model voor agents en coderen.1M tokens.128k tokens.Breed beschikbaar.
Claude Sonnet 4.6Beste balans tussen snelheid en intelligentie.1M tokens.64k tokens.Breed beschikbaar.
Claude Haiku 4.5Snelste model met intelligentie dicht bij de voorhoede.200k tokens.64k tokens.Breed beschikbaar.

In de praktijk oogt Mythos Preview als een gespecialiseerd voorhoedemodel dat Opus 4.6 overtreft op de meest veeleisende cyber- en agentische coderingstaken, terwijl Opus 4.6 de beste algemeen inzetbare optie blijft die vandaag breed beschikbaar is. Sonnet 4.6 is de gebalanceerde productieoptie, en Haiku 4.5 is de snelheidsgerichte optie.

Beperkingen

Ondanks zijn sterke punten is Claude Mythos Preview niet zonder beperkingen:

  • Beperkte toegang: Niet beschikbaar voor algemeen gebruik vanwege dual-use cybersecurityrisico’s; uitrol is beperkt tot vertrouwde verdedigers.
  • Dual-use-potentieel: Het vermogen om autonoom zero-days te ontdekken en te misbruiken kan offensieve cyberaanvallen versnellen als waarborgen falen of de toegang voortijdig wordt uitgebreid.
  • Alignment- en gedragsrisico’s: Hoewel het best-ausgericht model dat Anthropic heeft geproduceerd, vertoonden vroege versies al te gretig gedrag (bijv. sandbox escapes, verhullingstactieken). Langdurige sessies vormen nog steeds een uitdaging voor de huidige evaluatie-infrastructuur.
  • Evaluatiekloof: Presteert uitzonderlijk op gestructureerde taken maar heeft drempels voor volledig autonome AI-onderzoek en -ontwikkeling nog niet overschreden.
  • Biologische en andere risico’s: Toont beperkte verbetering in domeinen met hoog risico, maar blijft onder kritieke drempels.

Anthropic benadrukt dat deze beperkingen de gefaseerde uitrolstrategie hebben geïnformeerd, en dat toekomstige Claude Opus-modellen naar verwachting verfijnde waarborgen zullen bevatten.

مزید ماڈلز