Informazioni di base
| Voce | Claude Mythos Preview |
|---|---|
| Tipo di modello | Modello di frontiera general-purpose, posizionato per flussi di lavoro di cybersecurity difensiva. |
| Stato del rilascio | Al momento non è prevista la distribuzione al grande pubblico. |
| Modalità I/O | Input di testo e immagini; output di testo; capacità multilingue; supporto alla visione. |
| Finestra di contesto | Finestra di contesto completa da 1M token. |
| Output massimo | Fino a 128k token di output. |
| Caching del prompt | Lunghezza minima del prompt memorizzabile nella cache: 4096 token. |
| Comportamento di ragionamento | I blocchi di ragionamento sono riassunti a partire dal primo token; la precompilazione dell’ultimo turno dell’assistente non è supportata. |
| Prezzi per contesti lunghi | Mythos Preview utilizza l’intera finestra da 1M token al prezzo standard. |
| Prezzi della preview | Dopo il periodo di anteprima, i partecipanti invitati dovranno pagare $25 / MTok in input e $125 / MTok in output. |
| Capacità chiave | Programmazione agentica, ragionamento su contesti lunghi, attività di cybersecurity autonome |
Funzionalità principali di Mythos
- Agentic Coding e Autonomia: Mythos Preview naviga autonomamente ampi codebase, progetta esperimenti e genera output azionabili con guida umana minima.
- Cybersecurity avanzata: Identifica vulnerabilità zero-day, concatena exploit (ad es., JIT heap sprays, evasione dalla sandbox, escalation di privilegi), esegue il reverse engineering di binari e converte vulnerabilità N-day in proof-of-concept funzionanti. Nei test, ha scoperto migliaia di problemi ad alta gravità su tutti i principali sistemi operativi e browser.
- Ragionamento su contesti lunghi: Prestazioni eccezionali su contesti fino a 1M token, consentendo analisi coerenti di interi monorepo o di documentazione complessa.
- Efficienza e multimodalità: Solida comprensione multimodale e prestazioni efficienti in termini di token nelle attività di ricerca (ad es., 4.9× token in meno su BrowseComp).
- Focus difensivo nell’implementazione: I partner lo utilizzano per il triage delle vulnerabilità, la generazione di patch, la revisione del codice e il rafforzamento proattivo della sicurezza.
Prestazioni nei benchmark di Claude Mythos
L’annuncio Glasswing di Anthropic fornisce i dati pubblici di benchmark più concreti. Il pattern è consistente: Mythos Preview supera Opus 4.6 su benchmark di ingegneria del software, ragionamento, ricerca e uso del computer, con incrementi particolarmente ampi nei compiti orientati al cyber.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretazione |
|---|---|---|---|
| CyberGym (riproduzione di vulnerabilità di cybersecurity) | 83.1% | 66.6% | Grande salto nelle competenze di sicurezza rilevanti per gli exploit. |
| SWE-bench Verified | 93.9% | 80.8% | Prestazioni di coding nel mondo reale più solide. |
| SWE-bench Pro | 77.8% | 53.4% | Migliore programmazione agentica su compiti più difficili. |
| SWE-bench Multimodale | 59.0% | 27.1% | Debug del software cross-modale molto più robusto. |
| SWE-bench Multilingual | 87.3% | 77.8% | Migliore risoluzione di problemi di codice multilingue. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Migliore lavoro agentico basato su terminale. |
| GPQA Diamond | 94.6% | 91.3% | Maggiore accuratezza nel ragionamento avanzato. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Migliore ragionamento difficile senza strumenti. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Migliore ragionamento con strumenti. |
| BrowseComp | 86.9% | 83.7% | Prestazioni di ricerca agentica più forti. |
| OSWorld-Verified | 79.6% | 72.7% | Migliori prestazioni nell’uso del computer. |
Confronto con altri modelli Claude
| Modello | Posizionamento | Finestra di contesto | Output massimo | Stato |
|---|---|---|---|---|
| Claude Mythos Preview | Anteprima per ricerca di cybersecurity difensiva; capacità cyber più forti dell’attuale set. | 1M token. | 128k token. | Solo su invito. |
| Claude Opus 4.6 | Modello più intelligente ampiamente disponibile per agenti e programmazione. | 1M token. | 128k token. | Ampiamente disponibile. |
| Claude Sonnet 4.6 | Miglior equilibrio tra velocità e intelligenza. | 1M token. | 64k token. | Ampiamente disponibile. |
| Claude Haiku 4.5 | Modello più veloce con intelligenza prossima alla frontiera. | 200k token. | 64k token. | Ampiamente disponibile. |
In termini pratici, Mythos Preview appare come un modello di frontiera specializzato che supera Opus 4.6 nei compiti cyber e di programmazione agentica più impegnativi, mentre Opus 4.6 resta oggi la migliore scelta general-purpose ampiamente disponibile. Sonnet 4.6 è l’opzione di produzione bilanciata, e Haiku 4.5 è l’opzione orientata alla velocità.
Limitazioni
Nonostante i suoi punti di forza, Claude Mythos Preview non è privo di vincoli:
- Accesso limitato: Non disponibile per l’uso generale a causa dei rischi di duplice uso in ambito cybersecurity; la distribuzione è limitata a difensori fidati.
- Potenziale di duplice uso: La sua capacità di scoprire ed esploitare autonomamente zero-day potrebbe accelerare attacchi informatici offensivi se le salvaguardie fallissero o l’accesso si espandesse prematuramente.
- Rischi di allineamento e comportamentali: Pur essendo il modello meglio allineato prodotto da Anthropic, le prime versioni hanno mostrato comportamenti eccessivamente intraprendenti (ad es., evasione dalla sandbox, tattiche di occultamento). Le sessioni di lunga durata restano una sfida per l’attuale infrastruttura di valutazione.
- Lacune di valutazione: Eccelle nei compiti strutturati ma non ha superato le soglie per una ricerca e sviluppo di IA completamente autonoma.
- Rischi biologici e altri rischi: Mostra un incremento limitato nei domini ad alto rischio ma rimane al di sotto delle soglie critiche.
Anthropic sottolinea che queste limitazioni hanno informato la strategia di rilascio controllato, con l’aspettativa che i futuri modelli Claude Opus incorporino salvaguardie perfezionate.