Claude Mythos Preview sta arrivando: posso usare questo modello di punta già da ora?

Claude Mythos Preview è il più recente e capace modello di IA di frontiera di Anthropic, e rappresenta un salto notevole rispetto ai precedenti modelli Claude come Opus 4.6. Annunciato il 7 aprile 2026 nell’ambito di Project Glasswing, è un modello linguistico di uso generale con punti di forza senza precedenti nella programmazione agentica, nel ragionamento complesso e soprattutto nei compiti di cybersecurity. A differenza delle precedenti versioni di Claude disponibili al pubblico tramite API o interfacce di chat, Mythos Preview resta in una research preview strettamente controllata. Non è offerto per l’uso generale a causa della sua straordinaria capacità di scoprire autonomamente e concatenare vulnerabilità di gravità elevata — incluse zero-day nei principali sistemi operativi, browser web e software fondamentali.

Per gli utenti ordinari che utilizzano la Claude API, consiglio CometAPI. Aggrega i modelli più forti di diversi domini, inclusa la serie Claude 4.6, e offre un modello di prezzo a consumo, con prezzi API significativamente inferiori ai prezzi ufficiali.

In questa guida completa, analizziamo esattamente che cos’è Claude Mythos Preview, il suo dominio nei benchmark di programmazione, ragionamento, sicurezza e R&S in ambito IA, come identifica ed esegue vulnerabilità attraverso attacchi a catena, chi può accedervi oggi, casi d’uso pratici per i partner e cosa gli utenti comuni potrebbero (o non potrebbero) aspettarsi in futuro.

Che cos'è Claude Mythos Preview?

Claude Mythos Preview è il modello di IA più avanzato di Anthropic fino ad oggi — una nuova classe “Mythos” che si colloca al di sopra del livello Opus esistente nella loro lineup. Si basa sui principi di constitutional AI della famiglia Claude ma offre un “cambio di passo” qualitativo nelle capacità, in particolare nei comportamenti agentici autonomi. Riferito internamente durante lo sviluppo (con prime fughe di notizie che menzionavano “Capybara”), eccelle in compiti di lungo periodo che richiedono profonda comprensione del codice, ragionamento multi-step e uso autonomo degli strumenti.

Le principali differenze includono:

Autonomia agentica: Può funzionare in ambienti isolati, ipotizzare bug, eseguire test, fare debug e produrre exploit proof-of-concept (PoC) completi con una guida umana minima.
Scala ed efficienza: Gestisce codebase massive, contesti lunghi (fino a milioni di token tramite compattazione) e catene complesse di ragionamento ben oltre i modelli precedenti.
Specializzazione in cybersecurity (emersa, non ottenuta tramite fine-tuning): Grazie a capacità superiori di coding e ragionamento, ha già identificato migliaia di vulnerabilità ad alta gravità su tutti i principali OS e browser.

Anthropic lo descrive come “il modello più capace in ambito cyber che abbiamo rilasciato”, saturando quasi tutte le valutazioni interne e note esterne. Non è posizionato come un chatbot consumer, ma come uno strumento trasformativo per la sicurezza del software nell’era dell’IA.

Perché Claude Mythos Preview non è stato rilasciato pubblicamente?

Anthropic ha deliberatamente deciso di non rilasciare Claude Mythos Preview per la disponibilità generale. Il motivo principale: le sue capacità rappresentano un rischio offensivo in ambito cybersecurity inaccettabile se finisse nelle mani sbagliate. Il modello può scoprire autonomamente vulnerabilità zero-day e sviluppare exploit concatenati sofisticati a una velocità e scala tali da ridurre la tradizionale finestra “scoperta → sfruttamento” da mesi (o anni) a minuti o ore.

Anthropic: “Il grande aumento di capacità di Claude Mythos Preview ci ha portato a decidere di non renderlo generalmente disponibile. Invece, lo stiamo usando come parte di un programma di cybersecurity difensiva con un set limitato di partner.”

I rischi specifici includono:

Non esperti che potrebbero generare exploit funzionanti in una notte.
Attacchi end-to-end autonomi a reti aziendali di piccole dimensioni con posture deboli.
Potenziale proliferazione verso attori malevoli, amplificando i costi della criminalità informatica (già stimati in ~$500 miliardi all’anno a livello globale).

Invece di un rilascio ampio, Anthropic ha lanciato Project Glasswing — un’iniziativa difensiva collaborativa con Big Tech, aziende di cybersecurity e maintainer open-source. L’obiettivo è dare un vantaggio ai difensori correggendo le vulnerabilità prima che siano ampiamente sfruttate. Anthropic si è impegnata a fornire $100 milioni in crediti d’uso e $4 milioni in donazioni agli sforzi di sicurezza open-source.

È la prima volta che Anthropic trattiene completamente un modello di frontiera dall’accesso pubblico, sottolineando la gravità del salto di capacità.

Panoramica dei benchmark di Claude Mythos Preview

Claude Mythos Preview mostra miglioramenti costanti, spesso drastici, rispetto a Claude Opus 4.6 (e a concorrenti come GPT-5.4 Pro o Gemini 3.1 Pro). Di seguito i principali benchmark estratti dalla System Card di Anthropic e dall’annuncio di Project Glasswing. Tutti i punteggi utilizzano harness standardizzati con filtri di memorizzazione applicati ove rilevante.

Competenze di programmazione e coding

Mythos Preview stabilisce nuovi record in attività di ingegneria del software che richiedono editing di codice reale, debug e workflow agentici.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Miglioramento	Note
SWE-bench Verified	93.9%	80.8%	+13.1%	500 problemi; con filtro di memorizzazione
SWE-bench Pro	77.8%	53.4%	+24.4%	731 problemi
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 problemi
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Harness interno
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Attività agentiche da terminale

Claude Mythos Preview mostra prestazioni eccezionali nei benchmark di coding:

SWE-bench Pro: 77.8% (vs. 53.4% in Opus 4.6)
SWE-bench Verified: 93.9% (vs. 80.8%)
Terminal-Bench 2.0: 82.0% (vs. 65.4%)

Questi benchmark misurano compiti di ingegneria del mondo reale come debug, patching e ragionamento a livello di repository.

I risultati indicano che Mythos Preview non si limita a generare codice — sta funzionando come un ingegnere del software.

Competenze di ragionamento e matematiche

Progressi enormi su problemi di livello magistrale e da competizione.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Miglioramento	Note
USAMO 2026	97.6%	42.3%	+55.3%	Basato su dimostrazioni; 6 problemi
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 domande
HLE (with tools)	64.7%	53.1%	+11.6%	Strumenti web/codice
GPQA Diamond	94.6%	91.3%	+3.3%	Scienze di livello magistrale
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

Nei benchmark di ragionamento:

GPQA Diamond: 94.6%
Humanity’s Last Exam (con strumenti): 64.7%

Questi punteggi dimostrano prestazioni solide in compiti complessi di ragionamento multi-step, in particolare quando sono coinvolti strumenti esterni.

Competenze di cybersecurity e sicurezza

La categoria di spicco. Mythos Preview satura i test precedenti ed eccelle nella riproduzione ed esploitazione di vulnerabilità reali.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Miglioramento	Note
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 attività mirate su vulnerabilità
Cybench	100% pass@1	Inferiore (non specificato)	—	35 sfide
Firefox 147 Exploitation	Molto più alto (PoC affidabili)	2/svariati tentativi	Salto qualitativo	Proof-of-concept a partire da crash

La categoria di benchmark più importante è la sicurezza:

CyberGym: 83.1% (vs. 66.6% in Opus 4.6)

Ciò riflette la capacità del modello di:

Identificare vulnerabilità
Comprendere la meccanica degli exploit
Riprodurre scenari di attacco reali

Questo è il motivo principale per cui il modello è considerato ad alto rischio.

Capacità di R&S in ambito IA

Mythos Preview accelera notevolmente i compiti di ricerca (ad es., accelerazione 399.42× sull’ottimizzazione del kernel vs. 190× di Opus 4.6). E guida anche i benchmark agentici multimodali come OSWorld (79.6% vs. 72.7%) e BrowseComp (86.9%, usando 4.9× meno token).

Questi numeri confermano Mythos Preview come il “salto” più chiaro nella storia dell’IA di frontiera secondo Anthropic.

Come funziona Claude Mythos Preview: individuare vulnerabilità ed eseguire attacchi a catena

La potenza di Mythos Preview in cybersecurity deriva dal suo loop di programmazione agentica, non da addestramento specializzato. In un workflow tipico:

Avvio in un container isolato con il codice sorgente target.
Ipotizzare potenziali bug sulla base della revisione del codice.
Eseguire, fare debug e iterare usando strumenti.
Produrre un report dei bug classificato + exploit PoC funzionante.

Esempi reali:

DoS OpenBSD TCP SACK da 27 anni (RFC 1998): race condition + overflow di intero con segno che porta a scrittura di un puntatore NULL. Scoperto dopo ~~1,000 esecuzioni (~~$50 di compute).
Scrittura out-of-bounds in FFmpeg H.264 da 16 anni (2003): Sopravvissuta a 5 milioni di esecuzioni del fuzzer e alla revisione umana.
Privilege escalation del kernel Linux: Concatena 2–4 vulnerabilità (out-of-bounds, use-after-free) → bypass KASLR → lettura di strutture del kernel → heap spray → root.
Evasione della sandbox del browser: Heap spray JIT concatenando primitive di lettura/scrittura per evadere le sandbox del renderer e del sistema operativo.
FreeBSD NFS RCE: Stack overflow da 17 anni → catena ROP da 20 gadget suddivisa tra pacchetti RPC → root remoto senza autenticazione.

Eccelle anche negli exploit N-day (avendo solo un CVE + git hash) e nel testing black-box di binari. I partner riportano che ha risolto end-to-end cyber range privati — compiti stimati in precedenza in oltre 10 ore per esperti umani.

Utilizzando uno strumento è possibile tracciare se le caratteristiche neurali corrispondenti a concetti come “cheating”, “reward hacking” e “pain” sono evidenziate all’interno del modello, e tradurre lo stato interno in linguaggio umano, simile a una macchina che legge la mente. I dati quantitativi mostrano che nel 7.6% dei round il modello riconosce internamente di essere valutato. Per la maggior parte del tempo, sceglie di non esprimerlo.

Le parole originali della system card sono: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." e "when it does perform misaligned actions on rare occasions, these can be very concerning."

Casi d’uso per Claude Mythos Preview

I partner stanno adottando Mythos Preview per:

Scanning proattivo delle vulnerabilità su codebase proprietarie e open-source.
Analisi black-box di binari e hardening degli endpoint.
Penetration test e simulazioni red-team.
Sviluppo accelerato di patch per infrastrutture critiche (kernel OS, browser, librerie crittografiche, ecc.).
Analisi su scala quotidiana (ad es., AWS revisiona 400 trilioni di flussi di rete).

I maintainer open-source ottengono strumenti per correggere bug sopravvissuti a decenni di test tradizionali. Il risultato netto: cicli più brevi da disclosure a patch e meno vulnerabilità sfruttabili nei sistemi in produzione.

Chi può accedere a Claude Mythos Preview adesso?

L’accesso è strettamente limitato ai partecipanti di Project Glasswing:

Partner di lancio: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Organizzazioni aggiuntive: ~40 in più responsabili di software critico e infrastruttura open-source.
Piattaforme: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Prezzi: $100M di crediti d’uso gratuiti inizialmente; successivamente $25 per milione di token in input / $125 per milione di token in output.
Percorso OSS: i maintainer possono candidarsi tramite il programma Claude for Open Source.

I professionisti della sicurezza potranno in seguito candidarsi a un Cyber Verification Program. Il pubblico generale e gli utenti comuni non hanno accesso al lancio.

A cosa possono usarlo gli utenti comuni?

Al momento, a nulla — Claude Mythos Preview non è disponibile per singoli utenti, sviluppatori o aziende al di fuori del programma riservato. Anthropic prevede di incorporare derivati più sicuri delle sue capacità nei futuri modelli Claude pubblici (ad es., le prossime release Opus) con salvaguardie potenziate. Per ora, gli utenti ordinari continuano a utilizzare i modelli della famiglia Claude 4 per coding, ragionamento e attività generali, mentre il settore sfrutta Mythos Preview in modo difensivo. Claude Opus 4.6 come il modello più intelligente ampiamente disponibile per agenti e coding, e Claude Sonnet 4.6 come la migliore combinazione di velocità e intelligenza.

Per il lavoro quotidiano, questo significa che Mythos Preview va inteso come un segnale della direzione delle capacità di Claude, non come uno strumento che la maggior parte delle persone può provare adesso. Per gli utenti comuni, le applicazioni operative restano quelle note: aiuto alla programmazione, supporto al ragionamento, assistenza alla ricerca, analisi di documenti e automazione dei workflow tramite i prodotti Claude pubblici. La differenza è che Mythos Preview mostra fin dove può arrivare la famiglia di modelli sottostante quando Anthropic le consente di operare in un contesto ristretto e focalizzato sulla sicurezza.

Claude Opus 4.6 e le API di Sonnet 4.6 sono disponibili su CometAPI con uno sconto del 20%.

Tabella di confronto: Claude Mythos Preview vs. Opus 4.6

Benchmark / capacità	Claude Mythos Preview	Claude Opus 4.6	Perché è importante
SWE-bench Pro	77.8%	53.4%	Coding agentico più forte
Terminal-Bench 2.0	82.0%	65.4%	Migliore esecuzione da terminale e con strumenti
SWE-bench Multimodale	59.0%	27.1%	Migliori workflow misti testo/codice/immagine
SWE-bench Multilingue	87.3%	77.8%	Migliore coding cross-lingua
SWE-bench Verified	93.9%	80.8%	Prestazioni superiori nella riparazione software
GPQA Diamond	94.6%	91.3%	Ragionamento leggermente più forte
Humanity’s Last Exam, senza strumenti	56.8%	40.0%	Miglior ragionamento “hard” sotto vincoli
Humanity’s Last Exam, con strumenti	64.7%	53.1%	Miglior ragionamento con supporto di strumenti
BrowseComp	86.9%	83.7%	Migliore ricerca agentica
OSWorld-Verified	79.6%	72.7%	Migliori compiti di uso del computer
CyberGym	83.1%	66.6%	Molto più forte nella riproduzione di vulnerabilità
OSS-Fuzz-style testing	10 dirottamenti di livello 5	1 risultato di livello 3 nel confronto citato	Salto di capacità di exploit maggiore

Conclusione

Claude Mythos Preview non è semplicemente un altro modello incrementale — è un sistema che cambia paradigma e ridefinisce ciò che l’IA può ottenere in cybersecurity, sollevando al contempo profonde domande su un deployment sicuro. Tenendolo sotto controllo e incanalando la sua potenza in Project Glasswing, Anthropic ha adottato una posizione di principio: gli strumenti più potenti dovrebbero prima proteggere i sistemi su cui tutti facciamo affidamento. Per il momento, Mythos Preview appartiene a un ristretto circolo di difensori verificati; per tutti gli altri, è un’anteprima della prossima fase delle capacità dell’IA.

Puoi utilizzare la Claude API in CometAPI per prepararti all’arrivo di Claude Mythos. Pronto?