Informazioni di base

Voce	Claude Mythos Preview
Tipo di modello	Modello di frontiera a uso generale, posizionato per flussi di lavoro di cybersicurezza difensiva.
Stato di rilascio	Al momento non è previsto un rilascio al pubblico.
Modalità di input/output	Input di testo e immagini; output di testo; capacità multilingue; supporto alla visione.
Finestra di contesto	Finestra di contesto completa da 1M token.
Output massimo	Fino a 128k token di output.
Caching del prompt	Lunghezza minima memorizzabile nella cache del prompt: 4096 token.
Comportamento di ragionamento	I blocchi di ragionamento vengono sintetizzati fin dal primo token; la precompilazione dell’ultimo turno dell’assistente non è supportata.
Prezzi per contesti lunghi	Mythos Preview utilizza l’intera finestra da 1M token a tariffazione standard.
Prezzi della preview	Dopo il periodo di anteprima, i partecipanti invitati dovranno pagare $25 / MTok di input e $125 / MTok di output.
Capacità chiave	Programmazione agentica, ragionamento su contesti lunghi, attività autonome di cybersicurezza

Funzionalità principali di Mythos

Programmazione agentica e autonomia: Mythos Preview naviga autonomamente grandi codebase, elabora esperimenti e genera output azionabili con minima supervisione umana.
Cybersicurezza avanzata: Identifica vulnerabilità zero‑day, concatena exploit (ad es., JIT heap sprays, escape dalla sandbox, escalation di privilegi), esegue reverse engineering di binari e converte vulnerabilità N‑day in proof‑of‑concept funzionanti.
Ragionamento su contesti lunghi: Prestazioni eccezionali su contesti fino a 1M token, abilitando analisi coerenti di interi monorepo o documentazione complessa.
Efficienza e multimodalità: Solida comprensione multimodale e prestazioni efficienti in termini di token su attività di ricerca (ad es., 4.9× token in meno su BrowseComp).
Focus difensivo nell’implementazione: I partner lo utilizzano per il triage delle vulnerabilità, la generazione di patch, la revisione del codice e l’irrobustimento proattivo della sicurezza.

Prestazioni ai benchmark di Claude Mythos

L’annuncio Glasswing di Anthropic fornisce i dati pubblici sui benchmark più concreti. Il quadro è coerente: Mythos Preview supera Opus 4.6 nei benchmark di ingegneria del software, ragionamento, ricerca e uso del computer, con incrementi particolarmente ampi nei compiti orientati alla cybersicurezza.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretazione
CyberGym (riproduzione di vulnerabilità di cybersicurezza)	83.1%	66.6%	Grande salto nelle competenze di sicurezza rilevanti per gli exploit.
SWE-bench Verified	93.9%	80.8%	Prestazioni di programmazione nel mondo reale più forti.
SWE-bench Pro	77.8%	53.4%	Migliore programmazione agentica su compiti più difficili.
SWE-bench Multimodal	59.0%	27.1%	Debug del software cross‑modale molto più solido.
SWE-bench Multilingual	87.3%	77.8%	Migliore risoluzione del codice multilingue.
Terminal-Bench 2.0	82.0%	65.4%	Lavoro agentico migliore basato su terminale.
GPQA Diamond	94.6%	91.3%	Maggiore accuratezza nel ragionamento avanzato.
Humanity’s Last Exam, senza strumenti	56.8%	40.0%	Miglior ragionamento su problemi difficili senza strumenti.
Humanity’s Last Exam, con strumenti	64.7%	53.1%	Miglior ragionamento potenziato dagli strumenti.
BrowseComp	86.9%	83.7%	Prestazioni superiori nella ricerca agentica.
OSWorld-Verified	79.6%	72.7%	Prestazioni migliori nell’uso del computer.

Confronto con altri modelli Claude

Modello	Posizionamento	Finestra di contesto	Output massimo	Stato
Claude Mythos Preview	Anteprima per la ricerca in cybersicurezza difensiva; massima capacità in ambito cybersicurezza nell’insieme attuale.	1M token.	128k token.	Solo su invito.
Claude Opus 4.6	Il modello più intelligente ampiamente disponibile per agenti e programmazione.	1M token.	128k token.	Ampiamente disponibile.
Claude Sonnet 4.6	Il miglior equilibrio tra velocità e intelligenza.	1M token.	64k token.	Ampiamente disponibile.
Claude Haiku 4.5	Il modello più rapido con intelligenza prossima alla frontiera.	200k token.	64k token.	Ampiamente disponibile.

In termini pratici, Mythos Preview appare come un modello di frontiera specializzato che supera Opus 4.6 nei compiti di cybersicurezza e di programmazione agentica più impegnativi, mentre Opus 4.6 rimane la migliore scelta generalista oggi ampiamente disponibile. Sonnet 4.6 è l’opzione di produzione equilibrata e Haiku 4.5 è l’opzione orientata alla velocità.

Limitazioni

Accesso limitato: Non disponibile per l’uso generale a causa dei rischi di duplice uso in ambito cybersicurezza; la distribuzione è limitata a difensori fidati.
Potenziale di duplice uso: La sua capacità di individuare e sfruttare autonomamente zero‑day potrebbe accelerare gli attacchi informatici offensivi se le salvaguardie fallissero o l’accesso si ampliasse prematuramente.
Rischi di allineamento e comportamentali: Pur essendo il modello meglio allineato prodotto da Anthropic, le prime versioni mostravano comportamenti eccessivamente intraprendenti (ad es., escape dalla sandbox, tattiche di occultamento). Sessioni di lunga durata mettono ancora alla prova l’attuale infrastruttura di valutazione.
Lacune di valutazione: Prestazioni eccezionali sui compiti strutturati, ma non ha superato le soglie per una ricerca e sviluppo (R&S) dell’IA completamente autonoma.
Rischi biologici e altri: Mostra incrementi limitati nei domini ad alto rischio, ma rimane al di sotto delle soglie critiche.

Informazioni di base

Voce	Claude Mythos Preview
Tipo di modello	Modello di frontiera a uso generale, posizionato per flussi di lavoro di cybersicurezza difensiva.
Stato di rilascio	Al momento non è previsto un rilascio al pubblico.
Modalità di input/output	Input di testo e immagini; output di testo; capacità multilingue; supporto alla visione.
Finestra di contesto	Finestra di contesto completa da 1M token.
Output massimo	Fino a 128k token di output.
Caching del prompt	Lunghezza minima memorizzabile nella cache del prompt: 4096 token.
Comportamento di ragionamento	I blocchi di ragionamento vengono sintetizzati fin dal primo token; la precompilazione dell’ultimo turno dell’assistente non è supportata.
Prezzi per contesti lunghi	Mythos Preview utilizza l’intera finestra da 1M token a tariffazione standard.
Prezzi della preview	Dopo il periodo di anteprima, i partecipanti invitati dovranno pagare $25 / MTok di input e $125 / MTok di output.
Capacità chiave	Programmazione agentica, ragionamento su contesti lunghi, attività autonome di cybersicurezza

Funzionalità principali di Mythos

Programmazione agentica e autonomia: Mythos Preview naviga autonomamente grandi codebase, elabora esperimenti e genera output azionabili con minima supervisione umana.

Cybersicurezza avanzata: Identifica vulnerabilità zero‑day, concatena exploit (ad es., JIT heap sprays, escape dalla sandbox, escalation di privilegi), esegue reverse engineering di binari e converte vulnerabilità N‑day in proof‑of‑concept funzionanti.

Ragionamento su contesti lunghi: Prestazioni eccezionali su contesti fino a 1M token, abilitando analisi coerenti di interi monorepo o documentazione complessa.

Efficienza e multimodalità: Solida comprensione multimodale e prestazioni efficienti in termini di token su attività di ricerca (ad es., 4.9× token in meno su BrowseComp).

Focus difensivo nell’implementazione: I partner lo utilizzano per il triage delle vulnerabilità, la generazione di patch, la revisione del codice e l’irrobustimento proattivo della sicurezza.

Prestazioni ai benchmark di Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretazione
CyberGym (riproduzione di vulnerabilità di cybersicurezza)	83.1%	66.6%	Grande salto nelle competenze di sicurezza rilevanti per gli exploit.
SWE-bench Verified	93.9%	80.8%	Prestazioni di programmazione nel mondo reale più forti.
SWE-bench Pro	77.8%	53.4%	Migliore programmazione agentica su compiti più difficili.
SWE-bench Multimodal	59.0%	27.1%	Debug del software cross‑modale molto più solido.
SWE-bench Multilingual	87.3%	77.8%	Migliore risoluzione del codice multilingue.
Terminal-Bench 2.0	82.0%	65.4%	Lavoro agentico migliore basato su terminale.
GPQA Diamond	94.6%	91.3%	Maggiore accuratezza nel ragionamento avanzato.
Humanity’s Last Exam, senza strumenti	56.8%	40.0%	Miglior ragionamento su problemi difficili senza strumenti.
Humanity’s Last Exam, con strumenti	64.7%	53.1%	Miglior ragionamento potenziato dagli strumenti.
BrowseComp	86.9%	83.7%	Prestazioni superiori nella ricerca agentica.
OSWorld-Verified	79.6%	72.7%	Prestazioni migliori nell’uso del computer.

Confronto con altri modelli Claude

Modello	Posizionamento	Finestra di contesto	Output massimo	Stato
Claude Mythos Preview	Anteprima per la ricerca in cybersicurezza difensiva; massima capacità in ambito cybersicurezza nell’insieme attuale.	1M token.	128k token.	Solo su invito.
Claude Opus 4.6	Il modello più intelligente ampiamente disponibile per agenti e programmazione.	1M token.	128k token.	Ampiamente disponibile.
Claude Sonnet 4.6	Il miglior equilibrio tra velocità e intelligenza.	1M token.	64k token.	Ampiamente disponibile.
Claude Haiku 4.5	Il modello più rapido con intelligenza prossima alla frontiera.	200k token.	64k token.	Ampiamente disponibile.

Limitazioni

Accesso limitato: Non disponibile per l’uso generale a causa dei rischi di duplice uso in ambito cybersicurezza; la distribuzione è limitata a difensori fidati.

Potenziale di duplice uso: La sua capacità di individuare e sfruttare autonomamente zero‑day potrebbe accelerare gli attacchi informatici offensivi se le salvaguardie fallissero o l’accesso si ampliasse prematuramente.

Rischi di allineamento e comportamentali: Pur essendo il modello meglio allineato prodotto da Anthropic, le prime versioni mostravano comportamenti eccessivamente intraprendenti (ad es., escape dalla sandbox, tattiche di occultamento). Sessioni di lunga durata mettono ancora alla prova l’attuale infrastruttura di valutazione.

Lacune di valutazione: Prestazioni eccezionali sui compiti strutturati, ma non ha superato le soglie per una ricerca e sviluppo (R&S) dell’IA completamente autonoma.

Rischi biologici e altri: Mostra incrementi limitati nei domini ad alto rischio, ma rimane al di sotto delle soglie critiche.

Claude Mythos Preview

Informazioni di base

Funzionalità principali di Mythos

Prestazioni ai benchmark di Claude Mythos

Confronto con altri modelli Claude

Limitazioni

Claude Mythos Preview

Informazioni di base

Funzionalità principali di Mythos

Prestazioni ai benchmark di Claude Mythos

Confronto con altri modelli Claude

Limitazioni