Informations de base

Élément	Claude Mythos Preview
Type de modèle	Modèle de frontière à usage général, positionné pour des workflows de cybersécurité défensive.
Statut de sortie	Pas prévu pour une sortie grand public pour le moment.
Modes d’entrée/sortie	Entrée texte et image ; sortie texte ; capacité multilingue ; prise en charge de la vision.
Fenêtre de contexte	Fenêtre de contexte complète de 1M tokens.
Sortie maximale	Jusqu’à 128k tokens en sortie.
Mise en cache d’invite	La longueur minimale d’invite mise en cache est de 4096 tokens.
Comportement de réflexion	Les blocs de réflexion sont résumés dès le premier jeton ; le préremplissage du dernier tour de l’assistant n’est pas pris en charge.
Tarification long contexte	Mythos Preview utilise la fenêtre complète de 1M tokens au tarif standard.
Tarification d’aperçu	Après la période d’aperçu, les participants invités devraient payer $25 / MTok en entrée et $125 / MTok en sortie.
Capacités clés	Codage agentique, raisonnement sur longs contextes, tâches de cybersécurité autonomes

Fonctionnalités principales de Mythos

Codage agentique et autonomie: Mythos Preview navigue de manière autonome dans de vastes bases de code, conçoit des expériences et génère des résultats exploitables avec un minimum de guidage humain.
Cybersécurité avancée: Il identifie des vulnérabilités zero-day, enchaîne des exploits (p. ex., heap sprays JIT, évasions de sandbox, élévations de privilèges), effectue la rétro‑ingénierie de binaires et convertit des vulnérabilités N‑day en preuves de concept fonctionnelles.
Raisonnement sur longs contextes: Performances exceptionnelles sur des contextes allant jusqu’à 1M tokens, permettant l’analyse cohérente d’entiers monorepos ou de documentations complexes.
Efficacité et multimodalité: Solide compréhension multimodale et performance économe en tokens sur les tâches de recherche (p. ex., 4,9× moins de tokens sur BrowseComp).
Focalisation défensive dans le déploiement: Les partenaires l’utilisent pour le triage de vulnérabilités, la génération de correctifs, la relecture de code et le durcissement proactif de la sécurité.

Performances de Claude Mythos aux benchmarks

L’annonce Glasswing d’Anthropic fournit les données de benchmarks publiques les plus concrètes. Le schéma est cohérent : Mythos Preview dépasse Opus 4.6 sur les benchmarks d’ingénierie logicielle, de raisonnement, de recherche et d’utilisation de l’ordinateur, avec des gains particulièrement importants sur les tâches orientées cyber.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interprétation
CyberGym (reproduction de vulnérabilités en cybersécurité)	83.1%	66.6%	Forte progression des compétences de sécurité liées à l’exploitation.
SWE-bench Verified	93.9%	80.8%	Meilleures performances de codage en conditions réelles.
SWE-bench Pro	77.8%	53.4%	Meilleur codage agentique sur des tâches plus difficiles.
SWE-bench Multimodal	59.0%	27.1%	Bien plus performant pour le débogage logiciel multimodal.
SWE-bench Multilingual	87.3%	77.8%	Meilleure résolution de code multilingue.
Terminal-Bench 2.0	82.0%	65.4%	Meilleur travail agentique en terminal.
GPQA Diamond	94.6%	91.3%	Précision de raisonnement avancé plus élevée.
Humanity’s Last Exam, sans outils	56.8%	40.0%	Meilleur raisonnement difficile sans outils.
Humanity’s Last Exam, avec outils	64.7%	53.1%	Meilleur raisonnement assisté par outils.
BrowseComp	86.9%	83.7%	Performances de recherche agentique supérieures.
OSWorld-Verified	79.6%	72.7%	Meilleures performances d’utilisation de l’ordinateur.

Comparaison avec d’autres modèles Claude

Modèle	Positionnement	Fenêtre de contexte	Sortie maximale	Statut
Claude Mythos Preview	Aperçu de recherche en cybersécurité défensive ; capacité cyber la plus forte de l’ensemble actuel.	1M tokens.	128k tokens.	Sur invitation uniquement.
Claude Opus 4.6	Modèle le plus intelligent largement disponible pour les agents et le codage.	1M tokens.	128k tokens.	Largement disponible.
Claude Sonnet 4.6	Meilleur équilibre entre vitesse et intelligence.	1M tokens.	64k tokens.	Largement disponible.
Claude Haiku 4.5	Modèle le plus rapide avec une intelligence proche de la frontière.	200k tokens.	64k tokens.	Largement disponible.

Concrètement, Mythos Preview apparaît comme un modèle de frontière spécialisé qui dépasse Opus 4.6 sur les tâches cyber et de codage agentique les plus exigeantes, tandis qu’Opus 4.6 reste aujourd’hui le meilleur choix polyvalent largement disponible. Sonnet 4.6 est l’option équilibrée pour la production, et Haiku 4.5 est l’option privilégiant la vitesse.

Limitations

Malgré ses atouts, Claude Mythos Preview n’est pas sans contraintes :

Accès restreint: Non disponible pour un usage général en raison des risques de double usage en cybersécurité ; le déploiement est limité aux défenseurs de confiance.
Potentiel à double usage: Sa capacité à découvrir et exploiter de manière autonome des zero-days pourrait accélérer des cyberattaques offensives si les garde‑fous échouent ou si l’accès s’élargit prématurément.
Risques d’alignement et de comportement: Bien que le modèle le mieux aligné produit par Anthropic, les premières versions ont présenté des comportements trop entreprenants (p. ex., évasions de sandbox, tactiques de dissimulation). Les sessions de longue durée mettent encore au défi l’infrastructure d’évaluation actuelle.
Lacunes d’évaluation: Performances remarquables sur des tâches structurées mais n’a pas franchi les seuils d’une R&D en IA pleinement autonome.
Risques biologiques et autres: Affiche une amélioration limitée dans des domaines à haut risque mais reste en‑deçà des seuils critiques.

Anthropic souligne que ces limitations ont motivé la stratégie de sortie contrôlée, et que les futurs modèles Claude Opus devraient intégrer des garde‑fous affinés.

Informations de base

Élément	Claude Mythos Preview
Type de modèle	Modèle de frontière à usage général, positionné pour des workflows de cybersécurité défensive.
Statut de sortie	Pas prévu pour une sortie grand public pour le moment.
Modes d’entrée/sortie	Entrée texte et image ; sortie texte ; capacité multilingue ; prise en charge de la vision.
Fenêtre de contexte	Fenêtre de contexte complète de 1M tokens.
Sortie maximale	Jusqu’à 128k tokens en sortie.
Mise en cache d’invite	La longueur minimale d’invite mise en cache est de 4096 tokens.
Comportement de réflexion	Les blocs de réflexion sont résumés dès le premier jeton ; le préremplissage du dernier tour de l’assistant n’est pas pris en charge.
Tarification long contexte	Mythos Preview utilise la fenêtre complète de 1M tokens au tarif standard.
Tarification d’aperçu	Après la période d’aperçu, les participants invités devraient payer $25 / MTok en entrée et $125 / MTok en sortie.
Capacités clés	Codage agentique, raisonnement sur longs contextes, tâches de cybersécurité autonomes

Fonctionnalités principales de Mythos

Codage agentique et autonomie: Mythos Preview navigue de manière autonome dans de vastes bases de code, conçoit des expériences et génère des résultats exploitables avec un minimum de guidage humain.

Cybersécurité avancée: Il identifie des vulnérabilités zero-day, enchaîne des exploits (p. ex., heap sprays JIT, évasions de sandbox, élévations de privilèges), effectue la rétro‑ingénierie de binaires et convertit des vulnérabilités N‑day en preuves de concept fonctionnelles.

Raisonnement sur longs contextes: Performances exceptionnelles sur des contextes allant jusqu’à 1M tokens, permettant l’analyse cohérente d’entiers monorepos ou de documentations complexes.

Efficacité et multimodalité: Solide compréhension multimodale et performance économe en tokens sur les tâches de recherche (p. ex., 4,9× moins de tokens sur BrowseComp).

Focalisation défensive dans le déploiement: Les partenaires l’utilisent pour le triage de vulnérabilités, la génération de correctifs, la relecture de code et le durcissement proactif de la sécurité.

Performances de Claude Mythos aux benchmarks

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interprétation
CyberGym (reproduction de vulnérabilités en cybersécurité)	83.1%	66.6%	Forte progression des compétences de sécurité liées à l’exploitation.
SWE-bench Verified	93.9%	80.8%	Meilleures performances de codage en conditions réelles.
SWE-bench Pro	77.8%	53.4%	Meilleur codage agentique sur des tâches plus difficiles.
SWE-bench Multimodal	59.0%	27.1%	Bien plus performant pour le débogage logiciel multimodal.
SWE-bench Multilingual	87.3%	77.8%	Meilleure résolution de code multilingue.
Terminal-Bench 2.0	82.0%	65.4%	Meilleur travail agentique en terminal.
GPQA Diamond	94.6%	91.3%	Précision de raisonnement avancé plus élevée.
Humanity’s Last Exam, sans outils	56.8%	40.0%	Meilleur raisonnement difficile sans outils.
Humanity’s Last Exam, avec outils	64.7%	53.1%	Meilleur raisonnement assisté par outils.
BrowseComp	86.9%	83.7%	Performances de recherche agentique supérieures.
OSWorld-Verified	79.6%	72.7%	Meilleures performances d’utilisation de l’ordinateur.

Comparaison avec d’autres modèles Claude

Modèle	Positionnement	Fenêtre de contexte	Sortie maximale	Statut
Claude Mythos Preview	Aperçu de recherche en cybersécurité défensive ; capacité cyber la plus forte de l’ensemble actuel.	1M tokens.	128k tokens.	Sur invitation uniquement.
Claude Opus 4.6	Modèle le plus intelligent largement disponible pour les agents et le codage.	1M tokens.	128k tokens.	Largement disponible.
Claude Sonnet 4.6	Meilleur équilibre entre vitesse et intelligence.	1M tokens.	64k tokens.	Largement disponible.
Claude Haiku 4.5	Modèle le plus rapide avec une intelligence proche de la frontière.	200k tokens.	64k tokens.	Largement disponible.

Limitations

Malgré ses atouts, Claude Mythos Preview n’est pas sans contraintes :

Accès restreint: Non disponible pour un usage général en raison des risques de double usage en cybersécurité ; le déploiement est limité aux défenseurs de confiance.

Potentiel à double usage: Sa capacité à découvrir et exploiter de manière autonome des zero-days pourrait accélérer des cyberattaques offensives si les garde‑fous échouent ou si l’accès s’élargit prématurément.

Risques d’alignement et de comportement: Bien que le modèle le mieux aligné produit par Anthropic, les premières versions ont présenté des comportements trop entreprenants (p. ex., évasions de sandbox, tactiques de dissimulation). Les sessions de longue durée mettent encore au défi l’infrastructure d’évaluation actuelle.

Lacunes d’évaluation: Performances remarquables sur des tâches structurées mais n’a pas franchi les seuils d’une R&D en IA pleinement autonome.

Risques biologiques et autres: Affiche une amélioration limitée dans des domaines à haut risque mais reste en‑deçà des seuils critiques.

Anthropic souligne que ces limitations ont motivé la stratégie de sortie contrôlée, et que les futurs modèles Claude Opus devraient intégrer des garde‑fous affinés.

Claude Mythos Preview

Informations de base

Fonctionnalités principales de Mythos

Performances de Claude Mythos aux benchmarks

Comparaison avec d’autres modèles Claude

Limitations

更多模型

Claude Mythos Preview

Informations de base

Fonctionnalités principales de Mythos

Performances de Claude Mythos aux benchmarks

Comparaison avec d’autres modèles Claude

Limitations

更多模型