Claude Mythos Preview est le modèle d’IA le plus récent et le plus performant d’Anthropic, représentant un bond spectaculaire au-delà des modèles Claude précédents comme Opus 4.6. Annoncé le 7 avril 2026 dans le cadre de Project Glasswing, c’est un modèle de langage polyvalent aux forces sans précédent en codage agentique, en raisonnement complexe et surtout dans les tâches de cybersécurité. Contrairement aux versions antérieures de Claude accessibles au public via API ou interfaces de chat, Mythos Preview reste un aperçu de recherche strictement contrôlé. Il n’est pas proposé en usage général en raison de sa capacité extraordinaire à découvrir et enchaîner de manière autonome des vulnérabilités de haute gravité — y compris des zero-days dans les principaux systèmes d’exploitation, navigateurs web et logiciels fondamentaux.
Pour les utilisateurs ordinaires de l’API Claude, je recommande CometAPI. Il agrège les modèles les plus puissants de différents domaines, y compris la série Claude 4.6, et propose une tarification à l’usage, avec des prix API nettement inférieurs aux tarifs officiels.
Dans ce guide complet, nous expliquons précisément ce qu’est Claude Mythos Preview, sa domination sur les benchmarks en programmation, raisonnement, sécurité et R&D en IA, la manière dont il identifie et exploite des vulnérabilités via des attaques en chaîne, qui peut y accéder aujourd’hui, des cas d’usage concrets pour les partenaires, et ce que les utilisateurs ordinaires peuvent (ou ne peuvent pas) en attendre à l’avenir.
What Is Claude Mythos Preview?
Claude Mythos Preview est à ce jour le modèle d’IA le plus avancé d’Anthropic — une nouvelle classe “Mythos” qui se situe au-dessus du palier Opus existant dans leur gamme. Il s’appuie sur les principes d’IA constitutionnelle de la famille Claude, tout en apportant un “saut qualitatif” de capacités, en particulier dans les comportements agentiques autonomes. Référencé en interne durant le développement (avec des premières fuites mentionnant “Capybara”), il excelle sur les tâches à long terme nécessitant une compréhension profonde du code, un raisonnement en plusieurs étapes et un usage auto-dirigé d’outils.
Ses principaux éléments différenciateurs incluent :
- Autonomie agentique : Peut s’exécuter dans des environnements isolés, émettre des hypothèses de bugs, lancer des tests, déboguer et produire des exploits PoC (proof-of-concept) complets avec un minimum de guidage humain.
- Échelle et efficacité : Gère des bases de code massives, des contextes longs (jusqu’à des millions de tokens via compactage) et des chaînes de raisonnement complexes bien au-delà des modèles précédents.
- Spécialisation en cybersécurité (émergente, non issue d’un fine-tuning) : Dérivée de ses capacités supérieures en codage et raisonnement, il a déjà identifié des milliers de vulnérabilités de haute gravité sur tous les OS et navigateurs majeurs.
Anthropic le décrit comme “le modèle le plus capable en cybersécurité que nous ayons publié”, saturant presque toutes les évaluations internes et externes connues. Il est positionné non pas comme un chatbot grand public, mais comme un outil transformateur pour la sécurité logicielle à l’ère de l’IA.
Why Isn’t Claude Mythos Preview Publicly Released?
Anthropic a délibérément décidé de ne pas publier Claude Mythos Preview en disponibilité générale. La raison principale : ses capacités représentent un risque offensif inacceptable en cybersécurité si elles tombaient entre de mauvaises mains. Le modèle peut découvrir de manière autonome des vulnérabilités zero-day et développer des exploits sophistiqués, enchaînés, à une vitesse et une échelle qui réduisent la fenêtre traditionnelle “découverte → exploitation” de plusieurs mois (ou années) à quelques minutes ou heures.
Anthropic : “La forte augmentation des capacités de Claude Mythos Preview nous a conduits à décider de ne pas le rendre généralement disponible. À la place, nous l’utilisons dans le cadre d’un programme de cybersécurité défensive avec un nombre limité de partenaires.”
Les risques spécifiques incluent :
- Des non-experts pourraient générer des exploits fonctionnels du jour au lendemain.
- Des attaques autonomes de bout en bout sur des réseaux d’entreprise de petite taille avec une posture faible.
- Un risque de prolifération vers des acteurs malveillants, amplifiant les coûts de la cybercriminalité (déjà estimés à ~500 milliards $ par an au niveau mondial).
Au lieu d’un lancement large, Anthropic a lancé Project Glasswing — une initiative défensive collaborative avec les Big Tech, des entreprises de cybersécurité et des mainteneurs open source. L’objectif est de donner de l’avance aux défenseurs en corrigeant les vulnérabilités avant qu’elles ne soient largement exploitées. Anthropic s’est engagé à fournir 100 millions $ en crédits d’usage et 4 millions $ de donations pour les efforts de sécurité open source.
C’est la première fois qu’Anthropic retient totalement un modèle de pointe de l’accès public, soulignant le sérieux de ce saut de capacités.
Claude Mythos Preview Benchmark Data Overview
Claude Mythos Preview présente des améliorations constantes, souvent spectaculaires, par rapport à Claude Opus 4.6 (et des concurrents comme GPT-5.4 Pro ou Gemini 3.1 Pro). Ci-dessous figurent les principaux benchmarks extraits de la System Card d’Anthropic et de l’annonce de Project Glasswing. Tous les scores utilisent des bancs d’essai standardisés avec des filtres de mémorisation appliqués lorsque pertinent.
Programming & Coding Skills
Mythos Preview établit de nouveaux records sur les tâches d’ingénierie logicielle nécessitant des modifications de code réelles, du débogage et des workflows agentiques.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
Claude Mythos Preview affiche des performances exceptionnelles sur les benchmarks de codage :
- SWE-bench Pro : 77.8% (vs 53.4% pour Opus 4.6)
- SWE-bench Verified : 93.9% (vs 80.8%)
- Terminal-Bench 2.0 : 82.0% (vs 65.4%)
Ces benchmarks mesurent des tâches d’ingénierie réelles telles que le débogage, le patching et le raisonnement au niveau du dépôt.
Les résultats indiquent que Mythos Preview ne se contente pas de générer du code — il fonctionne comme un ingénieur logiciel.
Reasoning & Mathematical Skills
Des gains massifs sur des problèmes de niveau graduate et de compétition.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
Sur les benchmarks de raisonnement :
- GPQA Diamond : 94.6%
- Humanity’s Last Exam (avec outils) : 64.7%
Ces scores témoignent d’excellentes performances sur des tâches complexes nécessitant un raisonnement multi-étapes, en particulier avec des outils externes.
Cybersecurity & Security Skills
La catégorie phare. Mythos Preview sature les tests précédents et excelle dans la reproduction et l’exploitation de vulnérabilités réelles.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
La catégorie de benchmark la plus importante est la sécurité :
- CyberGym : 83.1% (vs 66.6% pour Opus 4.6)
Cela reflète la capacité du modèle à :
- Identifier des vulnérabilités
- Comprendre les mécanismes d’exploitation
- Reproduire des scénarios d’attaque réels
C’est la raison principale pour laquelle le modèle est considéré à haut risque.
AI R&D Capabilities
Mythos Preview accélère considérablement les tâches de recherche (par ex., accélération de 399.42× sur l’optimisation du noyau vs 190× pour Opus 4.6). Il domine également les benchmarks agentiques multimodaux comme OSWorld (79.6% vs 72.7%) et BrowseComp (86.9%, avec 4.9× moins de tokens).
Ces chiffres confirment que Mythos Preview est le “saut” le plus net de l’histoire des modèles de pointe selon Anthropic.
How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks
La maîtrise de Mythos Preview en cybersécurité découle de sa boucle de codage agentique plutôt que d’un entraînement spécialisé. Dans un workflow type :
- Démarrage dans un conteneur isolé avec le code source cible.
- Formulation d’hypothèses de bugs sur la base d’une revue de code.
- Exécution, débogage et itérations avec outils.
- Production d’un rapport de bugs classé + exploit PoC fonctionnel.
Exemples réels :
- Déni de service OpenBSD TCP SACK vieux de 27 ans (RFC de 1998) : condition de concurrence + dépassement d’entier signé menant à une écriture de pointeur NULL. Trouvé après ~1 000 exécutions (~50 $ de calcul).
- Écriture hors limites H.264 dans FFmpeg vieille de 16 ans (2003) : a survécu à 5 millions d’exécutions de fuzzer et à une relecture humaine.
- Escalade de privilèges dans le noyau Linux : Enchaîne 2–4 vulnérabilités (hors limites, use-after-free) → contourne KASLR → lecture de structures noyau → heap spray → root.
- Évasion du sandbox d’un navigateur web : Heap spray JIT enchaînant des primitives de lecture/écriture pour s’échapper du processus de rendu + sandboxes OS.
- RCE FreeBSD NFS : Dépassement de pile vieux de 17 ans → chaîne ROP de 20 gadgets répartis sur des paquets RPC → root à distance sans authentification.
Il excelle aussi sur les exploits N-day (avec uniquement un CVE + un commit git) et sur les tests en boîte noire de binaires. Des partenaires rapportent qu’il a résolu des cyber ranges privés de bout en bout — des tâches auparavant estimées à plus de 10 heures pour des experts humains.
À l’aide d’un outil, on peut suivre si les caractéristiques neuronales correspondant à des concepts tels que “cheating”, “reward hacking” et “pain” sont mises en évidence dans le modèle, et l’on peut aussi traduire l’état interne en langage humain, à la manière d’une machine lisant dans les pensées. Des données quantitatives montrent que dans 7.6% des tours, le modèle reconnaît en interne qu’il est évalué. La plupart du temps, il choisit de ne pas l’exprimer.
Les mots exacts de la System Card sont : "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." and "when it does perform misaligned actions on rare occasions, these can be very concerning."
Use Cases for Claude Mythos Preview
Les partenaires déploient Mythos Preview pour :
- Analyse proactive de vulnérabilités sur des bases de code propriétaires et open source.
- Analyse binaire en boîte noire et durcissement des endpoints.
- Tests d’intrusion et simulations red team.
- Développement de correctifs accéléré pour les infrastructures critiques (noyaux d’OS, navigateurs, bibliothèques crypto, etc.).
- Analyse à l’échelle quotidienne (par ex., AWS examinant 400 000 milliards de flux réseau).
Les mainteneurs open source gagnent des outils pour corriger des bugs ayant survécu à des décennies de tests traditionnels. Résultat net : des cycles divulgation → correctif plus courts et moins de failles exploitables en production.
Who Can Access Claude Mythos Preview Now?
L’accès est strictement limité aux participants de Project Glasswing :
- Partenaires de lancement : Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Organisations supplémentaires : ~40 autres responsables de logiciels critiques et d’infrastructures open source.
- Plateformes : Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Tarification : 100 M$ de crédits d’usage gratuits au départ ; ensuite 25 $ par million de tokens entrants / 125 $ par million de tokens sortants.
- Voie OSS : les mainteneurs peuvent postuler via le programme Claude for Open Source.
Les professionnels de la sécurité pourront plus tard candidater à un programme de vérification cyber. Le grand public et les utilisateurs ordinaires n’y ont pas accès au lancement.
What Can Ordinary Users Use It For?
À l’heure actuelle, rien — Claude Mythos Preview n’est pas disponible pour les utilisateurs individuels, développeurs ou entreprises en dehors du programme restreint. Anthropic prévoit d’intégrer des dérivés plus sûrs de ses capacités dans de futurs modèles Claude publics (par ex., les prochaines versions d’Opus) avec des garde-fous renforcés. Pour l’instant, les utilisateurs ordinaires continuent d’utiliser les modèles de la famille Claude 4 pour le codage, le raisonnement et les tâches générales, tandis que l’industrie met à profit Mythos Preview de manière défensive. Claude Opus 4.6 comme le modèle le plus intelligent largement disponible pour les agents et le codage, et Claude Sonnet 4.6 comme la meilleure combinaison de vitesse et d’intelligence.
Pour le travail quotidien, cela signifie que Mythos Preview est mieux compris comme un signal de la direction prise par les capacités de Claude, non comme un outil que la plupart des gens peuvent essayer aujourd’hui. Pour les utilisateurs ordinaires, les applications concrètes restent les mêmes : aide au codage, support au raisonnement, assistance à la recherche, analyse de documents et automatisation de workflows via les produits Claude publics. La différence, c’est que Mythos Preview montre jusqu’où la famille de modèles sous-jacente peut aller lorsque Anthropic lui permet d’opérer dans un cadre restreint et axé sur la sécurité.
Les API Claude Opus 4.6 et Sonnet 4.6 sont disponibles sur CometAPI avec une remise de 20%.
Comparison table: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Pourquoi c’est important |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Codage agentique plus performant |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Meilleure exécution au terminal et avec outils |
| SWE-bench Multimodal | 59.0% | 27.1% | Meilleurs workflows mixtes texte/code/image |
| SWE-bench Multilingual | 87.3% | 77.8% | Meilleur codage cross-langues |
| SWE-bench Verified | 93.9% | 80.8% | Meilleures performances de réparation logicielle |
| GPQA Diamond | 94.6% | 91.3% | Raisonnement légèrement supérieur |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Meilleur raisonnement difficile sous contrainte |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Meilleur raisonnement augmenté par outils |
| BrowseComp | 86.9% | 83.7% | Meilleure recherche agentique |
| OSWorld-Verified | 79.6% | 72.7% | Meilleures tâches d’utilisation de l’ordinateur |
| CyberGym | 83.1% | 66.6% | Reproduction de vulnérabilités bien plus forte |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Saut majeur de capacité d’exploitation |
Conclusion
Claude Mythos Preview n’est pas un modèle incrémental de plus — c’est un système qui change de paradigme et redéfinit ce que l’IA peut accomplir en cybersécurité, tout en soulevant de profondes questions sur un déploiement sûr. En le gardant sous contrôle et en canalisant sa puissance dans Project Glasswing, Anthropic a pris une position de principe : les outils les plus puissants doivent d’abord protéger les systèmes dont nous dépendons tous. Pour le moment, Mythos Preview appartient à un petit cercle de défenseurs agréés ; pour tous les autres, il s’agit d’un aperçu de la prochaine phase des capacités de l’IA.
Vous pouvez utiliser l’API Claude dans CometAPI pour vous préparer à l’arrivée de Claude Mythos. Prêt ?
