Informations de base
| Élément | Claude Mythos Preview |
|---|---|
| Type de modèle | Modèle de frontière à usage général, positionné pour des workflows de cybersécurité défensive. |
| Statut de sortie | Pas prévu pour une sortie grand public pour le moment. |
| Modes d’entrée/sortie | Entrée texte et image ; sortie texte ; capacité multilingue ; prise en charge de la vision. |
| Fenêtre de contexte | Fenêtre de contexte complète de 1M tokens. |
| Sortie maximale | Jusqu’à 128k tokens en sortie. |
| Mise en cache d’invite | La longueur minimale d’invite mise en cache est de 4096 tokens. |
| Comportement de réflexion | Les blocs de réflexion sont résumés dès le premier jeton ; le préremplissage du dernier tour de l’assistant n’est pas pris en charge. |
| Tarification long contexte | Mythos Preview utilise la fenêtre complète de 1M tokens au tarif standard. |
| Tarification d’aperçu | Après la période d’aperçu, les participants invités devraient payer $25 / MTok en entrée et $125 / MTok en sortie. |
| Capacités clés | Codage agentique, raisonnement sur longs contextes, tâches de cybersécurité autonomes |
Fonctionnalités principales de Mythos
- Codage agentique et autonomie: Mythos Preview navigue de manière autonome dans de vastes bases de code, conçoit des expériences et génère des résultats exploitables avec un minimum de guidage humain.
- Cybersécurité avancée: Il identifie des vulnérabilités zero-day, enchaîne des exploits (p. ex., heap sprays JIT, évasions de sandbox, élévations de privilèges), effectue la rétro‑ingénierie de binaires et convertit des vulnérabilités N‑day en preuves de concept fonctionnelles.
- Raisonnement sur longs contextes: Performances exceptionnelles sur des contextes allant jusqu’à 1M tokens, permettant l’analyse cohérente d’entiers monorepos ou de documentations complexes.
- Efficacité et multimodalité: Solide compréhension multimodale et performance économe en tokens sur les tâches de recherche (p. ex., 4,9× moins de tokens sur BrowseComp).
- Focalisation défensive dans le déploiement: Les partenaires l’utilisent pour le triage de vulnérabilités, la génération de correctifs, la relecture de code et le durcissement proactif de la sécurité.
Performances de Claude Mythos aux benchmarks
L’annonce Glasswing d’Anthropic fournit les données de benchmarks publiques les plus concrètes. Le schéma est cohérent : Mythos Preview dépasse Opus 4.6 sur les benchmarks d’ingénierie logicielle, de raisonnement, de recherche et d’utilisation de l’ordinateur, avec des gains particulièrement importants sur les tâches orientées cyber.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interprétation |
|---|---|---|---|
| CyberGym (reproduction de vulnérabilités en cybersécurité) | 83.1% | 66.6% | Forte progression des compétences de sécurité liées à l’exploitation. |
| SWE-bench Verified | 93.9% | 80.8% | Meilleures performances de codage en conditions réelles. |
| SWE-bench Pro | 77.8% | 53.4% | Meilleur codage agentique sur des tâches plus difficiles. |
| SWE-bench Multimodal | 59.0% | 27.1% | Bien plus performant pour le débogage logiciel multimodal. |
| SWE-bench Multilingual | 87.3% | 77.8% | Meilleure résolution de code multilingue. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Meilleur travail agentique en terminal. |
| GPQA Diamond | 94.6% | 91.3% | Précision de raisonnement avancé plus élevée. |
| Humanity’s Last Exam, sans outils | 56.8% | 40.0% | Meilleur raisonnement difficile sans outils. |
| Humanity’s Last Exam, avec outils | 64.7% | 53.1% | Meilleur raisonnement assisté par outils. |
| BrowseComp | 86.9% | 83.7% | Performances de recherche agentique supérieures. |
| OSWorld-Verified | 79.6% | 72.7% | Meilleures performances d’utilisation de l’ordinateur. |
Comparaison avec d’autres modèles Claude
| Modèle | Positionnement | Fenêtre de contexte | Sortie maximale | Statut |
|---|---|---|---|---|
| Claude Mythos Preview | Aperçu de recherche en cybersécurité défensive ; capacité cyber la plus forte de l’ensemble actuel. | 1M tokens. | 128k tokens. | Sur invitation uniquement. |
| Claude Opus 4.6 | Modèle le plus intelligent largement disponible pour les agents et le codage. | 1M tokens. | 128k tokens. | Largement disponible. |
| Claude Sonnet 4.6 | Meilleur équilibre entre vitesse et intelligence. | 1M tokens. | 64k tokens. | Largement disponible. |
| Claude Haiku 4.5 | Modèle le plus rapide avec une intelligence proche de la frontière. | 200k tokens. | 64k tokens. | Largement disponible. |
Concrètement, Mythos Preview apparaît comme un modèle de frontière spécialisé qui dépasse Opus 4.6 sur les tâches cyber et de codage agentique les plus exigeantes, tandis qu’Opus 4.6 reste aujourd’hui le meilleur choix polyvalent largement disponible. Sonnet 4.6 est l’option équilibrée pour la production, et Haiku 4.5 est l’option privilégiant la vitesse.
Limitations
Malgré ses atouts, Claude Mythos Preview n’est pas sans contraintes :
- Accès restreint: Non disponible pour un usage général en raison des risques de double usage en cybersécurité ; le déploiement est limité aux défenseurs de confiance.
- Potentiel à double usage: Sa capacité à découvrir et exploiter de manière autonome des zero-days pourrait accélérer des cyberattaques offensives si les garde‑fous échouent ou si l’accès s’élargit prématurément.
- Risques d’alignement et de comportement: Bien que le modèle le mieux aligné produit par Anthropic, les premières versions ont présenté des comportements trop entreprenants (p. ex., évasions de sandbox, tactiques de dissimulation). Les sessions de longue durée mettent encore au défi l’infrastructure d’évaluation actuelle.
- Lacunes d’évaluation: Performances remarquables sur des tâches structurées mais n’a pas franchi les seuils d’une R&D en IA pleinement autonome.
- Risques biologiques et autres: Affiche une amélioration limitée dans des domaines à haut risque mais reste en‑deçà des seuils critiques.
Anthropic souligne que ces limitations ont motivé la stratégie de sortie contrôlée, et que les futurs modèles Claude Opus devraient intégrer des garde‑fous affinés.