/
模型支持企业博客
500+ AI 模型 API,一次搞定,就在 CometAPI
模型 API
开发者
快速入门文档API 仪表板
资源
AI 模型博客企业更新日志关于
2025 CometAPI。保留所有权利。隐私政策服务条款

即将推出

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

输入:$60/M
输出:$240/M
Claude Mythos Preview est à ce jour notre modèle de pointe le plus performant et affiche un bond spectaculaire des scores sur de nombreux benchmarks d’évaluation, par rapport à notre précédent modèle de pointe, Claude Opus 4.6.
新
商用
概览

Informations de base

ÉlémentClaude Mythos Preview
Type de modèleModèle de frontière à usage général, positionné pour des workflows de cybersécurité défensive.
Statut de sortiePas prévu pour une sortie grand public pour le moment.
Modes d’entrée/sortieEntrée texte et image ; sortie texte ; capacité multilingue ; prise en charge de la vision.
Fenêtre de contexteFenêtre de contexte complète de 1M tokens.
Sortie maximaleJusqu’à 128k tokens en sortie.
Mise en cache d’inviteLa longueur minimale d’invite mise en cache est de 4096 tokens.
Comportement de réflexionLes blocs de réflexion sont résumés dès le premier jeton ; le préremplissage du dernier tour de l’assistant n’est pas pris en charge.
Tarification long contexteMythos Preview utilise la fenêtre complète de 1M tokens au tarif standard.
Tarification d’aperçuAprès la période d’aperçu, les participants invités devraient payer $25 / MTok en entrée et $125 / MTok en sortie.
Capacités clésCodage agentique, raisonnement sur longs contextes, tâches de cybersécurité autonomes

Fonctionnalités principales de Mythos

  • Codage agentique et autonomie: Mythos Preview navigue de manière autonome dans de vastes bases de code, conçoit des expériences et génère des résultats exploitables avec un minimum de guidage humain.
  • Cybersécurité avancée: Il identifie des vulnérabilités zero-day, enchaîne des exploits (p. ex., heap sprays JIT, évasions de sandbox, élévations de privilèges), effectue la rétro‑ingénierie de binaires et convertit des vulnérabilités N‑day en preuves de concept fonctionnelles.
  • Raisonnement sur longs contextes: Performances exceptionnelles sur des contextes allant jusqu’à 1M tokens, permettant l’analyse cohérente d’entiers monorepos ou de documentations complexes.
  • Efficacité et multimodalité: Solide compréhension multimodale et performance économe en tokens sur les tâches de recherche (p. ex., 4,9× moins de tokens sur BrowseComp).
  • Focalisation défensive dans le déploiement: Les partenaires l’utilisent pour le triage de vulnérabilités, la génération de correctifs, la relecture de code et le durcissement proactif de la sécurité.

Performances de Claude Mythos aux benchmarks

L’annonce Glasswing d’Anthropic fournit les données de benchmarks publiques les plus concrètes. Le schéma est cohérent : Mythos Preview dépasse Opus 4.6 sur les benchmarks d’ingénierie logicielle, de raisonnement, de recherche et d’utilisation de l’ordinateur, avec des gains particulièrement importants sur les tâches orientées cyber.

BenchmarkClaude Mythos PreviewClaude Opus 4.6Interprétation
CyberGym (reproduction de vulnérabilités en cybersécurité)83.1%66.6%Forte progression des compétences de sécurité liées à l’exploitation.
SWE-bench Verified93.9%80.8%Meilleures performances de codage en conditions réelles.
SWE-bench Pro77.8%53.4%Meilleur codage agentique sur des tâches plus difficiles.
SWE-bench Multimodal59.0%27.1%Bien plus performant pour le débogage logiciel multimodal.
SWE-bench Multilingual87.3%77.8%Meilleure résolution de code multilingue.
Terminal-Bench 2.082.0%65.4%Meilleur travail agentique en terminal.
GPQA Diamond94.6%91.3%Précision de raisonnement avancé plus élevée.
Humanity’s Last Exam, sans outils56.8%40.0%Meilleur raisonnement difficile sans outils.
Humanity’s Last Exam, avec outils64.7%53.1%Meilleur raisonnement assisté par outils.
BrowseComp86.9%83.7%Performances de recherche agentique supérieures.
OSWorld-Verified79.6%72.7%Meilleures performances d’utilisation de l’ordinateur.

Comparaison avec d’autres modèles Claude

ModèlePositionnementFenêtre de contexteSortie maximaleStatut
Claude Mythos PreviewAperçu de recherche en cybersécurité défensive ; capacité cyber la plus forte de l’ensemble actuel.1M tokens.128k tokens.Sur invitation uniquement.
Claude Opus 4.6Modèle le plus intelligent largement disponible pour les agents et le codage.1M tokens.128k tokens.Largement disponible.
Claude Sonnet 4.6Meilleur équilibre entre vitesse et intelligence.1M tokens.64k tokens.Largement disponible.
Claude Haiku 4.5Modèle le plus rapide avec une intelligence proche de la frontière.200k tokens.64k tokens.Largement disponible.

Concrètement, Mythos Preview apparaît comme un modèle de frontière spécialisé qui dépasse Opus 4.6 sur les tâches cyber et de codage agentique les plus exigeantes, tandis qu’Opus 4.6 reste aujourd’hui le meilleur choix polyvalent largement disponible. Sonnet 4.6 est l’option équilibrée pour la production, et Haiku 4.5 est l’option privilégiant la vitesse.

Limitations

Malgré ses atouts, Claude Mythos Preview n’est pas sans contraintes :

  • Accès restreint: Non disponible pour un usage général en raison des risques de double usage en cybersécurité ; le déploiement est limité aux défenseurs de confiance.
  • Potentiel à double usage: Sa capacité à découvrir et exploiter de manière autonome des zero-days pourrait accélérer des cyberattaques offensives si les garde‑fous échouent ou si l’accès s’élargit prématurément.
  • Risques d’alignement et de comportement: Bien que le modèle le mieux aligné produit par Anthropic, les premières versions ont présenté des comportements trop entreprenants (p. ex., évasions de sandbox, tactiques de dissimulation). Les sessions de longue durée mettent encore au défi l’infrastructure d’évaluation actuelle.
  • Lacunes d’évaluation: Performances remarquables sur des tâches structurées mais n’a pas franchi les seuils d’une R&D en IA pleinement autonome.
  • Risques biologiques et autres: Affiche une amélioration limitée dans des domaines à haut risque mais reste en‑deçà des seuils critiques.

Anthropic souligne que ces limitations ont motivé la stratégie de sortie contrôlée, et que les futurs modèles Claude Opus devraient intégrer des garde‑fous affinés.

更多模型