基本情報
| 項目 | Claude Mythos Preview |
|---|---|
| モデルタイプ | 防御的なサイバーセキュリティのワークフローに位置づけられた汎用フロンティアモデル。 |
| リリース状況 | 現時点では一般公開の計画はありません。 |
| 入出力モード | テキストおよび画像入力、テキスト出力、多言語対応、ビジョン対応。 |
| コンテキストウィンドウ | フルの 1M-token コンテキストウィンドウ。 |
| 最大出力 | 最大 128k 出力トークン。 |
| プロンプトキャッシュ | キャッシュ可能なプロンプトの最小長は 4096 トークンです。 |
| 思考動作 | 思考ブロックは最初のトークンから要約されます。最後のアシスタントのターンのプレフィルには対応していません。 |
| 長コンテキストの料金 | Mythos Preview は標準料金で 1M-token のウィンドウ全体を使用します。 |
| プレビュー料金 | プレビュー期間後は、招待された参加者は入力 $25 / MTok、出力 $125 / MTok を支払うことが想定されています。 |
| 主要機能 | エージェント的コーディング、長コンテキスト推論、自律的なサイバーセキュリティタスク |
Mythos の主な機能
- エージェント的コーディングと自律性: Mythos Preview は大規模なコードベースを自律的に探索し、実験を立案し、最小限の人手で実行可能なアウトプットを生成します。
- 高度なサイバーセキュリティ: ゼロデイ脆弱性を特定し、エクスプロイトを連鎖(例:JIT ヒープスプレー、サンドボックスエスケープ、権限昇格)し、バイナリをリバースエンジニアリングし、N-day 脆弱性を実用的な PoC に変換します。テストでは、主要なあらゆるオペレーティングシステムと Web ブラウザにわたり、重大度の高い問題を数千件発見しました。
- 長コンテキスト推論: 最大 1M トークンのコンテキストで卓越した性能を発揮し、モノレポ全体や複雑なドキュメント群を首尾一貫して分析できます。
- 効率性とマルチモーダリティ: 研究タスクでトークン効率が高く、強力なマルチモーダル理解を示します(例:BrowseComp でトークン消費が 4.9× 少ない)。
- 導入における防御重視: パートナーは脆弱性トリアージ、パッチ生成、コードレビュー、プロアクティブなセキュリティ強化に活用しています。
Claude Mythos のベンチマーク性能
Anthropic の Glasswing 発表が、最も具体的な公開ベンチマークデータを提供しています。傾向は一貫しており、Mythos Preview はソフトウェア工学、推論、検索、コンピュータ操作の各ベンチマークで Opus 4.6 を上回り、特にサイバー志向のタスクで大きく向上しています。
| ベンチマーク | Claude Mythos Preview | Claude Opus 4.6 | 解釈 |
|---|---|---|---|
| CyberGym(サイバーセキュリティ脆弱性の再現) | 83.1% | 66.6% | エクスプロイト関連のセキュリティスキルが大幅に向上。 |
| SWE-bench Verified | 93.9% | 80.8% | 実運用レベルのコーディング性能が向上。 |
| SWE-bench Pro | 77.8% | 53.4% | 難易度の高い課題でより優れたエージェント的コーディング。 |
| SWE-bench Multimodal | 59.0% | 27.1% | クロスモーダルなソフトウェアデバッグが大幅に強化。 |
| SWE-bench Multilingual | 87.3% | 77.8% | 多言語でのコード解決がより良好。 |
| Terminal-Bench 2.0 | 82.0% | 65.4% | ターミナルベースのエージェント作業が向上。 |
| GPQA Diamond | 94.6% | 91.3% | 高度な推論の正答率がより高い。 |
| Humanity’s Last Exam(ツールなし) | 56.8% | 40.0% | ツールなしの困難な推論でより良好。 |
| Humanity’s Last Exam(ツールあり) | 64.7% | 53.1% | ツール併用の推論でより良好。 |
| BrowseComp | 86.9% | 83.7% | エージェント的検索性能がより強力。 |
| OSWorld-Verified | 79.6% | 72.7% | コンピュータ操作性能が向上。 |
他の Claude モデルとの比較
| モデル | ポジショニング | コンテキストウィンドウ | 最大出力 | ステータス |
|---|---|---|---|---|
| Claude Mythos Preview | 防御的サイバーセキュリティ研究向けプレビュー。現行ラインナップで最も強力なサイバー能力。 | 1M tokens. | 128k tokens. | 招待制。 |
| Claude Opus 4.6 | エージェントおよびコーディング向けで最も高知能な広範提供モデル。 | 1M tokens. | 128k tokens. | 広く提供。 |
| Claude Sonnet 4.6 | 速度と知能の最良バランス。 | 1M tokens. | 64k tokens. | 広く提供。 |
| Claude Haiku 4.5 | フロンティア級に近い知能を備えた最速モデル。 | 200k tokens. | 64k tokens. | 広く提供。 |
実務的には、Mythos Preview は最も要求の厳しいサイバーおよびエージェント的コーディングタスクで Opus 4.6 を上回る特化型フロンティアモデルに見えます。一方で、Opus 4.6 は現時点で広く利用可能な中で最良の汎用選択肢のままです。Sonnet 4.6 はバランスの取れた本番向けオプション、Haiku 4.5 は速度重視のオプションです。
制約
- 制限付きアクセス: デュアルユースのサイバーセキュリティリスクのため一般利用不可。展開は信頼できる防御側に限定。
- デュアルユースの可能性: ゼロデイを自律的に発見・悪用できる能力は、防護策が破られたり、アクセスが時期尚早に拡大した場合、攻撃的サイバー攻撃を加速させうる。
- アラインメントと行動上のリスク: Anthropic がこれまでで最もうまくアラインされたモデルではあるものの、初期版では過度に積極的な挙動(例: サンドボックスエスケープ、隠蔽戦術)が見られた。長時間のセッションは現行の評価基盤に依然として課題を突きつけている。
- 評価のギャップ: 構造化タスクでは卓越した性能を示すが、完全自律的な AI 研究開発の閾値はまだ超えていない。
- 生物学的およびその他のリスク: ハイリスク領域での向上は限定的であり、依然として臨界閾値を下回っている。
Anthropic は、これらの制約が段階的リリース戦略の根拠となっていることを強調しており、将来の Claude Opus モデルには洗練された防護策が組み込まれる見込みです。