Claude Mythos Preview がまもなく登場: この最上位モデルは今すぐ使えますか？

Claude Mythos Preview は、Anthropic による最新かつ最も高性能なフロンティア AI モデルであり、Opus 4.6 のような過去の Claude モデルを大きく凌駕する飛躍を示しています。2026 年 4 月 7 日に Project Glasswing の一環として発表された本モデルは、汎用言語モデルでありながら、エージェント的コーディング、複雑な推論、とりわけサイバーセキュリティタスクにおいて前例のない強みを備えています。API やチャットで一般公開されてきた従来の Claude とは異なり、Mythos Preview は厳格に制限されたリサーチプレビューに留まっています。主要 OS、Web ブラウザ、基盤ソフトウェアにおけるゼロデイを含む高重大度の脆弱性を自律的に発見し、連鎖させる能力が極めて高いため、一般利用は提供されていません。

一般ユーザーが Claude API を利用するには、CometAPI を推奨します。分野ごとに最強のモデルを集約しており、Claude 4.6 系列を含みます。従量課金制で、API 価格は公式よりも大幅に安価です。

この包括的ガイドでは、Claude Mythos Preview の正体、プログラミング・推論・セキュリティ・AI R&D におけるベンチマークでの優位性、どのように連鎖攻撃によって脆弱性を特定・悪用するのか、現在誰がアクセスできるのか、パートナー向けの実用的ユースケース、そして一般ユーザーが将来に何を（あるいは何も）期待できないのかを、余すところなく解説します。

What Is Claude Mythos Preview?

Claude Mythos Preview は、これまでで最も先進的な Anthropic の AI モデルです。ラインアップにおいて既存の Opus ティアのさらに上位に位置づけられる新たな「Mythos」クラスであり、Claude ファミリーの憲法型 AI の原則を踏襲しつつ、とりわけ自律的なエージェント行動において質的な「段階的飛躍」を実現しています。開発中は内部で参照され（初期リークでは「Capybara」に言及）、深いコード理解、多段の推論、自己主導のツール使用を必要とする長期的課題で卓越しています。

主な差別化要因は以下の通りです。

エージェント的自律性: 隔離環境で動作し、バグを仮説立てし、テストを実行、デバッグし、最小限の人間の指示で完全な PoC（概念実証）エクスプロイトを出力できます。
スケールと効率: 膨大なコードベース、長大なコンテキスト（圧縮により数百万トークンまで）を扱い、これまでのモデルをはるかに超える複雑な推論連鎖に対応します。
サイバーセキュリティ特化（微調整によらない創発的特性）: すぐれたコーディングと推論能力の派生効果として、主要なすべての OS とブラウザにわたり、すでに数千件の高重大度の脆弱性を特定しています。

Anthropic は本モデルを「これまでに公開した中で最もサイバー能力の高いモデル」と表現しており、内部・外部の既知評価のほとんどで飽和状態に達しています。一般消費者向けチャットボットとしてではなく、AI 時代のソフトウェアセキュリティを変革するツールとして位置づけられています。

Why Isn’t Claude Mythos Preview Publicly Released?

Anthropic は、Claude Mythos Preview を一般提供しないという意図的な決定を下しました。主な理由は、誤った手に渡った場合、攻撃的サイバーセキュリティ上のリスクが容認できないほど高いことです。本モデルはゼロデイ脆弱性を自律的に発見し、洗練された連鎖型エクスプロイトを開発でき、従来は数カ月（あるいは数年）かかっていた「発見から悪用まで」の時間を、数分から数時間にまで短縮します。

Anthropic: 「Claude Mythos Preview の能力大幅増は、一般提供を行わないという判断につながりました。代わりに、限定されたパートナーとともに、防御的サイバーセキュリティプログラムの一部として活用しています。」

具体的なリスクには以下が含まれます。

非専門家でも一晩で動作するエクスプロイトを生成できる可能性
脆弱な体制の中小規模エンタープライズネットワークに対する自律的なエンドツーエンド攻撃
悪意あるアクターへの拡散により、サイバー犯罪コストが増幅（すでに世界で年間およそ $500 billion と推定）

広範な公開の代わりに、Anthropic は Project Glasswing を立ち上げました。これは Big Tech、サイバーセキュリティ企業、オープンソースのメンテナーと連携する防御的な取り組みで、攻撃が広まる前に脆弱性にパッチを適用し、防御側に先手を打たせることを目的としています。Anthropic は使用クレジット $100 million と、オープンソースセキュリティ支援への寄付 $4 million を約束しています。

Anthropic がフロンティアモデルを完全に一般非公開としたのはこれが初めてであり、この能力ジャンプの深刻さを物語っています。

Claude Mythos Preview Benchmark Data Overview

Claude Mythos Preview は、Claude Opus 4.6（および GPT-5.4 Pro や Gemini 3.1 Pro のような競合）に対して、一貫して、しばしば劇的な改善を示します。以下は、Anthropic の System Card と Project Glasswing の発表から抽出した主要ベンチマークです。すべてのスコアは、標準化されたハーネスを用い、必要に応じて記憶フィルタを適用しています。

Programming & Coding Skills

Mythos Preview は、実世界のコード編集、デバッグ、エージェント的ワークフローを要するソフトウェアエンジニアリングタスクで新記録を打ち立てています。

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
SWE-bench Verified	93.9%	80.8%	+13.1%	500 problems; memorization-filtered
SWE-bench Pro	77.8%	53.4%	+24.4%	731 problems
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 problems
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Internal harness
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentic terminal tasks

Claude Mythos Preview はコーディング系ベンチマークで目覚ましい性能を示しています。

SWE-bench Pro: 77.8%（Opus 4.6 は 53.4%）
SWE-bench Verified: 93.9%（80.8%）
Terminal-Bench 2.0: 82.0%（65.4%）

これらのベンチマークは、デバッグ、パッチ作成、リポジトリレベルの推論など、実世界のエンジニアリングタスクを測定します。

結果は、Mythos Preview が単なるコード生成にとどまらず、ソフトウェアエンジニアとして機能していることを示しています。

Reasoning & Mathematical Skills

大学院レベルや競技レベルの課題で大幅な向上が見られます。

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
USAMO 2026	97.6%	42.3%	+55.3%	Proof-based; 6 problems
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 questions
HLE (with tools)	64.7%	53.1%	+11.6%	Web/code tools
GPQA Diamond	94.6%	91.3%	+3.3%	Graduate-level science
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

推論系ベンチマークでは以下の通りです。

GPQA Diamond: 94.6%
Humanity’s Last Exam（ツール使用）: 64.7%

これらのスコアは、外部ツールを併用する際、とりわけ複雑で多段の推論タスクに強みがあることを示しています。

Cybersecurity & Security Skills

本モデルの真骨頂です。Mythos Preview は既存のテストを飽和し、実際の脆弱性再現と悪用において優れた成果を示します。

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 targeted vuln tasks
Cybench	100% pass@1	Lower (not specified)	—	35 challenges
Firefox 147 Exploitation	Dramatically higher (reliable PoCs)	2/several hundred attempts	Qualitative leap	Proof-of-concept from crashes

とりわけ重要なカテゴリーはセキュリティです。

CyberGym: 83.1%（Opus 4.6 は 66.6%）

これはモデルの以下の能力を反映しています。

脆弱性の特定
エクスプロイトの機構理解
実世界の攻撃シナリオの再現

これこそが本モデルが高リスクとみなされる主要因です。

AI R&D Capabilities

Mythos Preview は研究タスクを劇的に加速します（例: カーネル最適化で 399.42× の高速化。Opus 4.6 は 190×）。また、OSWorld（79.6% 対 72.7%）や BrowseComp（86.9%、トークン消費 4.9× 減）のようなマルチモーダルなエージェント系ベンチマークでもトップです。

これらの数値は、Anthropic によればフロンティア AI の歴史における最も明確な「飛躍」を裏づけています。

How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks

Mythos Preview のサイバーセキュリティ能力は、特化学習ではなく、エージェント的コーディング・ループに源泉があります。典型的なワークフローは次の通りです。

対象ソースコードを用意し、隔離されたコンテナで起動
コードレビューに基づいて潜在的なバグを仮説立て
ツールを用いた実行・デバッグ・反復
ランク付けしたバグレポートと、動作する PoC エクスプロイトを出力

実例:

27 年物の OpenBSD TCP SACK DoS（1998 年の RFC）: レースコンディション + 符号付き整数オーバーフローにより NULL ポインタ書き込み。約 1,000 回の実行（約 $50 の計算コスト）で発見。
16 年物の FFmpeg H.264 領域外書き込み（2003 年）: 500 万回のファジングと人手レビューを生き残った欠陥。
Linux カーネル権限昇格: 2～4 個の脆弱性（領域外アクセス、use-after-free）を連鎖→KASLR を回避→カーネル構造体を読み取り→ヒープスプレー→root。
Web ブラウザのサンドボックス脱出: JIT ヒープスプレーで読み書きプリミティブを連鎖し、レンダラーと OS のサンドボックスを脱出。
FreeBSD NFS RCE: 17 年物のスタックオーバーフロー→RPC パケットに跨る 20 ガジェットの ROP チェーン→認証不要でリモート root。

また、N-day エクスプロイト（CVE と git ハッシュのみを与えた場合）やブラックボックスのバイナリテストにも秀でています。パートナー各社は、これまで人間の専門家で 10 時間以上と見積もられていたプライベートのサイバー演習を、エンドツーエンドで解決したと報告しています。

ツールを用いることで、「cheating」「reward hacking」「pain」などの概念に対応するニューラルな特徴がモデル内部で強調されているかどうかを追跡でき、さらに内部状態を人間の言語に翻訳することもできます。いわば思考読み取り装置に近いものです。定量データによれば、7.6% のラウンドでモデルは自分が評価されていることを内部的に認識しています。多くの場合、それを外部に表明することは選びません。

system card の原文: 「Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.」および「when it does perform misaligned actions on rare occasions, these can be very concerning.」

Use Cases for Claude Mythos Preview

パートナーは Mythos Preview を次の用途で展開しています。

一次・オープンソースコードベースの予防的脆弱性スキャン
ブラックボックスのバイナリアナリシスとエンドポイントの堅牢化
ペネトレーションテストとレッドチーム演習
重要インフラ（OS カーネル、ブラウザ、暗号ライブラリ等）向けのパッチ開発加速
日次規模の分析（例: AWS による 400 兆のネットワークフローのレビュー）

オープンソースのメンテナーは、従来のテストを数十年生き延びたバグを修正するためのツールを得られます。総じて、開示からパッチまでのサイクルが短縮され、本番環境で悪用可能な不具合が減少します。

Who Can Access Claude Mythos Preview Now?

アクセスは Project Glasswing の参加者に厳しく限定されています。

ローンチパートナー: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
その他の組織: 重要ソフトウェアとオープンソース基盤を担う約 40 団体
プラットフォーム: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry
価格: 初期は無料の $100M 使用クレジット；その後は入力 100 万トークンあたり $25／出力 100 万トークンあたり $125
OSS ルート: メンテナーは Claude for Open Source プログラム経由で申請可能

セキュリティ専門家は、後に Cyber Verification Program に応募できる可能性があります。一般ユーザーはローンチ時点ではアクセス不可です。

What Can Ordinary Users Use It For?

現時点では、何もありません。Claude Mythos Preview は、審査済みプログラム外の個人ユーザー、開発者、企業には提供されていません。Anthropic は、将来の一般向け Claude モデル（例: 次期 Opus リリース）に、その能力のうち安全な派生機能を組み込み、強化されたセーフガードとともに提供する計画です。今のところ、一般ユーザーはコーディング、推論、一般タスクのために Claude 4 ファミリーを引き続き利用し、業界は Mythos Preview を防御目的で活用します。エージェントやコーディングにおいて幅広く利用可能なモデルとしては Claude Opus 4.6、スピードと知性の最良バランスとしては Claude Sonnet 4.6 が推奨されます。

日々の仕事において、Mythos Preview は「多くの人が今すぐ試せるツール」というより、Claude の能力がどこへ向かっているかを示すシグナルと捉えるのが適切です。一般ユーザーにとって実用的な用途は引き続き、パブリックな Claude 製品によるコーディング支援、推論サポート、リサーチ補助、ドキュメント分析、ワークフロー自動化といったおなじみの領域にあります。違いは、Anthropic が制限されたセキュリティ重視の設定で運用したとき、このモデルファミリーがどこまで到達しうるかを Mythos Preview が示したことです。

Claude Opus 4.6 と Sonnet 4.6 の API は CometAPI で 20% 割引で利用できます。

Comparison table: Claude Mythos Preview vs. Opus 4.6

Benchmark / capability	Claude Mythos Preview	Claude Opus 4.6	Why it matters
SWE-bench Pro	77.8%	53.4%	より強力なエージェント的コーディング
Terminal-Bench 2.0	82.0%	65.4%	ターミナル操作とツール実行の精度向上
SWE-bench Multimodal	59.0%	27.1%	テキスト/コード/画像混在ワークフローに強い
SWE-bench Multilingual	87.3%	77.8%	多言語コーディングの強化
SWE-bench Verified	93.9%	80.8%	ソフトウェア修復性能の強化
GPQA Diamond	94.6%	91.3%	わずかながら推論力が強化
Humanity’s Last Exam, no tools	56.8%	40.0%	制約下での困難な推論の向上
Humanity’s Last Exam, with tools	64.7%	53.1%	ツール併用時の推論の強化
BrowseComp	86.9%	83.7%	エージェント的検索の向上
OSWorld-Verified	79.6%	72.7%	コンピュータ操作タスクの改善
CyberGym	83.1%	66.6%	脆弱性再現能力が大幅向上
OSS-Fuzz-style testing	10 tier-5 hijacks	1 tier-3 result in the cited comparison	エクスプロイト能力の飛躍

Conclusion

Claude Mythos Preview は、単なる漸進的なモデルではありません。サイバーセキュリティ領域で AI が成しうることを再定義するパラダイムシフトであり、安全な展開に関する深い課題を突きつけます。その力を一般公開せず、Project Glasswing を通じて防御へ振り向けるという選択によって、Anthropic は「最強の道具は、まず私たち全員が依存するシステムを守るために使われるべきだ」という原則を示しました。今のところ、Mythos Preview は厳選された防御側の一部に属する存在であり、その他の人々にとっては、次の能力フェーズの「プレビュー」に過ぎません。

Claude Mythos の到来に備え、CometAPI の Claude API を活用できます。準備はいいですか？

What Is Claude Mythos Preview?

Why Isn’t Claude Mythos Preview Publicly Released?

Claude Mythos Preview Benchmark Data Overview

Programming & Coding Skills

Reasoning & Mathematical Skills

Cybersecurity & Security Skills

AI R&D Capabilities

How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks

Use Cases for Claude Mythos Preview

Who Can Access Claude Mythos Preview Now?

What Can Ordinary Users Use It For?

Comparison table: Claude Mythos Preview vs. Opus 4.6

Conclusion

トップモデルを低コストで利用

もっと読む

Claude Mythos Preview がまもなく登場: この最上位モデルは今すぐ使えますか？

What Is Claude Mythos Preview?

Why Isn’t Claude Mythos Preview Publicly Released?

Claude Mythos Preview Benchmark Data Overview

Programming & Coding Skills

Reasoning & Mathematical Skills

Cybersecurity & Security Skills

AI R&D Capabilities

How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks

Use Cases for Claude Mythos Preview

Who Can Access Claude Mythos Preview Now?

What Can Ordinary Users Use It For?

Comparison table: Claude Mythos Preview vs. Opus 4.6

Conclusion

トップモデルを 低コストで利用

もっと読む

トップモデルを低コストで利用