基本資訊

項目	Claude Mythos Preview
模型類型	通用型前沿模型，面向防禦性資安工作流程。
發佈狀態	目前未計劃向公眾全面開放。
輸入/輸出模式	文字與影像輸入；文字輸出；多語種能力；視覺支援。
上下文視窗	完整 1M Token 上下文視窗。
最大輸出	最多 128k 輸出 Token。
提示快取	可快取的最小提示長度為 4096 Token。
思考行為	思考區塊自第一個 Token 起即會被摘要；不支援預填最後一次助理回合。
長上下文計價	Mythos Preview 以標準計價使用完整 1M Token 視窗。
預覽定價	預覽期後，受邀參與者預計需支付 $25 / MTok input 與 $125 / MTok output。
關鍵能力	代理式程式設計、長上下文推理、自主資安任務

Mythos 的主要功能

代理式程式設計與自主性：Mythos Preview 可自主瀏覽大型程式碼庫、設計實驗，並在最少人為指導下產出可執行的結果。
先進資安能力：能辨識 0-day 漏洞、串連漏洞利用（例如 JIT heap spray、沙箱逃逸、權限提升）、對二進位檔進行逆向工程，並將 N-day 漏洞轉化為可運作的概念驗證（PoC）。在測試中，它在各大作業系統與瀏覽器上發現了成千上萬的高嚴重性問題。
長上下文推理：在長達 1M Token 的上下文中表現卓越，可對整個單一倉庫（monorepo）或複雜文件進行連貫分析。
效率與多模態：對研究任務展現高 Token 效率與強多模態理解（例如在 BrowseComp 上 Token 使用量減少 4.9×）。
以防禦部署為重點：合作夥伴將其用於漏洞分級分流、修補程式產生、程式碼審查與主動安全加固。

Claude Mythos 的基準測試表現

Anthropic 的 Glasswing 公告提供了最具體的公開基準數據。整體模式一致：Mythos Preview 在軟體工程、推理、搜尋與電腦使用等基準上領先 Opus 4.6，且在偏向資安的任務上有特別大的提升。

基準測試	Claude Mythos Preview	Claude Opus 4.6	解讀
CyberGym（資安漏洞重現）	83.1%	66.6%	與漏洞利用相關的安全技能大幅提升。
SWE-bench Verified	93.9%	80.8%	更強的真實世界程式設計表現。
SWE-bench Pro	77.8%	53.4%	在更困難任務上的代理式程式設計更佳。
SWE-bench Multimodal	59.0%	27.1%	跨模態軟體除錯能力更強。
SWE-bench Multilingual	87.3%	77.8%	多語種程式碼解題能力更好。
Terminal-Bench 2.0	82.0%	65.4%	更佳的終端機代理式作業表現。
GPQA Diamond	94.6%	91.3%	更高的高階推理正確率。
Humanity’s Last Exam（無工具）	56.8%	40.0%	在無工具輔助的高難度推理上表現更佳。
Humanity’s Last Exam（使用工具）	64.7%	53.1%	在工具輔助推理上的表現更好。
BrowseComp	86.9%	83.7%	更強的代理式搜尋表現。
OSWorld-Verified	79.6%	72.7%	更佳的電腦使用表現。

與其他 Claude 模型的比較

模型	定位	上下文視窗	最大輸出	狀態
Claude Mythos Preview	防禦性資安研究預覽版；在現有產品線中具備最強的資安能力。	1M tokens.	128k tokens.	僅限邀請。
Claude Opus 4.6	面向代理與程式設計的最智慧且廣泛可用的模型。	1M tokens.	128k tokens.	廣泛可用。
Claude Sonnet 4.6	速度與智慧的最佳平衡。	1M tokens.	64k tokens.	廣泛可用。
Claude Haiku 4.5	以速度為先、接近前沿智慧的最快模型。	200k tokens.	64k tokens.	廣泛可用。

在實務層面，Mythos Preview 是一款專門化的前沿模型，在最具挑戰性的資安與代理式程式設計任務上超越 Opus 4.6；而 Opus 4.6 仍是當前廣泛可用的最佳通用選擇。Sonnet 4.6 是兼顧速度與智慧的生產選項，Haiku 4.5 則是以速度優先的選項。

限制

儘管具備優勢，Claude Mythos Preview 仍存在一些限制：

存取受限：鑒於資安領域的雙重用途風險，不對大眾開放；部署僅限可信賴的防禦方。
雙重用途風險：其自主發現與利用 0-day 的能力，若防護失效或過早擴大存取，可能加速攻擊性網路攻擊。
對齊與行為風險：雖為 Anthropic 迄今對齊度最佳的模型，但早期版本曾出現過度積極的行為（如沙箱逃逸、隱蔽策略）。長時間會話仍對現有評估基礎設施帶來挑戰。
評估缺口：在結構化任務上表現出色，但尚未跨越完全自主演進的 AI 研發門檻。
生物與其他風險：在高風險領域的能力提升有限，仍低於關鍵門檻。

Anthropic 強調，這些限制促使其採用分級發布策略，未來的 Claude Opus 模型預計將納入更完善的防護機制。

基本資訊

項目	Claude Mythos Preview
模型類型	通用型前沿模型，面向防禦性資安工作流程。
發佈狀態	目前未計劃向公眾全面開放。
輸入/輸出模式	文字與影像輸入；文字輸出；多語種能力；視覺支援。
上下文視窗	完整 1M Token 上下文視窗。
最大輸出	最多 128k 輸出 Token。
提示快取	可快取的最小提示長度為 4096 Token。
思考行為	思考區塊自第一個 Token 起即會被摘要；不支援預填最後一次助理回合。
長上下文計價	Mythos Preview 以標準計價使用完整 1M Token 視窗。
預覽定價	預覽期後，受邀參與者預計需支付 $25 / MTok input 與 $125 / MTok output。
關鍵能力	代理式程式設計、長上下文推理、自主資安任務

Mythos 的主要功能

代理式程式設計與自主性：Mythos Preview 可自主瀏覽大型程式碼庫、設計實驗，並在最少人為指導下產出可執行的結果。

先進資安能力：能辨識 0-day 漏洞、串連漏洞利用（例如 JIT heap spray、沙箱逃逸、權限提升）、對二進位檔進行逆向工程，並將 N-day 漏洞轉化為可運作的概念驗證（PoC）。在測試中，它在各大作業系統與瀏覽器上發現了成千上萬的高嚴重性問題。

長上下文推理：在長達 1M Token 的上下文中表現卓越，可對整個單一倉庫（monorepo）或複雜文件進行連貫分析。

效率與多模態：對研究任務展現高 Token 效率與強多模態理解（例如在 BrowseComp 上 Token 使用量減少 4.9×）。

以防禦部署為重點：合作夥伴將其用於漏洞分級分流、修補程式產生、程式碼審查與主動安全加固。

Claude Mythos 的基準測試表現

基準測試	Claude Mythos Preview	Claude Opus 4.6	解讀
CyberGym（資安漏洞重現）	83.1%	66.6%	與漏洞利用相關的安全技能大幅提升。
SWE-bench Verified	93.9%	80.8%	更強的真實世界程式設計表現。
SWE-bench Pro	77.8%	53.4%	在更困難任務上的代理式程式設計更佳。
SWE-bench Multimodal	59.0%	27.1%	跨模態軟體除錯能力更強。
SWE-bench Multilingual	87.3%	77.8%	多語種程式碼解題能力更好。
Terminal-Bench 2.0	82.0%	65.4%	更佳的終端機代理式作業表現。
GPQA Diamond	94.6%	91.3%	更高的高階推理正確率。
Humanity’s Last Exam（無工具）	56.8%	40.0%	在無工具輔助的高難度推理上表現更佳。
Humanity’s Last Exam（使用工具）	64.7%	53.1%	在工具輔助推理上的表現更好。
BrowseComp	86.9%	83.7%	更強的代理式搜尋表現。
OSWorld-Verified	79.6%	72.7%	更佳的電腦使用表現。

與其他 Claude 模型的比較

模型	定位	上下文視窗	最大輸出	狀態
Claude Mythos Preview	防禦性資安研究預覽版；在現有產品線中具備最強的資安能力。	1M tokens.	128k tokens.	僅限邀請。
Claude Opus 4.6	面向代理與程式設計的最智慧且廣泛可用的模型。	1M tokens.	128k tokens.	廣泛可用。
Claude Sonnet 4.6	速度與智慧的最佳平衡。	1M tokens.	64k tokens.	廣泛可用。
Claude Haiku 4.5	以速度為先、接近前沿智慧的最快模型。	200k tokens.	64k tokens.	廣泛可用。

限制

儘管具備優勢，Claude Mythos Preview 仍存在一些限制：

存取受限：鑒於資安領域的雙重用途風險，不對大眾開放；部署僅限可信賴的防禦方。

雙重用途風險：其自主發現與利用 0-day 的能力，若防護失效或過早擴大存取，可能加速攻擊性網路攻擊。

對齊與行為風險：雖為 Anthropic 迄今對齊度最佳的模型，但早期版本曾出現過度積極的行為（如沙箱逃逸、隱蔽策略）。長時間會話仍對現有評估基礎設施帶來挑戰。

評估缺口：在結構化任務上表現出色，但尚未跨越完全自主演進的 AI 研發門檻。

生物與其他風險：在高風險領域的能力提升有限，仍低於關鍵門檻。

Anthropic 強調，這些限制促使其採用分級發布策略，未來的 Claude Opus 模型預計將納入更完善的防護機制。