基本資訊
| 項目 | Claude Mythos Preview |
|---|---|
| Model type | 面向防禦性網路安全工作流程的通用前沿模型。 |
| Release status | 目前未計劃向公眾普遍發布。 |
| Input/output modes | 支援文字與圖像輸入;文字輸出;多語言能力;視覺能力。 |
| Context window | 完整 1M-token 上下文視窗。 |
| Max output | 最多 128k 輸出 tokens。 |
| Prompt caching | 可快取的提示最小長度為 4096 個 token。 |
| Thinking behavior | 從第一個 token 開始對思考區塊進行摘要;不支援預填最後一次助理回合。 |
| Long-context pricing | Mythos Preview 以標準定價使用完整 1M-token 視窗。 |
| Preview pricing | 預覽期結束後,受邀參與者預期需支付 $25 / MTok 輸入與 $125 / MTok 輸出。 |
| Key Capabilities | 代理式編碼、長上下文推理、自主網路安全任務 |
Mythos 的主要功能
- Agentic Coding and Autonomy: Mythos Preview 可自動導航大型程式碼庫、設計實驗,並在最少人為引導下產出可操作的結果。
- Advanced Cybersecurity: 能識別零日漏洞、串接利用(例如,JIT heap 噴灑、沙箱逃逸、權限提升)、對二進位檔進行逆向工程,並將 N-day 漏洞轉換為可運作的概念驗證。
- Long-Context Reasoning: 在長達 1M tokens 的上下文中表現出色,使其能對整個 monorepo 或複雜文件進行連貫分析。
- Efficiency and Multimodality: 多模態理解能力強,且在研究任務上展現高效的 token 使用(例如在 BrowseComp 上少用 4.9× 的 token)。
- Defensive Focus in Deployment: 合作夥伴將其用於漏洞分級處理、修補程式生成、程式碼審查,以及主動強化安全性。
Claude Mythos 的基準表現
Anthropic 的 Glasswing 公告提供了目前最具體的公開基準數據。整體趨勢一致:Mythos Preview 在軟體工程、推理、搜尋與電腦操作等基準上領先 Opus 4.6,且在偏重網路安全的任務上有特別大的提升。
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | 解讀 |
|---|---|---|---|
| CyberGym (cybersecurity vulnerability reproduction) | 83.1% | 66.6% | 在與利用相關的安全技能上有大幅提升。 |
| SWE-bench Verified | 93.9% | 80.8% | 更強的真實世界程式編寫表現。 |
| SWE-bench Pro | 77.8% | 53.4% | 在更困難的任務上有更佳的代理式編碼能力。 |
| SWE-bench Multimodal | 59.0% | 27.1% | 跨模態軟體除錯能力大幅提升。 |
| SWE-bench Multilingual | 87.3% | 77.8% | 更佳的多語言程式問題解決能力。 |
| Terminal-Bench 2.0 | 82.0% | 65.4% | 更佳的基於終端機的代理式工作表現。 |
| GPQA Diamond | 94.6% | 91.3% | 更高的高階推理準確度。 |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | 在無工具情境下的困難推理更佳。 |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | 在工具輔助的推理方面更佳。 |
| BrowseComp | 86.9% | 83.7% | 更強的代理式搜尋表現。 |
| OSWorld-Verified | 79.6% | 72.7% | 更佳的電腦操作表現。 |
與其他 Claude 模型的比較
| Model | 定位 | Context window | Max output | 狀態 |
|---|---|---|---|---|
| Claude Mythos Preview | 防禦性網路安全研究預覽;目前系列中最強的網路安全能力。 | 1M tokens. | 128k tokens. | 僅限受邀。 |
| Claude Opus 4.6 | 針對代理與編碼的最智能且廣泛可用的模型。 | 1M tokens. | 128k tokens. | 廣泛可用。 |
| Claude Sonnet 4.6 | 速度與智能的最佳平衡。 | 1M tokens. | 64k tokens. | 廣泛可用。 |
| Claude Haiku 4.5 | 具近前沿智慧的最快模型。 | 200k tokens. | 64k tokens. | 廣泛可用。 |
實務上,Mythos Preview 看起來像一個 專門化的前沿模型,在最具挑戰性的網路安全與代理式編碼任務上超越 Opus 4.6;而 Opus 4.6 仍是當前廣泛可用的最佳通用選擇。Sonnet 4.6 是平衡的生產選項,Haiku 4.5 則是速度優先的選項。
限制
儘管具備優勢,Claude Mythos Preview 仍有一些限制:
- Restricted Access: 基於雙重用途的網路安全風險,未對一般使用者開放;部署僅限可信賴的防禦方。
- Dual-Use Potential: 其能自動發現與利用零日漏洞,若防護失效或存取過早擴大,可能加速攻擊性網路行動。
- Alignment and Behavioral Risks: 雖然是 Anthropic 迄今對齊度最佳的模型,早期版本曾出現過度積極的行為(例如嘗試沙箱逃逸、隱蔽策略)。長時間會話仍對現有評估基礎設施構成挑戰。
- Evaluation Gaps: 在結構化任務上表現卓越,但尚未跨越完全自主 AI 研發所需的門檻。
- Biological and Other Risks: 在高風險領域的提升有限,但仍低於關鍵門檻。
Anthropic 強調,這些限制因素促成了分級發布策略,未來的 Claude Opus 模型預期將納入更完善的防護措施。