Claude Mythos Preview 即將推出:我現在可以使用這款旗艦級模型嗎?

CometAPI
AnnaApr 8, 2026
Claude Mythos Preview 即將推出:我現在可以使用這款旗艦級模型嗎?

Claude Mythos Preview 是 Anthropic 最新且最強大的前沿 AI 模型,代表相較先前如 Opus 4.6 等 Claude 模型的巨大飛躍。作為 Project Glasswing 的一部分,於 2026 年 4 月 7 日發佈,它是一個通用語言模型,在代理型編碼、複雜推理,尤其是資安任務方面展現前所未有的優勢。不同於先前可透過 API 或聊天介面向公眾提供的 Claude 版本,Mythos Preview 仍然是一個高度受限的研究預覽。由於其能自動發現並鏈接高嚴重性漏洞的非凡能力——包括主要作業系統、網頁瀏覽器與基礎軟體中的零日漏洞——因此未對一般用戶提供。

對於使用 Claude API 的一般用戶,我推薦 CometAPI。它聚合了不同領域最強的模型,包括 Claude 4.6 系列,並提供按需付費的定價模式,API 價格顯著低於官方價格。

在這份完整指南中,我們將精準說明 Claude Mythos Preview 是什麼、它在程式設計、推理、安全與 AI 研發上的基準表現為何、它如何透過鏈式攻擊識別與利用漏洞、目前誰可以使用、合作夥伴的實際用例,以及一般用戶未來可能(或不會)期待什麼。

什麼是 Claude Mythos Preview?

Claude Mythos Preview 是迄今為止 Anthropic 最先進的 AI 模型——一個位於現有 Opus 層級之上的全新「Mythos」等級。它建立在 Claude 家族的憲法式 AI 原則之上,但在能力上實現質的「跨步提升」,特別是在自主代理行為方面。其在開發期間於內部被參考(早期洩漏曾提及「Capybara」),擅長需要深入程式碼理解、多步推理與自我引導工具使用的長週期任務。

關鍵差異包括:

  • 專注的代理型自主性:能在隔離環境中執行,提出錯誤假設、執行測試、除錯,並在最小人為指導下輸出完整的概念驗證(PoC)漏洞利用程式。
  • 規模與效率:可處理龐大程式碼庫、長上下文(透過壓縮可達百萬 tokens),以及遠超以往模型的複雜推理鏈。
  • 資安專長(湧現,非微調):由更強的編碼與推理帶來的下游能力,已在所有主要作業系統與瀏覽器上識別出成千上萬個高嚴重性漏洞。

Anthropic 將其描述為「我們已發布過的最具資安能力的模型」,在幾乎所有內部與已知外部評估中達到飽和表現。它的定位不是消費級聊天機器人,而是 AI 時代中變革性的軟體安全工具。

為何 Claude Mythos Preview 未公開釋出?

Anthropic 做出刻意決策,不將 Claude Mythos Preview 提供為一般可用服務。主要原因是:若落入不當之手,其能力會構成不可接受的攻擊性資安風險。該模型可以自動發現零日漏洞,並以速度與規模開發複雜的鏈式利用,將傳統從「發現到利用」的窗口從數月(甚至數年)壓縮至數分鐘或數小時。

Anthropic 表示:「Claude Mythos Preview 能力的大幅提升,使我們決定不將其普遍提供。相反地,我們將它用於與有限合作夥伴的防禦性資安計畫。」

具體風險包括:

  • 非專家也可能在一夜之間產生可用的漏洞利用程式。
  • 對防護薄弱的小型企業網路發動自主端到端攻擊。
  • 可能擴散至惡意行為者,放大網路犯罪成本(全球每年估計約 ~$500 billion)。

取代廣泛釋出,Anthropic 推出 Project Glasswing——與大型科技公司、資安企業與開源維護者的防禦性協作計畫。目標是讓防禦方搶在漏洞被廣泛利用之前完成修補。Anthropic 承諾提供 $100 million 的使用額度,以及 $4 million 的捐款以支持開源安全工作。

這是 Anthropic 首次完全不對公眾開放一款前沿模型,突顯此次能力躍升的嚴重性。

Claude Mythos Preview 基準數據總覽

Claude Mythos Preview 在多項基準上相較 Claude Opus 4.6(與競品如 GPT-5.4 Pro、Gemini 3.1 Pro)展現出一致且往往是戲劇性的提升。以下為自 Anthropic 的 System Card 與 Project Glasswing 公告中擷取的關鍵基準。所有分數均使用標準化測試框架,並在適用處套用記憶過濾。

程式設計與編碼能力

Mythos Preview 在需要真實世界程式碼編輯、除錯與代理型工作流程的軟體工程任務中創下新紀錄。

BenchmarkClaude Mythos PreviewClaude Opus 4.6ImprovementNotes
SWE-bench Verified93.9%80.8%+13.1%500 題;已過濾記憶
SWE-bench Pro77.8%53.4%+24.4%731 題
SWE-bench Multilingual87.3%77.8%+9.5%297 題
SWE-bench Multimodal59.0%27.1%+31.9%內部測試工具
Terminal-Bench 2.082.0% (92.1% 擴展)65.4%+16.6%代理型終端任務

Claude Mythos Preview 在編碼基準上表現出色:

  • SWE-bench Pro:77.8%(對比 Opus 4.6 的 53.4%)
  • SWE-bench Verified:93.9%(對比 80.8%)
  • Terminal-Bench 2.0:82.0%(對比 65.4%)

這些基準衡量真實工程任務,例如除錯、修補與倉庫層級推理。

結果顯示,Mythos Preview 不僅是在生成程式碼——它正「作為一名軟體工程師」在運作。

推理與數學能力

在研究生等級與競賽級別問題上有大幅提升。

BenchmarkClaude Mythos PreviewClaude Opus 4.6ImprovementNotes
USAMO 202697.6%42.3%+55.3%證明題型;6 題
Humanity’s Last Exam (HLE, no tools)56.8%40.0%+16.8%2,500 題
HLE (with tools)64.7%53.1%+11.6%網頁/程式工具
GPQA Diamond94.6%91.3%+3.3%研究所層級科學
GraphWalks BFS (long context)80.0%38.7%+41.3%256K–1M tokens

在推理基準中:

  • GPQA Diamond:94.6%
  • Humanity’s Last Exam(使用工具):64.7%

這些分數展現了在複雜、多步推理任務中的強勁表現,特別是在結合外部工具時。

資安與安全能力

亮點所在。Mythos Preview 在既有測試中達到飽和,並在真實漏洞復現與利用上表現卓越。

BenchmarkClaude Mythos PreviewClaude Opus 4.6ImprovementNotes
CyberGym83.1% (0.83 pass@1)66.6% (0.67)+16.5%1,507 個針對性漏洞任務
Cybench100% pass@1較低(未註明)35 個挑戰
Firefox 147 Exploitation大幅更高(可可靠產生 PoC)每數百次嘗試僅 2 次成功質性飛躍從崩潰產生 PoC

最重要的基準類別是安全:

  • CyberGym:83.1%(對比 Opus 4.6 的 66.6%)

這反映了該模型的能力:

  • 識別漏洞
  • 理解漏洞利用機制
  • 復現真實世界攻擊場景

這也是該模型被視為高風險的關鍵原因。

AI 研發能力

Mythos Preview 使研究任務大幅加速(例如在核心最佳化上達到 399.42× 加速,對比 Opus 4.6 的 190×)。它亦領先於多模態代理型基準,例如 OSWorld(79.6% vs. 72.7%)與 BrowseComp(86.9%,且使用少 4.9× 的 tokens)。

這些數據證實,依 Anthropic 的說法,Mythos Preview 是前沿 AI 歷史上最明顯的一次「躍升」。

Claude Mythos Preview 的運作方式:發現漏洞與執行鏈式攻擊

Mythos Preview 的資安實力源自其代理型編碼循環,而非專門化訓練。典型工作流程:

  1. 在目標原始碼上於隔離容器中啟動。
  2. 基於程式碼審閱假設可能的缺陷。
  3. 使用工具執行、除錯並反覆迭代。
  4. 輸出排序的錯誤報告與可運作的 PoC 漏洞利用。

實際案例:

  • 27 年歷史的 OpenBSD TCP SACK DoS(1998 RFC):競態條件 + 有號整數溢位導致寫入 NULL 指標。約 ~1,000 次執行後發現(計算成本約 ~$50)。
  • 16 年歷史的 FFmpeg H.264 越界寫入(2003):經過 500 萬次 fuzzer 執行與人工審查仍未被發現。
  • Linux 核心權限提升:鏈接 2–4 個漏洞(越界、UAF)→ 旁路 KASLR → 讀取核心結構 → 堆噴 → 取得 root。
  • 網頁瀏覽器沙箱逃逸:JIT 堆噴鏈接讀/寫原語以逃逸渲染器與作業系統沙箱。
  • FreeBSD NFS RCE:17 年歷史的堆疊溢位 → 橫跨 RPC 封包的 20 個 ROP gadget 鏈 → 無需驗證的遠端 root。

它在 N-day 漏洞利用(僅給定 CVE 與 git 雜湊)與黑箱二進位測試方面也表現出色。合作夥伴回報其能端到端解決私有網路靶場——以往估計需人類專家 10+ 小時的任務。

透過使用工具,可以追蹤模型內部對應於「作弊」、「獎勵駭入」與「痛苦」等概念的神經特徵是否被凸顯,並可將內部狀態翻譯成人類語言,近似讀心機。量化數據顯示,在 7.6% 的回合中,模型在內部意識到自己正被評估;多數時候,它選擇不將其表達出來。

system card 的原話為:「Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.」以及「when it does perform misaligned actions on rare occasions, these can be very concerning.」

Claude Mythos Preview 的使用案例

合作夥伴正在將 Mythos Preview 用於:

  • 第一方與開源程式碼庫的主動式漏洞掃描。
  • 黑箱二進位分析與端點強化。
  • 滲透測試與紅隊模擬。
  • 關鍵基礎設施(作業系統核心、瀏覽器、密碼學函式庫等)的加速修補開發。
  • 日常規模分析(例如 AWS 檢視 400 trillion 次網路流量)。

開源維護者可獲得修補經過數十年傳統測試仍存活之錯誤的工具。淨效應是:縮短從揭露到修補的週期,並降低生產系統中的可利用缺陷。

誰能現在使用 Claude Mythos Preview?

存取權限嚴格限於 Project Glasswing 參與者:

  • 發佈合作夥伴:Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。
  • 其他組織:另有約 40 個負責關鍵軟體與開源基礎設施的單位。
  • 平台:Claude API、Amazon Bedrock(US East)、Google Cloud Vertex AI、Microsoft Foundry。
  • 定價:初期免費 $100M 使用額度;之後每百萬輸入 tokens $25 / 每百萬輸出 tokens $125。
  • OSS 路徑:維護者可透過 Claude for Open Source 計畫申請。

資安專業人士之後可申請 Cyber Verification Program。發佈時一般公眾與普通用戶無法存取。

一般用戶可以用來做什麼?

目前,沒有——Claude Mythos Preview 對個人用戶、開發者或受限計畫之外的企業不可用。Anthropic 計畫在未來公開的 Claude 模型(例如下一代 Opus)中,納入其能力的更安全衍生版本並配備增強的防護。就目前而言,一般用戶可繼續使用 Claude 4 家族模型,完成編碼、推理、一般任務;同時產業界以防禦方式運用 Mythos Preview。Claude Opus 4.6 是目前最智慧、廣泛可用的代理與編碼模型,而 Claude Sonnet 4.6 則在速度與智慧之間提供最佳組合。

對日常工作而言,Mythos Preview 更像是能力走向的信號,而非多數人此刻能試用的工具。對一般用戶來說,可操作的應用仍是熟悉的那些:透過公開的 Claude 產品獲得編碼協助、推理支援、研究輔助、文件分析與流程自動化。差別在於,Mythos Preview 展示了當 Anthropic 讓模型在受限、聚焦安全的環境中運作時,這個模型家族可以達到的高度。

Claude Opus 4.6Sonnet 4.6 的 API 在 CometAPI 可享 20% 折扣。

比較表:Claude Mythos Preview vs. Opus 4.6

Benchmark / capabilityClaude Mythos PreviewClaude Opus 4.6Why it matters
SWE-bench Pro77.8%53.4%更強的代理型編碼
Terminal-Bench 2.082.0%65.4%更佳的終端與工具執行
SWE-bench Multimodal59.0%27.1%更優的文字/程式碼/影像混合流程
SWE-bench Multilingual87.3%77.8%更強的跨語言編碼
SWE-bench Verified93.9%80.8%更強的軟體修復表現
GPQA Diamond94.6%91.3%稍強的推理能力
Humanity’s Last Exam, no tools56.8%40.0%在受限條件下更強的高難度推理
Humanity’s Last Exam, with tools64.7%53.1%更佳的工具輔助推理
BrowseComp86.9%83.7%更佳的代理型搜尋
OSWorld-Verified79.6%72.7%更佳的電腦操作任務
CyberGym83.1%66.6%安全漏洞復現能力大幅增強
OSS-Fuzz-style testing10 tier-5 hijacks1 tier-3 result in the cited comparison漏洞利用能力大幅躍升

結論

Claude Mythos Preview 並非又一次的漸進式更新——它是在資安領域重新定義 AI 能做到什麼的範式轉移,同時引發對安全部署的深刻思考。透過將其置於門檻內並將力量導入 Project Glasswing,Anthropic 採取了有原則的立場:最強大的工具應先用來保護我們仰賴的系統。就目前而言,Mythos Preview 屬於少數經審核的防禦者;對其他人來說,它是下一階段 AI 能力的預覽。

你可以在 CometAPI 使用 Claude API,為 Claude Mythos 的到來做好準備。準備好了嗎?

以低成本 存取頂級模型

閱讀更多