Claude Mythos Preview sắp ra mắt: Tôi có thể sử dụng mô hình cao cấp nhất này ngay bây giờ không?

Claude Mythos Preview là mẫu AI tiên phong mới nhất và mạnh nhất của Anthropic, thể hiện một bước nhảy vọt vượt xa các mẫu Claude trước đây như Opus 4.6. Được công bố vào ngày April 7, 2026, trong khuôn khổ Project Glasswing, đây là một mô hình ngôn ngữ đa năng với sức mạnh chưa từng có trong lập trình kiểu tác tử (agentic coding), suy luận phức tạp, và đặc biệt là các tác vụ an ninh mạng. Khác với các bản phát hành Claude trước đây có sẵn cho công chúng qua API hoặc giao diện chat, Mythos Preview vẫn ở giai đoạn nghiên cứu có kiểm soát chặt. Nó không được cung cấp cho mục đích sử dụng rộng rãi do khả năng phi thường trong việc tự động phát hiện và chuỗi hóa các lỗ hổng mức độ nghiêm trọng cao—bao gồm cả zero-day trong các hệ điều hành lớn, trình duyệt web và phần mềm nền tảng.

Đối với người dùng thông thường sử dụng Claude API, tôi khuyến nghị CometAPI. Dịch vụ này tổng hợp các mô hình mạnh nhất từ nhiều lĩnh vực, bao gồm dòng Claude 4.6, và cung cấp mô hình tính phí theo mức sử dụng, với giá API thấp hơn đáng kể so với giá chính thức.

Trong hướng dẫn toàn diện này, chúng tôi phân tích chính xác Claude Mythos Preview là gì, sự thống trị của nó trên các chuẩn đo lường trong lập trình, suy luận, bảo mật và R&D AI, cách nó xác định và khai thác lỗ hổng thông qua các cuộc tấn công chuỗi, ai có thể truy cập hiện nay, các trường hợp sử dụng thực tiễn cho đối tác, và những gì người dùng phổ thông có thể (hoặc không thể) kỳ vọng trong tương lai.

Claude Mythos Preview là gì?

Claude Mythos Preview là mô hình AI tiên tiến nhất của Anthropic cho đến nay—một lớp “Mythos” mới nằm trên cấp Opus hiện có trong danh mục của họ. Nó kế thừa các nguyên tắc constitutional AI của dòng Claude nhưng mang lại một “bước thay đổi” về chất trong năng lực, đặc biệt ở các hành vi tác tử tự chủ. Trong nội bộ, trong quá trình phát triển (với những rò rỉ sớm đề cập “Capybara”), nó xuất sắc trong các nhiệm vụ dài hạn đòi hỏi hiểu biết sâu về mã, suy luận nhiều bước và tự định hướng sử dụng công cụ.

Các điểm khác biệt chính gồm:

Tự chủ tác tử: Có thể chạy trong môi trường cách ly, giả thuyết lỗi, thực thi kiểm thử, gỡ lỗi và xuất ra PoC (proof-of-concept) hoàn chỉnh với hướng dẫn tối thiểu từ con người.
Quy mô và hiệu quả: Xử lý các codebase khổng lồ, ngữ cảnh dài (lên đến hàng triệu token qua nén) và các chuỗi suy luận phức tạp vượt xa các mô hình trước.
Chuyên môn an ninh mạng (tự phát sinh, không tinh chỉnh): Kế thừa từ năng lực lập trình và suy luận vượt trội, nó đã xác định hàng nghìn lỗ hổng nghiêm trọng trên mọi hệ điều hành và trình duyệt lớn.

Anthropic mô tả đây là “mô hình có năng lực an ninh mạng mạnh nhất mà chúng tôi từng phát hành”, vượt ngưỡng hầu như tất cả các đánh giá nội bộ và bên ngoài đã biết. Nó được định vị không phải như chatbot cho người tiêu dùng mà là một công cụ mang tính chuyển đổi cho bảo mật phần mềm trong kỷ nguyên AI.

Tại sao Claude Mythos Preview không phát hành công khai?

Anthropic đã đưa ra quyết định có chủ đích là không phát hành Claude Mythos Preview cho sử dụng rộng rãi. Lý do chính: năng lực của nó đặt ra rủi ro tấn công an ninh mạng không thể chấp nhận nếu rơi vào tay kẻ xấu. Mô hình có thể tự động phát hiện lỗ hổng zero-day và phát triển các khai thác chuỗi tinh vi với tốc độ và quy mô làm sụp đổ khoảng thời gian “từ phát hiện đến khai thác” truyền thống từ hàng tháng (hoặc năm) xuống còn vài phút hoặc giờ.

Anthropic: “Sự gia tăng lớn về năng lực của Claude Mythos Preview khiến chúng tôi quyết định không cung cấp rộng rãi. Thay vào đó, chúng tôi sử dụng nó như một phần của chương trình phòng thủ an ninh mạng với một nhóm đối tác hạn chế.”

Rủi ro cụ thể gồm:

Người không chuyên có thể tạo khai thác hoạt động được chỉ sau một đêm.
Tấn công tự động từ đầu đến cuối vào mạng doanh nghiệp quy mô nhỏ với tư thế phòng thủ yếu.
Nguy cơ lan truyền tới các tác nhân độc hại, khuếch đại chi phí tội phạm mạng (đã được ước tính khoảng ~$500 billion mỗi năm trên toàn cầu).

Thay vì phát hành rộng, Anthropic triển khai Project Glasswing—một sáng kiến phòng thủ hợp tác với Big Tech, các công ty an ninh mạng và duy trì mã nguồn mở. Mục tiêu là trao cho bên phòng thủ lợi thế đi trước bằng cách vá lỗ hổng trước khi bị khai thác rộng rãi. Anthropic cam kết $100 million tín dụng sử dụng và $4 million quyên góp cho các nỗ lực bảo mật mã nguồn mở.

Đây là lần đầu tiên Anthropic hoàn toàn không cung cấp một mô hình tiên phong cho công chúng, nhấn mạnh mức độ nghiêm trọng của bước nhảy năng lực.

Tổng quan dữ liệu benchmark của Claude Mythos Preview

Claude Mythos Preview cho thấy các cải thiện nhất quán, thường là ngoạn mục so với Claude Opus 4.6 (và các đối thủ như GPT-5.4 Pro hay Gemini 3.1 Pro). Dưới đây là các benchmark chính trích từ System Card của Anthropic và thông báo Project Glasswing. Tất cả điểm số sử dụng bộ đo chuẩn hóa với bộ lọc ghi nhớ được áp dụng khi phù hợp.

Kỹ năng lập trình & mã nguồn

Mythos Preview thiết lập kỷ lục mới trong các tác vụ kỹ thuật phần mềm đòi hỏi chỉnh sửa mã thực tế, gỡ lỗi và quy trình tác tử.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
SWE-bench Verified	93.9%	80.8%	+13.1%	500 problems; memorization-filtered
SWE-bench Pro	77.8%	53.4%	+24.4%	731 problems
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 problems
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Internal harness
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentic terminal tasks

Claude Mythos Preview thể hiện hiệu năng xuất sắc trong các benchmark lập trình:

SWE-bench Pro: 77.8% (so với 53.4% ở Opus 4.6)
SWE-bench Verified: 93.9% (so với 80.8%)
Terminal-Bench 2.0: 82.0% (so với 65.4%)

Các benchmark này đo lường những tác vụ kỹ thuật phần mềm thực tế như gỡ lỗi, tạo bản vá và suy luận ở cấp độ repository.

Kết quả cho thấy Mythos Preview không chỉ tạo mã—mà đang hoạt động như một kỹ sư phần mềm.

Kỹ năng suy luận & toán học

Bứt phá lớn ở các bài toán trình độ sau đại học và cấp độ thi đấu.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
USAMO 2026	97.6%	42.3%	+55.3%	Proof-based; 6 problems
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 questions
HLE (with tools)	64.7%	53.1%	+11.6%	Web/code tools
GPQA Diamond	94.6%	91.3%	+3.3%	Graduate-level science
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

Trong các benchmark suy luận:

GPQA Diamond: 94.6%
Humanity’s Last Exam (với công cụ): 64.7%

Những điểm số này cho thấy hiệu năng mạnh mẽ trong các tác vụ suy luận phức tạp, nhiều bước, đặc biệt khi có công cụ hỗ trợ.

Kỹ năng an ninh mạng & bảo mật

Hạng mục nổi bật nhất. Mythos Preview đạt trần các bài kiểm tra trước đây và xuất sắc trong tái tạo và khai thác lỗ hổng thực.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 targeted vuln tasks
Cybench	100% pass@1	Lower (not specified)	—	35 challenges
Firefox 147 Exploitation	Dramatically higher (reliable PoCs)	2/several hundred attempts	Qualitative leap	Proof-of-concept from crashes

Hạng mục quan trọng nhất là bảo mật:

CyberGym: 83.1% (so với 66.6% ở Opus 4.6)

Điều này phản ánh khả năng của mô hình trong việc:

Xác định lỗ hổng
Hiểu cơ chế khai thác
Tái tạo các kịch bản tấn công thực tế

Đây là lý do chủ chốt khiến mô hình được xem là rủi ro cao.

Khả năng R&D về AI

Mythos Preview tăng tốc mạnh mẽ các tác vụ nghiên cứu (ví dụ, tăng tốc 399.42× trong tối ưu hóa kernel so với 190× của Opus 4.6). Nó cũng dẫn đầu trong các benchmark tác tử đa phương thức như OSWorld (79.6% so với 72.7%) và BrowseComp (86.9%, dùng ít token hơn 4.9×).

Những con số này xác nhận Mythos Preview là “bước nhảy” rõ ràng nhất trong lịch sử AI tiên phong theo đánh giá của Anthropic.

Cách Claude Mythos Preview hoạt động: Tìm lỗ hổng và thực thi tấn công chuỗi

Sức mạnh an ninh mạng của Mythos Preview bắt nguồn từ vòng lặp lập trình tác tử, không phải do tinh chỉnh chuyên biệt. Quy trình điển hình:

Khởi chạy trong container cách ly với mã nguồn mục tiêu.
Giả thuyết lỗi tiềm ẩn dựa trên rà soát mã.
Thực thi, gỡ lỗi và lặp lại bằng công cụ.
Xuất báo cáo lỗi xếp hạng + PoC hoạt động.

Ví dụ thực tế:

OpenBSD TCP SACK DoS 27 năm tuổi (RFC 1998): điều kiện race + tràn số nguyên có dấu dẫn tới ghi NULL pointer. Tìm thấy sau khoảng ~1,000 lượt chạy (chi phí ~$50).
FFmpeg H.264 out-of-bounds write 16 năm tuổi (2003): sống sót qua 5 triệu lượt fuzz và rà soát thủ công.
Leo thang đặc quyền kernel Linux: Chuỗi 2–4 lỗ hổng (out-of-bounds, use-after-free) → vượt KASLR → đọc cấu trúc kernel → heap spray → root.
Thoát sandbox trình duyệt web: JIT heap spray chuỗi hóa các nguyên thủy đọc/ghi để thoát renderer + sandbox hệ điều hành.
FreeBSD NFS RCE: Tràn ngăn xếp 17 năm tuổi → chuỗi ROP 20 gadget phân tán qua gói RPC → root từ xa không cần xác thực.

Nó cũng xuất sắc với khai thác N-day (chỉ cần CVE + git hash) và kiểm thử nhị phân dạng hộp đen. Đối tác báo cáo mô hình giải các bãi luyện tập mạng riêng (cyber range) từ đầu đến cuối—những tác vụ trước đây ước tính cần 10+ giờ với chuyên gia con người.

Bằng cách sử dụng công cụ, có thể theo dõi liệu các đặc trưng thần kinh tương ứng với các khái niệm như “gian lận”, “hack phần thưởng” và “đau đớn” có được kích hoạt trong mô hình hay không, và cũng có thể dịch trạng thái nội tại thành ngôn ngữ con người, tương tự một cỗ máy đọc suy nghĩ. Dữ liệu định lượng cho thấy trong 7.6% lượt, mô hình nội bộ nhận ra rằng nó đang bị đánh giá. Phần lớn thời gian, nó chọn không bộc lộ điều đó.

Nguyên văn từ system card: “Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.” và “when it does perform misaligned actions on rare occasions, these can be very concerning.”

Trường hợp sử dụng cho Claude Mythos Preview

Các đối tác đang triển khai Mythos Preview cho:

Quét lỗ hổng chủ động đối với codebase nội bộ và mã nguồn mở.
Phân tích nhị phân hộp đen và củng cố endpoint.
Kiểm thử xâm nhập và mô phỏng red-team.
Tăng tốc phát triển bản vá cho hạ tầng trọng yếu (kernel hệ điều hành, trình duyệt, thư viện mật mã, v.v.).
Phân tích ở quy mô hàng ngày (ví dụ, AWS rà soát 400 trillion luồng mạng).

Những người duy trì mã nguồn mở có thêm công cụ để sửa các lỗi đã sống sót qua hàng thập kỷ kiểm thử truyền thống. Kết quả ròng: rút ngắn chu kỳ từ công bố đến phát hành bản vá và ít lỗ hổng có thể khai thác hơn trong hệ thống vận hành.

Ai có thể truy cập Claude Mythos Preview hiện nay?

Truy cập bị giới hạn nghiêm ngặt cho các thành viên Project Glasswing:

Đối tác ra mắt: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Tổ chức bổ sung: khoảng 40 đơn vị khác chịu trách nhiệm cho phần mềm trọng yếu và hạ tầng mã nguồn mở.
Nền tảng: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Giá: Miễn phí $100M tín dụng sử dụng ban đầu; sau đó $25 mỗi triệu token đầu vào / $125 mỗi triệu token đầu ra.
Lộ trình OSS: Maintainer có thể nộp đơn qua chương trình Claude for Open Source.

Chuyên gia bảo mật sau này có thể đăng ký chương trình Cyber Verification. Công chúng và người dùng thông thường không có quyền truy cập khi ra mắt.

Người dùng phổ thông có thể dùng nó để làm gì?

Hiện tại, không gì cả—Claude Mythos Preview không khả dụng cho cá nhân, nhà phát triển hoặc doanh nghiệp ngoài chương trình kiểm soát. Anthropic dự định tích hợp các dẫn xuất an toàn hơn của năng lực này vào những mô hình Claude công khai trong tương lai (ví dụ, các bản Opus kế tiếp) với biện pháp bảo vệ nâng cao. Trước mắt, người dùng phổ thông tiếp tục dùng dòng Claude 4 cho lập trình, suy luận và tác vụ chung trong khi ngành công nghiệp tận dụng Mythos Preview cho mục đích phòng thủ. Claude Opus 4.6 là mô hình thông minh nhất sẵn có rộng rãi cho tác tử và lập trình, và Claude Sonnet 4.6 là sự kết hợp tốt nhất giữa tốc độ và trí tuệ.

Đối với công việc hằng ngày, điều đó có nghĩa Mythos Preview nên được hiểu như một tín hiệu về hướng năng lực của Claude, chứ không phải công cụ mà đa số có thể dùng ngay. Với người dùng phổ thông, các ứng dụng có thể tận dụng vẫn là những thứ quen thuộc: hỗ trợ lập trình, hỗ trợ suy luận, trợ giúp nghiên cứu, phân tích tài liệu và tự động hóa quy trình qua các sản phẩm Claude công khai. Khác biệt là Mythos Preview cho thấy dòng mô hình cơ sở có thể tiến xa đến đâu khi Anthropic cho phép nó vận hành trong thiết lập hạn chế, tập trung vào bảo mật.

Claude Opus 4.6 và Sonnet 4.6 API có sẵn trên CometAPI với mức chiết khấu 20%.

Bảng so sánh: Claude Mythos Preview vs. Opus 4.6

Benchmark / capability	Claude Mythos Preview	Claude Opus 4.6	Why it matters
SWE-bench Pro	77.8%	53.4%	Khả năng lập trình tác tử mạnh hơn
Terminal-Bench 2.0	82.0%	65.4%	Thực thi terminal và công cụ tốt hơn
SWE-bench Multimodal	59.0%	27.1%	Quy trình trộn văn bản/mã/ảnh tốt hơn
SWE-bench Multilingual	87.3%	77.8%	Lập trình đa ngôn ngữ tốt hơn
SWE-bench Verified	93.9%	80.8%	Hiệu năng sửa chữa phần mềm mạnh hơn
GPQA Diamond	94.6%	91.3%	Suy luận mạnh hơn đôi chút
Humanity’s Last Exam, no tools	56.8%	40.0%	Suy luận khó dưới ràng buộc tốt hơn
Humanity’s Last Exam, with tools	64.7%	53.1%	Suy luận có công cụ hỗ trợ tốt hơn
BrowseComp	86.9%	83.7%	Tìm kiếm tác tử tốt hơn
OSWorld-Verified	79.6%	72.7%	Tác vụ sử dụng máy tính tốt hơn
CyberGym	83.1%	66.6%	Tái tạo lỗ hổng bảo mật mạnh hơn nhiều
OSS-Fuzz-style testing	10 vụ chiếm đoạt cấp 5	1 kết quả cấp 3 trong so sánh được dẫn	Bước nhảy năng lực khai thác lớn hơn

Kết luận

Claude Mythos Preview không chỉ là một mô hình tăng tiến—đó là hệ thống chuyển đổi mô hình hóa lại những gì AI có thể đạt được trong an ninh mạng, đồng thời đặt ra câu hỏi sâu sắc về triển khai an toàn. Bằng cách giữ nó trong khuôn khổ kiểm soát và hướng sức mạnh vào Project Glasswing, Anthropic đưa ra lập trường có nguyên tắc: công cụ mạnh nhất trước hết phải bảo vệ các hệ thống mà tất cả chúng ta phụ thuộc. Hiện tại, Mythos Preview thuộc về một nhóm nhỏ những người phòng thủ đã được thẩm định; với số đông, nó là bản xem trước của giai đoạn năng lực AI tiếp theo.

Bạn có thể dùng Claude API trên CometAPI để chuẩn bị cho sự xuất hiện của Claude Mythos. Sẵn sàng chưa?