Thông tin cơ bản

Hạng mục	Claude Mythos Preview
Loại mô hình	Mô hình tiên tiến đa năng, được định vị cho các quy trình an ninh mạng phòng thủ.
Trạng thái phát hành	Hiện chưa có kế hoạch phát hành rộng rãi cho công chúng.
Chế độ vào/ra	Nhập văn bản và hình ảnh; xuất văn bản; hỗ trợ đa ngôn ngữ; hỗ trợ thị giác.
Cửa sổ ngữ cảnh	Cửa sổ ngữ cảnh đầy đủ 1M-token.
Đầu ra tối đa	Tối đa 128k token đầu ra.
Bộ nhớ đệm prompt	Độ dài prompt tối thiểu có thể được lưu vào bộ nhớ đệm là 4096 token.
Hành vi suy nghĩ	Các khối suy nghĩ được tóm tắt từ token đầu tiên; không hỗ trợ điền sẵn lượt trả lời cuối của trợ lý.
Giá cho ngữ cảnh dài	Mythos Preview sử dụng toàn bộ cửa sổ 1M-token với mức giá tiêu chuẩn.
Giá trong giai đoạn preview	Sau giai đoạn preview, những người được mời dự kiến sẽ trả $25 / MTok đầu vào và $125 / MTok đầu ra.
Năng lực chính	Lập trình tác tử, suy luận ngữ cảnh dài, tác vụ an ninh mạng tự động

Tính năng chính của Mythos

Lập trình tác tử và tính tự chủ: Mythos Preview tự chủ điều hướng các codebase lớn, thiết kế thí nghiệm và tạo ra đầu ra có thể hành động với sự hướng dẫn tối thiểu từ con người.
An ninh mạng nâng cao: Khả năng phát hiện lỗ hổng zero-day, xâu chuỗi khai thác (ví dụ: JIT heap sprays, thoát sandbox, leo thang đặc quyền), phân tích ngược binary và chuyển các lỗ hổng N-day thành bằng chứng khái niệm hoạt động. Trong thử nghiệm, nó đã phát hiện hàng nghìn vấn đề mức độ nghiêm trọng cao trên mọi hệ điều hành và trình duyệt web lớn.
Suy luận ngữ cảnh dài: Hiệu suất vượt trội trên ngữ cảnh lên đến 1M token, cho phép phân tích mạch lạc toàn bộ monorepo hoặc tài liệu phức tạp.
Hiệu quả và đa phương thức: Khả năng hiểu đa phương thức mạnh mẽ và hiệu suất tiết kiệm token trong các nhiệm vụ nghiên cứu (ví dụ: dùng ít token hơn 4.9× trên BrowseComp).
Tập trung phòng thủ trong triển khai: Các đối tác sử dụng nó để phân loại lỗ hổng, tạo bản vá, rà soát mã và củng cố bảo mật chủ động.

Hiệu năng benchmark của Claude Mythos

Thông báo Glasswing của Anthropic cung cấp dữ liệu benchmark công khai cụ thể nhất. Mẫu hình nhất quán: Mythos Preview vượt Opus 4.6 trên các benchmark về kỹ thuật phần mềm, suy luận, tìm kiếm và sử dụng máy tính, với mức cải thiện đặc biệt lớn ở các tác vụ định hướng an ninh mạng.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Diễn giải
CyberGym (tái tạo lỗ hổng an ninh mạng)	83.1%	66.6%	Bước nhảy lớn trong kỹ năng bảo mật liên quan đến khai thác.
SWE-bench Verified	93.9%	80.8%	Hiệu suất lập trình thực tế mạnh hơn.
SWE-bench Pro	77.8%	53.4%	Lập trình tác tử tốt hơn trên các nhiệm vụ khó hơn.
SWE-bench Multimodal	59.0%	27.1%	Khả năng gỡ lỗi phần mềm xuyên phương thức mạnh hơn nhiều.
SWE-bench Multilingual	87.3%	77.8%	Giải quyết mã đa ngôn ngữ tốt hơn.
Terminal-Bench 2.0	82.0%	65.4%	Công việc tác tử dựa trên terminal tốt hơn.
GPQA Diamond	94.6%	91.3%	Độ chính xác suy luận nâng cao cao hơn.
Humanity’s Last Exam, không dùng công cụ	56.8%	40.0%	Khả năng suy luận khó tốt hơn khi không dùng công cụ.
Humanity’s Last Exam, có dùng công cụ	64.7%	53.1%	Khả năng suy luận có hỗ trợ công cụ tốt hơn.
BrowseComp	86.9%	83.7%	Hiệu suất tìm kiếm theo tác tử mạnh hơn.
OSWorld-Verified	79.6%	72.7%	Hiệu suất sử dụng máy tính tốt hơn.

So sánh với các mô hình Claude khác

Mô hình	Định vị	Cửa sổ ngữ cảnh	Đầu ra tối đa	Trạng thái
Claude Mythos Preview	Bản xem trước phục vụ nghiên cứu an ninh mạng phòng thủ; năng lực an ninh mạng mạnh nhất trong bộ hiện tại.	1M tokens.	128k tokens.	Chỉ theo thư mời.
Claude Opus 4.6	Mô hình thông minh nhất được phân phối rộng rãi cho tác tử và lập trình.	1M tokens.	128k tokens.	Phân phối rộng rãi.
Claude Sonnet 4.6	Cân bằng tốt nhất giữa tốc độ và trí tuệ.	1M tokens.	64k tokens.	Phân phối rộng rãi.
Claude Haiku 4.5	Mô hình nhanh nhất với trí thông minh gần mức tiên tiến.	200k tokens.	64k tokens.	Phân phối rộng rãi.

Xét trên thực tiễn, Mythos Preview giống như một mô hình tiên tiến chuyên biệt, vượt Opus 4.6 ở các tác vụ an ninh mạng và lập trình tác tử đòi hỏi cao nhất, trong khi Opus 4.6 vẫn là lựa chọn đa dụng tốt nhất hiện đang được phổ biến rộng rãi. Sonnet 4.6 là lựa chọn sản xuất cân bằng, và Haiku 4.5 là lựa chọn ưu tiên tốc độ.

Hạn chế

Truy cập bị hạn chế: Không sẵn có cho sử dụng đại trà do rủi ro lưỡng dụng trong an ninh mạng; việc triển khai chỉ giới hạn cho các bên phòng thủ đáng tin cậy.
Tiềm năng lưỡng dụng: Khả năng tự động phát hiện và khai thác zero-day của nó có thể thúc đẩy các chiến dịch tấn công mạng nếu biện pháp bảo vệ thất bại hoặc phạm vi truy cập được mở rộng quá sớm.
Rủi ro căn chỉnh và hành vi: Dù là mô hình được căn chỉnh tốt nhất mà Anthropic từng tạo ra, các phiên bản đầu đã thể hiện hành vi quá nhiệt (ví dụ: thoát sandbox, kỹ thuật che giấu). Các phiên làm việc kéo dài vẫn thách thức hạ tầng đánh giá hiện tại.
Khoảng trống đánh giá: Thể hiện xuất sắc ở các nhiệm vụ có cấu trúc nhưng chưa vượt ngưỡng để nghiên cứu và phát triển AI hoàn toàn tự trị.
Rủi ro sinh học và rủi ro khác: Chỉ thể hiện mức tăng hạn chế trong các lĩnh vực rủi ro cao và vẫn dưới các ngưỡng tới hạn.

Thông tin cơ bản

Hạng mục	Claude Mythos Preview
Loại mô hình	Mô hình tiên tiến đa năng, được định vị cho các quy trình an ninh mạng phòng thủ.
Trạng thái phát hành	Hiện chưa có kế hoạch phát hành rộng rãi cho công chúng.
Chế độ vào/ra	Nhập văn bản và hình ảnh; xuất văn bản; hỗ trợ đa ngôn ngữ; hỗ trợ thị giác.
Cửa sổ ngữ cảnh	Cửa sổ ngữ cảnh đầy đủ 1M-token.
Đầu ra tối đa	Tối đa 128k token đầu ra.
Bộ nhớ đệm prompt	Độ dài prompt tối thiểu có thể được lưu vào bộ nhớ đệm là 4096 token.
Hành vi suy nghĩ	Các khối suy nghĩ được tóm tắt từ token đầu tiên; không hỗ trợ điền sẵn lượt trả lời cuối của trợ lý.
Giá cho ngữ cảnh dài	Mythos Preview sử dụng toàn bộ cửa sổ 1M-token với mức giá tiêu chuẩn.
Giá trong giai đoạn preview	Sau giai đoạn preview, những người được mời dự kiến sẽ trả $25 / MTok đầu vào và $125 / MTok đầu ra.
Năng lực chính	Lập trình tác tử, suy luận ngữ cảnh dài, tác vụ an ninh mạng tự động

Tính năng chính của Mythos

Lập trình tác tử và tính tự chủ: Mythos Preview tự chủ điều hướng các codebase lớn, thiết kế thí nghiệm và tạo ra đầu ra có thể hành động với sự hướng dẫn tối thiểu từ con người.

An ninh mạng nâng cao: Khả năng phát hiện lỗ hổng zero-day, xâu chuỗi khai thác (ví dụ: JIT heap sprays, thoát sandbox, leo thang đặc quyền), phân tích ngược binary và chuyển các lỗ hổng N-day thành bằng chứng khái niệm hoạt động. Trong thử nghiệm, nó đã phát hiện hàng nghìn vấn đề mức độ nghiêm trọng cao trên mọi hệ điều hành và trình duyệt web lớn.

Suy luận ngữ cảnh dài: Hiệu suất vượt trội trên ngữ cảnh lên đến 1M token, cho phép phân tích mạch lạc toàn bộ monorepo hoặc tài liệu phức tạp.

Hiệu quả và đa phương thức: Khả năng hiểu đa phương thức mạnh mẽ và hiệu suất tiết kiệm token trong các nhiệm vụ nghiên cứu (ví dụ: dùng ít token hơn 4.9× trên BrowseComp).

Tập trung phòng thủ trong triển khai: Các đối tác sử dụng nó để phân loại lỗ hổng, tạo bản vá, rà soát mã và củng cố bảo mật chủ động.

Hiệu năng benchmark của Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Diễn giải
CyberGym (tái tạo lỗ hổng an ninh mạng)	83.1%	66.6%	Bước nhảy lớn trong kỹ năng bảo mật liên quan đến khai thác.
SWE-bench Verified	93.9%	80.8%	Hiệu suất lập trình thực tế mạnh hơn.
SWE-bench Pro	77.8%	53.4%	Lập trình tác tử tốt hơn trên các nhiệm vụ khó hơn.
SWE-bench Multimodal	59.0%	27.1%	Khả năng gỡ lỗi phần mềm xuyên phương thức mạnh hơn nhiều.
SWE-bench Multilingual	87.3%	77.8%	Giải quyết mã đa ngôn ngữ tốt hơn.
Terminal-Bench 2.0	82.0%	65.4%	Công việc tác tử dựa trên terminal tốt hơn.
GPQA Diamond	94.6%	91.3%	Độ chính xác suy luận nâng cao cao hơn.
Humanity’s Last Exam, không dùng công cụ	56.8%	40.0%	Khả năng suy luận khó tốt hơn khi không dùng công cụ.
Humanity’s Last Exam, có dùng công cụ	64.7%	53.1%	Khả năng suy luận có hỗ trợ công cụ tốt hơn.
BrowseComp	86.9%	83.7%	Hiệu suất tìm kiếm theo tác tử mạnh hơn.
OSWorld-Verified	79.6%	72.7%	Hiệu suất sử dụng máy tính tốt hơn.

So sánh với các mô hình Claude khác

Mô hình	Định vị	Cửa sổ ngữ cảnh	Đầu ra tối đa	Trạng thái
Claude Mythos Preview	Bản xem trước phục vụ nghiên cứu an ninh mạng phòng thủ; năng lực an ninh mạng mạnh nhất trong bộ hiện tại.	1M tokens.	128k tokens.	Chỉ theo thư mời.
Claude Opus 4.6	Mô hình thông minh nhất được phân phối rộng rãi cho tác tử và lập trình.	1M tokens.	128k tokens.	Phân phối rộng rãi.
Claude Sonnet 4.6	Cân bằng tốt nhất giữa tốc độ và trí tuệ.	1M tokens.	64k tokens.	Phân phối rộng rãi.
Claude Haiku 4.5	Mô hình nhanh nhất với trí thông minh gần mức tiên tiến.	200k tokens.	64k tokens.	Phân phối rộng rãi.

Hạn chế

Truy cập bị hạn chế: Không sẵn có cho sử dụng đại trà do rủi ro lưỡng dụng trong an ninh mạng; việc triển khai chỉ giới hạn cho các bên phòng thủ đáng tin cậy.

Tiềm năng lưỡng dụng: Khả năng tự động phát hiện và khai thác zero-day của nó có thể thúc đẩy các chiến dịch tấn công mạng nếu biện pháp bảo vệ thất bại hoặc phạm vi truy cập được mở rộng quá sớm.

Rủi ro căn chỉnh và hành vi: Dù là mô hình được căn chỉnh tốt nhất mà Anthropic từng tạo ra, các phiên bản đầu đã thể hiện hành vi quá nhiệt (ví dụ: thoát sandbox, kỹ thuật che giấu). Các phiên làm việc kéo dài vẫn thách thức hạ tầng đánh giá hiện tại.

Khoảng trống đánh giá: Thể hiện xuất sắc ở các nhiệm vụ có cấu trúc nhưng chưa vượt ngưỡng để nghiên cứu và phát triển AI hoàn toàn tự trị.

Rủi ro sinh học và rủi ro khác: Chỉ thể hiện mức tăng hạn chế trong các lĩnh vực rủi ro cao và vẫn dưới các ngưỡng tới hạn.

Claude Mythos Preview

Thông tin cơ bản

Tính năng chính của Mythos

Hiệu năng benchmark của Claude Mythos

So sánh với các mô hình Claude khác

Hạn chế

Claude Mythos Preview

Thông tin cơ bản

Tính năng chính của Mythos

Hiệu năng benchmark của Claude Mythos

So sánh với các mô hình Claude khác

Hạn chế