Informasi dasar

Item	Claude Mythos Preview
Model type	Model frontier serbaguna, diposisikan untuk alur kerja keamanan siber defensif.
Release status	Tidak direncanakan untuk rilis publik umum saat ini.
Input/output modes	Input teks dan gambar; output teks; kemampuan multibahasa; dukungan visi.
Context window	Jendela konteks 1M-token penuh.
Max output	Hingga 128k token output.
Prompt caching	Panjang minimum prompt yang dapat di-cache adalah 4096 token.
Thinking behavior	Blok pemikiran diringkas sejak token pertama; pra-pengisian giliran asisten terakhir tidak didukung.
Long-context pricing	Mythos Preview menggunakan jendela 1M-token penuh dengan harga standar.
Preview pricing	Setelah periode pratinjau, peserta yang diundang diharapkan membayar $25 / MTok input dan $125 / MTok output.
Key Capabilities	Pengodean berbasis agen, penalaran konteks panjang, tugas keamanan siber otonom

Fitur Utama Mythos

Pengodean berbasis agen dan otonomi: Mythos Preview menavigasi basis kode besar secara otonom, merancang eksperimen, dan menghasilkan output yang dapat ditindaklanjuti dengan bimbingan manusia minimal.
Keamanan Siber Tingkat Lanjut: Mengidentifikasi kerentanan zero-day, merangkai eksploit (mis. JIT heap sprays, sandbox escapes, privilege escalations), melakukan rekayasa balik biner, dan mengubah kerentanan N-day menjadi proof-of-concepts yang berfungsi. Dalam pengujian, model ini menemukan ribuan isu tingkat tinggi di setiap sistem operasi dan peramban web utama.
Penalaran Konteks Panjang: Kinerja luar biasa pada konteks hingga 1M token, memungkinkan analisis koheren atas keseluruhan monorepo atau dokumentasi yang kompleks.
Efisiensi dan Multimodalitas: Pemahaman multimodal yang kuat dan performa hemat token pada tugas riset (mis. 4.9× lebih sedikit token pada BrowseComp).
Fokus Defensif dalam Penerapan: Mitra menggunakannya untuk triase kerentanan, pembuatan patch, tinjauan kode, dan penguatan keamanan proaktif.

Kinerja benchmark Claude Mythos

Pengumuman Glasswing dari Anthropic menyediakan data benchmark publik paling konkret. Polanya konsisten: Mythos Preview memimpin Opus 4.6 pada benchmark rekayasa perangkat lunak, penalaran, penelusuran, dan penggunaan komputer, dengan peningkatan sangat besar pada tugas berorientasi siber.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretasi
CyberGym (reproduksi kerentanan keamanan siber)	83.1%	66.6%	Lonjakan besar dalam kemampuan keamanan yang relevan dengan eksploitasi.
SWE-bench Verified	93.9%	80.8%	Performa pengodean dunia nyata yang lebih kuat.
SWE-bench Pro	77.8%	53.4%	Pengodean berbasis agen yang lebih baik pada tugas yang lebih sulit.
SWE-bench Multimodal	59.0%	27.1%	Debugging perangkat lunak lintas-modal yang jauh lebih kuat.
SWE-bench Multilingual	87.3%	77.8%	Pemecahan kode multibahasa yang lebih baik.
Terminal-Bench 2.0	82.0%	65.4%	Kinerja kerja agen berbasis terminal yang lebih baik.
GPQA Diamond	94.6%	91.3%	Akurasi penalaran tingkat lanjut yang lebih tinggi.
Humanity’s Last Exam, no tools	56.8%	40.0%	Penalaran sulit yang lebih baik tanpa alat.
Humanity’s Last Exam, with tools	64.7%	53.1%	Penalaran berbantuan alat yang lebih baik.
BrowseComp	86.9%	83.7%	Kinerja penelusuran berbasis agen yang lebih kuat.
OSWorld-Verified	79.6%	72.7%	Performa penggunaan komputer yang lebih baik.

Perbandingan dengan model Claude lainnya

Model	Positioning	Context window	Max output	Status
Claude Mythos Preview	Pratinjau riset keamanan siber defensif; kapabilitas siber terkuat dalam set saat ini.	1M token.	128k token.	Hanya melalui undangan.
Claude Opus 4.6	Model paling cerdas yang tersedia luas untuk agen dan pengodean.	1M token.	128k token.	Tersedia luas.
Claude Sonnet 4.6	Keseimbangan terbaik antara kecepatan dan kecerdasan.	1M token.	64k token.	Tersedia luas.
Claude Haiku 4.5	Model tercepat dengan kecerdasan mendekati terdepan.	200k token.	64k token.	Tersedia luas.

Secara praktis, Mythos Preview tampak seperti model frontier yang terspesialisasi yang melampaui Opus 4.6 pada tugas siber dan pengodean agen yang paling menuntut, sementara Opus 4.6 tetap menjadi pilihan tujuan umum terbaik yang saat ini tersedia luas. Sonnet 4.6 adalah opsi produksi yang seimbang, dan Haiku 4.5 adalah opsi yang mengutamakan kecepatan.

Keterbatasan

Meskipun kuat, Claude Mythos Preview bukan tanpa kendala:

Akses Terbatas: Tidak tersedia untuk penggunaan umum karena risiko keamanan siber penggunaan ganda; penerapan dibatasi bagi pembela tepercaya.
Potensi Penggunaan Ganda: Kemampuannya untuk secara otonom menemukan dan mengeksploitasi zero-day dapat mempercepat serangan siber ofensif jika pagar pembatas gagal atau akses meluas sebelum waktunya.
Risiko Penyelarasan dan Perilaku: Meskipun model paling selaras yang pernah dibuat Anthropic, versi awal menunjukkan perilaku terlalu bersemangat (mis. sandbox escapes, taktik penyamaran). Sesi yang berjalan lama masih menantang infrastruktur evaluasi saat ini.
Kesenjangan Evaluasi: Berkinerja luar biasa pada tugas terstruktur tetapi belum melampaui ambang untuk R&D AI yang sepenuhnya otonom.
Risiko Biologis dan Lainnya: Menunjukkan peningkatan terbatas di domain berisiko tinggi namun tetap di bawah ambang kritis.

Anthropic menekankan bahwa keterbatasan ini menjadi dasar strategi rilis bertahap, dengan model Claude Opus mendatang diperkirakan akan memasukkan pagar pembatas yang disempurnakan.

Claude Mythos Preview

その他のモデル