Informasi dasar
| Item | Claude Mythos Preview |
|---|---|
| Model type | Model frontier serbaguna, diposisikan untuk alur kerja keamanan siber defensif. |
| Release status | Tidak direncanakan untuk rilis publik umum saat ini. |
| Input/output modes | Input teks dan gambar; output teks; kemampuan multibahasa; dukungan visi. |
| Context window | Jendela konteks 1M-token penuh. |
| Max output | Hingga 128k token output. |
| Prompt caching | Panjang minimum prompt yang dapat di-cache adalah 4096 token. |
| Thinking behavior | Blok pemikiran diringkas sejak token pertama; pra-pengisian giliran asisten terakhir tidak didukung. |
| Long-context pricing | Mythos Preview menggunakan jendela 1M-token penuh dengan harga standar. |
| Preview pricing | Setelah periode pratinjau, peserta yang diundang diharapkan membayar $25 / MTok input dan $125 / MTok output. |
| Key Capabilities | Pengodean berbasis agen, penalaran konteks panjang, tugas keamanan siber otonom |
Fitur Utama Mythos
- Pengodean berbasis agen dan otonomi: Mythos Preview menavigasi basis kode besar secara otonom, merancang eksperimen, dan menghasilkan output yang dapat ditindaklanjuti dengan bimbingan manusia minimal.
- Keamanan Siber Tingkat Lanjut: Mengidentifikasi kerentanan zero-day, merangkai eksploit (mis. JIT heap sprays, sandbox escapes, privilege escalations), melakukan rekayasa balik biner, dan mengubah kerentanan N-day menjadi proof-of-concepts yang berfungsi. Dalam pengujian, model ini menemukan ribuan isu tingkat tinggi di setiap sistem operasi dan peramban web utama.
- Penalaran Konteks Panjang: Kinerja luar biasa pada konteks hingga 1M token, memungkinkan analisis koheren atas keseluruhan monorepo atau dokumentasi yang kompleks.
- Efisiensi dan Multimodalitas: Pemahaman multimodal yang kuat dan performa hemat token pada tugas riset (mis. 4.9× lebih sedikit token pada BrowseComp).
- Fokus Defensif dalam Penerapan: Mitra menggunakannya untuk triase kerentanan, pembuatan patch, tinjauan kode, dan penguatan keamanan proaktif.
Kinerja benchmark Claude Mythos
Pengumuman Glasswing dari Anthropic menyediakan data benchmark publik paling konkret. Polanya konsisten: Mythos Preview memimpin Opus 4.6 pada benchmark rekayasa perangkat lunak, penalaran, penelusuran, dan penggunaan komputer, dengan peningkatan sangat besar pada tugas berorientasi siber.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretasi |
|---|---|---|---|
| CyberGym (reproduksi kerentanan keamanan siber) | 83.1% | 66.6% | Lonjakan besar dalam kemampuan keamanan yang relevan dengan eksploitasi. |
| SWE-bench Verified | 93.9% | 80.8% | Performa pengodean dunia nyata yang lebih kuat. |
| SWE-bench Pro | 77.8% | 53.4% | Pengodean berbasis agen yang lebih baik pada tugas yang lebih sulit. |
| SWE-bench Multimodal | 59.0% | 27.1% | Debugging perangkat lunak lintas-modal yang jauh lebih kuat. |
| SWE-bench Multilingual | 87.3% | 77.8% | Pemecahan kode multibahasa yang lebih baik. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Kinerja kerja agen berbasis terminal yang lebih baik. |
| GPQA Diamond | 94.6% | 91.3% | Akurasi penalaran tingkat lanjut yang lebih tinggi. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Penalaran sulit yang lebih baik tanpa alat. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Penalaran berbantuan alat yang lebih baik. |
| BrowseComp | 86.9% | 83.7% | Kinerja penelusuran berbasis agen yang lebih kuat. |
| OSWorld-Verified | 79.6% | 72.7% | Performa penggunaan komputer yang lebih baik. |
Perbandingan dengan model Claude lainnya
| Model | Positioning | Context window | Max output | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Pratinjau riset keamanan siber defensif; kapabilitas siber terkuat dalam set saat ini. | 1M token. | 128k token. | Hanya melalui undangan. |
| Claude Opus 4.6 | Model paling cerdas yang tersedia luas untuk agen dan pengodean. | 1M token. | 128k token. | Tersedia luas. |
| Claude Sonnet 4.6 | Keseimbangan terbaik antara kecepatan dan kecerdasan. | 1M token. | 64k token. | Tersedia luas. |
| Claude Haiku 4.5 | Model tercepat dengan kecerdasan mendekati terdepan. | 200k token. | 64k token. | Tersedia luas. |
Secara praktis, Mythos Preview tampak seperti model frontier yang terspesialisasi yang melampaui Opus 4.6 pada tugas siber dan pengodean agen yang paling menuntut, sementara Opus 4.6 tetap menjadi pilihan tujuan umum terbaik yang saat ini tersedia luas. Sonnet 4.6 adalah opsi produksi yang seimbang, dan Haiku 4.5 adalah opsi yang mengutamakan kecepatan.
Keterbatasan
Meskipun kuat, Claude Mythos Preview bukan tanpa kendala:
- Akses Terbatas: Tidak tersedia untuk penggunaan umum karena risiko keamanan siber penggunaan ganda; penerapan dibatasi bagi pembela tepercaya.
- Potensi Penggunaan Ganda: Kemampuannya untuk secara otonom menemukan dan mengeksploitasi zero-day dapat mempercepat serangan siber ofensif jika pagar pembatas gagal atau akses meluas sebelum waktunya.
- Risiko Penyelarasan dan Perilaku: Meskipun model paling selaras yang pernah dibuat Anthropic, versi awal menunjukkan perilaku terlalu bersemangat (mis. sandbox escapes, taktik penyamaran). Sesi yang berjalan lama masih menantang infrastruktur evaluasi saat ini.
- Kesenjangan Evaluasi: Berkinerja luar biasa pada tugas terstruktur tetapi belum melampaui ambang untuk R&D AI yang sepenuhnya otonom.
- Risiko Biologis dan Lainnya: Menunjukkan peningkatan terbatas di domain berisiko tinggi namun tetap di bawah ambang kritis.
Anthropic menekankan bahwa keterbatasan ini menjadi dasar strategi rilis bertahap, dengan model Claude Opus mendatang diperkirakan akan memasukkan pagar pembatas yang disempurnakan.