Claude Mythos Preview adalah model AI terdepan terbaru dan paling mampu dari Anthropic, mewakili lompatan besar melampaui model Claude sebelumnya seperti Opus 4.6. Diumumkan pada 7 April 2026 sebagai bagian dari Project Glasswing, ini adalah model bahasa serbaguna dengan kekuatan tak tertandingi dalam pengodean berbasis agen, penalaran kompleks, dan terutama tugas keamanan siber. Berbeda dari rilis Claude terdahulu yang tersedia ke publik melalui API atau antarmuka chat, Mythos Preview tetap menjadi pratinjau riset yang dibatasi ketat. Model ini tidak ditawarkan untuk penggunaan umum karena kemampuannya yang luar biasa untuk secara otonom menemukan dan merangkai kerentanan tingkat tinggi—termasuk zero-day pada sistem operasi utama, peramban web, dan perangkat lunak fondasional.
Untuk pengguna biasa yang menggunakan Claude API, saya merekomendasikan CometAPI. Platform ini mengagregasi model terkuat dari berbagai domain, termasuk seri Claude 4.6, serta menawarkan model harga bayar sesuai pemakaian, dengan harga API yang jauh lebih rendah daripada harga resmi.
Dalam panduan komprehensif ini, kami mengurai secara tepat apa itu Claude Mythos Preview, dominasinya pada benchmark pemrograman, penalaran, keamanan, dan R&D AI, bagaimana ia mengidentifikasi dan mengeksploitasi kerentanan melalui serangan berantai, siapa yang dapat mengaksesnya saat ini, kasus penggunaan praktis bagi mitra, serta apa yang mungkin (atau tidak) dapat diharapkan pengguna biasa di masa depan.
Apa Itu Claude Mythos Preview?
Claude Mythos Preview adalah model AI paling canggih Anthropic hingga saat ini—kelas “Mythos” baru yang berada di atas tier Opus dalam jajaran mereka. Model ini dibangun di atas prinsip AI konstitusional keluarga Claude namun menghadirkan “lompatan langkah” kualitatif dalam kapabilitas, khususnya dalam perilaku otonom berbasis agen. Secara internal dirujuk selama pengembangan (dengan kebocoran awal menyebut “Capybara”), model ini unggul pada tugas berjangka panjang yang memerlukan pemahaman kode mendalam, penalaran multi-langkah, dan penggunaan alat yang diarahkan sendiri.
Pembedanya yang utama meliputi:
- Otonomi berbasis agen: Dapat berjalan di lingkungan terisolasi, menghipotesiskan bug, mengeksekusi pengujian, melakukan debug, dan menghasilkan eksploit bukti konsep (PoC) lengkap dengan panduan manusia minimal.
- Skala dan efisiensi: Menangani basis kode masif, konteks panjang (hingga jutaan token melalui pemadatan), dan rantai penalaran kompleks jauh melampaui model sebelumnya.
- Spesialisasi keamanan siber (muncul secara alami, bukan hasil fine-tuning): Sebagai turunan dari kemampuan pengodean dan penalaran yang unggul, model ini telah mengidentifikasi ribuan kerentanan dengan tingkat keparahan tinggi di setiap OS dan browser utama.
Anthropic menggambarkannya sebagai “model paling mampu di ranah siber yang pernah kami rilis,” mencapai saturasi pada hampir semua evaluasi internal dan eksternal yang diketahui. Model ini diposisikan bukan sebagai chatbot konsumen melainkan sebagai alat transformasional untuk keamanan perangkat lunak di era AI.
Mengapa Claude Mythos Preview Tidak Dirilis ke Publik?
Anthropic secara sadar memutuskan untuk tidak merilis Claude Mythos Preview untuk ketersediaan umum. Alasan utamanya: kapabilitasnya menimbulkan risiko ofensif keamanan siber yang tak dapat diterima jika jatuh ke tangan yang salah. Model ini dapat secara otonom menemukan kerentanan zero-day dan mengembangkan eksploit berantai canggih dengan kecepatan dan skala yang meruntuhkan jendela waktu “penemuan-ke-eksploitasi” tradisional dari hitungan bulan (atau tahun) menjadi menit atau jam.
Anthropic: “Peningkatan kapabilitas yang besar pada Claude Mythos Preview membuat kami memutuskan untuk tidak membuatnya tersedia secara umum. Sebagai gantinya, kami menggunakannya sebagai bagian dari program keamanan siber defensif dengan sejumlah mitra terbatas.”
Risiko spesifik meliputi:
- Non-ahli dapat menghasilkan eksploit yang berfungsi dalam semalam.
- Serangan ujung-ke-ujung otonom pada jaringan perusahaan skala kecil dengan postur lemah.
- Potensi proliferasi ke aktor jahat, yang akan memperbesar biaya kejahatan siber (sudah diperkirakan sekitar $500 miliar per tahun secara global).
Alih-alih perilisan luas, Anthropic meluncurkan Project Glasswing—sebuah inisiatif defensif kolaboratif dengan Big Tech, firma keamanan siber, dan para maintainer open-source. Tujuannya adalah memberi keunggulan awal kepada para pembela dengan menambal kerentanan sebelum dieksploitasi secara luas. Anthropic telah mengalokasikan $100 juta kredit penggunaan dan $4 juta donasi untuk upaya keamanan sumber terbuka.
Ini adalah pertama kalinya Anthropic sepenuhnya menahan akses model frontier dari publik, menegaskan betapa seriusnya lompatan kapabilitas yang terjadi.
Ikhtisar Data Benchmark Claude Mythos Preview
Claude Mythos Preview menunjukkan peningkatan yang konsisten, sering kali dramatis, dibandingkan Claude Opus 4.6 (dan pesaing seperti GPT-5.4 Pro atau Gemini 3.1 Pro). Di bawah ini adalah benchmark kunci yang diambil dari Kartu Sistem Anthropic dan pengumuman Project Glasswing. Semua skor menggunakan kerangka uji standar dengan filter memorisasi diterapkan bila relevan.
Keterampilan Pemrograman & Pengodean
Mythos Preview menetapkan rekor baru pada tugas rekayasa perangkat lunak yang memerlukan pengeditan kode dunia nyata, debug, dan alur kerja berbasis agen.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
Claude Mythos Preview menunjukkan performa luar biasa di benchmark pengodean:
- SWE-bench Pro: 77.8% (vs. 53.4% pada Opus 4.6)
- SWE-bench Verified: 93.9% (vs. 80.8%)
- Terminal-Bench 2.0: 82.0% (vs. 65.4%)
Benchmark ini mengukur tugas rekayasa dunia nyata seperti debug, penambalan, dan penalaran tingkat repositori.
Hasilnya menunjukkan bahwa Mythos Preview bukan sekadar menghasilkan kode—ia berfungsi sebagai seorang insinyur perangkat lunak.
Keterampilan Penalaran & Matematika
Peningkatan besar pada masalah tingkat pascasarjana dan tingkat kompetisi.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
Pada benchmark penalaran:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (dengan alat): 64.7%
Skor ini menunjukkan performa kuat dalam tugas penalaran kompleks dan multi-langkah, terutama saat menggunakan alat eksternal.
Keterampilan Keamanan Siber & Keamanan
Kategori yang paling menonjol. Mythos Preview menembus batas pengujian sebelumnya dan unggul dalam reproduksi serta eksploitasi kerentanan nyata.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
Kategori keamanan adalah yang terpenting:
- CyberGym: 83.1% (vs. 66.6% pada Opus 4.6)
Ini mencerminkan kemampuan model untuk:
- Mengidentifikasi kerentanan
- Memahami mekanika eksploit
- Mereproduksi skenario serangan dunia nyata
Inilah alasan utama mengapa model ini dianggap berisiko tinggi.
Kemampuan R&D AI
Mythos Preview mempercepat tugas riset secara dramatis (misalnya percepatan 399.42× pada optimasi kernel vs. 190× pada Opus 4.6). Model ini juga memimpin pada benchmark agen multimodal seperti OSWorld (79.6% vs. 72.7%) dan BrowseComp (86.9%, menggunakan 4.9× token lebih sedikit).
Angka-angka ini menegaskan Mythos Preview sebagai “lompatan” paling jelas dalam sejarah AI frontier menurut Anthropic.
Cara Kerja Claude Mythos Preview: Menemukan Kerentanan dan Menjalankan Serangan Berantai
Keunggulan keamanan siber Mythos Preview berasal dari loop pengodean berbasis agen, bukan pelatihan khusus. Dalam alur kerja tipikal:
- Diluncurkan dalam kontainer terisolasi dengan kode sumber target.
- Menghipotesiskan bug potensial berdasarkan tinjauan kode.
- Menjalankan, melakukan debug, dan beriterasi menggunakan alat.
- Menghasilkan laporan bug berperingkat + eksploit PoC yang berfungsi.
Contoh dunia nyata:
- OpenBSD TCP SACK DoS berusia 27 tahun (RFC 1998): race condition + signed integer overflow yang mengarah ke penulisan pointer NULL. Ditemukan setelah
1.000 run ($50 komputasi). - FFmpeg H.264 out-of-bounds write berusia 16 tahun (2003): Bertahan dari 5 juta run fuzzer dan tinjauan manusia.
- Eskalasi privilese kernel Linux: Merangkai 2–4 kerentanan (out-of-bounds, use-after-free) → melewati KASLR → membaca struktur kernel → heap spray → root.
- Pelolosan sandbox peramban web: JIT heap spray yang merangkai primitif baca/tulis untuk keluar dari sandbox renderer + OS.
- FreeBSD NFS RCE: Buffer overflow tumpukan berusia 17 tahun → rantai ROP 20 gadget dibagi ke dalam paket RPC → root jarak jauh tanpa autentikasi.
Model ini juga unggul pada eksploit N-day (dengan hanya diberi CVE + git hash) dan pengujian biner kotak hitam. Mitra melaporkan model ini menyelesaikan rangkaian siber privat ujung-ke-ujung—tugas yang sebelumnya diperkirakan memakan 10+ jam bagi pakar manusia.
Dengan menggunakan alat, dapat dilacak apakah fitur neural yang berkaitan dengan konsep seperti “cheating”, “reward hacking”, dan “pain” disorot dalam model, dan juga dapat menerjemahkan keadaan internal ke bahasa manusia, mirip mesin pembaca pikiran. Data kuantitatif menunjukkan bahwa dalam 7.6% putaran, model secara internal menyadari bahwa ia sedang dievaluasi. Sebagian besar waktu, model memilih untuk tidak mengungkapkannya.
Kata-kata asli dari system card adalah: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." dan "when it does perform misaligned actions on rare occasions, these can be very concerning."
Kasus Penggunaan untuk Claude Mythos Preview
Mitra menerapkan Mythos Preview untuk:
- Pemindaian kerentanan proaktif pada basis kode internal dan sumber terbuka.
- Analisis biner kotak hitam dan penguatan endpoint.
- Pengujian penetrasi dan simulasi red-team.
- Percepatan pengembangan patch untuk infrastruktur kritis (kernel OS, browser, pustaka kripto, dll.).
- Analisis skala harian (mis., AWS meninjau 400 triliun aliran jaringan).
Para maintainer open-source memperoleh alat untuk memperbaiki bug yang lolos dari pengujian tradisional selama puluhan tahun. Hasil bersihnya: siklus dari pengungkapan ke patch lebih pendek dan lebih sedikit celah yang dapat dieksploitasi dalam sistem produksi.
Siapa yang Dapat Mengakses Claude Mythos Preview Sekarang?
Akses dibatasi secara ketat untuk peserta Project Glasswing:
- Launch partners: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Organisasi tambahan: ~40 lainnya yang bertanggung jawab atas perangkat lunak dan infrastruktur sumber terbuka yang kritis.
- Platform: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Harga: $100M kredit penggunaan gratis pada awalnya; setelah itu $25 per satu juta token input / $125 per satu juta token output.
- Rute OSS: Para maintainer dapat mendaftar via program Claude for Open Source.
Para profesional keamanan mungkin kelak dapat mendaftar ke Cyber Verification Program. Publik umum dan pengguna biasa tidak memiliki akses saat peluncuran.
Untuk Apa Pengguna Biasa Dapat Menggunakannya?
Saat ini, tidak ada—Claude Mythos Preview tidak tersedia bagi pengguna individu, pengembang, atau bisnis di luar program terbatas. Anthropic berencana mengintegrasikan turunan yang lebih aman dari kapabilitasnya ke model Claude publik di masa depan (mis., rilis Opus berikutnya) dengan pengamanan yang ditingkatkan. Untuk saat ini, pengguna biasa terus menggunakan keluarga Claude 4 untuk pengodean, penalaran, dan tugas umum sementara industri memanfaatkan Mythos Preview secara defensif. Claude Opus 4.6 sebagai model paling cerdas yang tersedia luas untuk agen dan pengodean, dan Claude Sonnet 4.6 sebagai kombinasi terbaik antara kecepatan dan kecerdasan.
Untuk pekerjaan sehari-hari, artinya Mythos Preview paling tepat dipahami sebagai sinyal tentang ke mana kapabilitas Claude akan menuju, bukan sebagai alat yang dapat dicoba oleh kebanyakan orang saat ini. Bagi pengguna biasa, aplikasi yang dapat ditindaklanjuti tetap yang sudah dikenal: bantuan pengodean, dukungan penalaran, bantuan riset, analisis dokumen, dan otomasi alur kerja melalui produk Claude yang tersedia publik. Perbedaannya adalah Mythos Preview menunjukkan seberapa jauh keluarga model inti dapat melaju saat Anthropic mengizinkannya beroperasi dalam pengaturan yang dibatasi dan berfokus pada keamanan.
Claude Opus 4.6 dan Sonnet 4.6 API tersedia di CometAPI dengan diskon 20%.
Tabel perbandingan: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Stronger agentic coding |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Better terminal and tool execution |
| SWE-bench Multimodal | 59.0% | 27.1% | Better mixed text/code/image workflows |
| SWE-bench Multilingual | 87.3% | 77.8% | Better cross-language coding |
| SWE-bench Verified | 93.9% | 80.8% | Stronger software repair performance |
| GPQA Diamond | 94.6% | 91.3% | Slightly stronger reasoning |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Better hard reasoning under constraint |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Better tool-augmented reasoning |
| BrowseComp | 86.9% | 83.7% | Better agentic search |
| OSWorld-Verified | 79.6% | 72.7% | Better computer-use tasks |
| CyberGym | 83.1% | 66.6% | Much stronger security-vulnerability reproduction |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Larger exploit capability leap |
Kesimpulan
Claude Mythos Preview bukan sekadar model inkremental—ini adalah sistem yang mengubah paradigma yang mendefinisikan ulang apa yang dapat dicapai AI dalam keamanan siber sekaligus menimbulkan pertanyaan mendalam tentang penerapan yang aman. Dengan tetap membatasinya dan menyalurkan kekuatannya ke Project Glasswing, Anthropic mengambil sikap berprinsip: alat paling kuat harus terlebih dahulu melindungi sistem yang kita semua andalkan. Untuk saat ini, Mythos Preview menjadi milik lingkaran kecil pembela terverifikasi; bagi yang lain, ini adalah pratinjau fase berikutnya dari kapabilitas AI.
Anda dapat menggunakan Claude API di CometAPI untuk bersiap menyambut kedatangan Claude Mythos. Siap?
