Claude Mythos Preview akan datang: Bolehkah saya menggunakan model kelas teratas ini sekarang?

Claude Mythos Preview ialah model AI termaju dan terkini daripada Anthropic, mewakili lonjakan ketara melampaui model Claude sebelumnya seperti Opus 4.6. Diumumkan pada 7 April 2026 sebagai sebahagian daripada Project Glasswing, ia ialah model bahasa tujuan umum dengan kekuatan luar biasa dalam pengaturcaraan beragen, penaakulan kompleks, dan terutamanya tugas keselamatan siber. Tidak seperti keluaran Claude terdahulu yang tersedia kepada orang ramai melalui API atau antara muka sembang, Mythos Preview kekal sebagai pratonton penyelidikan yang sangat terhad. Ia tidak ditawarkan untuk penggunaan umum kerana keupayaannya yang luar biasa untuk secara autonomi menemui dan merantai kelemahan berkeparahan tinggi—termasuk zero-day dalam sistem pengendalian utama, pelayar web, dan perisian asas.

Bagi pengguna biasa yang menggunakan Claude API, saya mengesyorkan CometAPI. Ia mengagregat model terkuat daripada pelbagai domain, termasuk siri Claude 4.6, dan menawarkan model harga bayar mengikut penggunaan, dengan harga API jauh lebih rendah daripada harga rasmi.

Dalam panduan komprehensif ini, kami menghuraikan dengan tepat apakah Claude Mythos Preview, penguasaannya dalam penanda aras pengaturcaraan, penaakulan, keselamatan, dan R&D AI, bagaimana ia mengenal pasti dan mengeksploit kelemahan melalui serangan berantai, siapa yang boleh mengaksesnya hari ini, kes penggunaan praktikal untuk rakan kongsi, serta apa yang pengguna biasa mungkin (atau mungkin tidak) jangkakan pada masa hadapan.

Apakah Claude Mythos Preview?

Claude Mythos Preview ialah model AI paling maju Anthropic setakat ini—kelas “Mythos” baharu yang berada di atas peringkat Opus sedia ada dalam barisan mereka. Ia dibina di atas prinsip AI perlembagaan keluarga Claude tetapi menyampaikan “lonjakan kualitatif” dalam keupayaan, khususnya dalam tingkah laku berautonomi agen. Dirujuk secara dalaman semasa pembangunan (dengan kebocoran awal menyebut “Capybara”), ia cemerlang dalam tugas jangka panjang yang memerlukan pemahaman kod yang mendalam, penaakulan berbilang langkah, dan penggunaan alat yang diarahkan sendiri.

Pembeza utama termasuk:

Autonomi beragen: Ia boleh berjalan dalam persekitaran terasing, menghipotesis pepijat, melaksanakan ujian, menyahpepijat, dan mengeluarkan eksploit bukti konsep (PoC) lengkap dengan bimbingan manusia yang minimum.
Skala dan kecekapan: Mengendalikan pangkalan kod besar, konteks panjang (sehingga berjuta-juta token melalui pemadatan), dan rantaian penaakulan kompleks yang jauh melampaui model sebelumnya.
Penyepesialan keselamatan siber (bermuncul, bukan ditala halus): Terbit daripada keupayaan pengaturcaraan dan penaakulan unggul, ia telah mengenal pasti ribuan kelemahan berkeparahan tinggi merentasi setiap OS dan pelayar utama.

Anthropic menggambarkannya sebagai “model paling berkeupayaan siber yang kami keluarkan,” menepukan hampir semua penilaian dalaman dan luaran yang diketahui. Ia diposisikan bukan sebagai chatbot pengguna, tetapi sebagai alat transformatif untuk keselamatan perisian dalam era AI.

Mengapa Claude Mythos Preview Tidak Dikeluarkan Secara Umum?

Anthropic membuat keputusan sengaja untuk tidak mengeluarkan Claude Mythos Preview untuk ketersediaan umum. Sebab utama: keupayaannya menimbulkan risiko keselamatan siber ofensif yang tidak boleh diterima jika jatuh ke tangan yang salah. Model ini boleh secara autonomi menemui kelemahan zero-day dan membangunkan eksploit berangkai yang canggih pada kelajuan dan skala yang meruntuhkan tetingkap “penemuan-ke-eksploitasi” tradisional daripada berbulan (atau bertahun) kepada minit atau jam.

Anthropic: “Peningkatan besar dalam keupayaan Claude Mythos Preview telah membawa kami memutuskan untuk tidak menjadikannya tersedia secara umum. Sebaliknya, kami menggunakannya sebagai sebahagian daripada program keselamatan siber defensif dengan set rakan kongsi terhad.”

Risiko khusus termasuk:

Bukan pakar boleh menjana eksploit berfungsi dalam semalaman.
Serangan hujung-ke-hujung autonomi ke atas rangkaian perusahaan berskala kecil dengan postur lemah.
Potensi penyebaran kepada pelaku berniat jahat, memperbesarkan kos jenayah siber (kini dianggarkan sekitar ~$500 billion setiap tahun secara global).

Sebagai ganti keluaran meluas, Anthropic melancarkan Project Glasswing—inisiatif defensif kolaboratif dengan Big Tech, firma keselamatan siber, dan penyelenggara sumber terbuka. Matlamatnya ialah memberi pembela kelebihan awal dengan menampal kelemahan sebelum ia dieksploitasi secara meluas. Anthropic telah memperuntukkan $100 juta dalam kredit penggunaan dan $4 juta dalam derma kepada usaha keselamatan sumber terbuka.

Ini ialah kali pertama Anthropic menahan model frontier sepenuhnya daripada akses awam, menekankan keseriusan lonjakan keupayaan tersebut.

Gambaran Data Penanda Aras Claude Mythos Preview

Claude Mythos Preview menunjukkan peningkatan yang konsisten, sering kali dramatik, berbanding Claude Opus 4.6 (dan pesaing seperti GPT-5.4 Pro atau Gemini 3.1 Pro). Di bawah ialah penanda aras utama yang diekstrak daripada Kad Sistem Anthropic dan pengumuman Project Glasswing. Semua skor menggunakan harness standard dengan penapis penghafalan digunakan jika berkaitan.

Kemahiran Pengaturcaraan & Pengekodan

Mythos Preview menetapkan rekod baharu dalam tugas kejuruteraan perisian yang memerlukan penyuntingan kod dunia sebenar, penyahpepijatan, dan aliran kerja beragen.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
SWE-bench Verified	93.9%	80.8%	+13.1%	500 masalah; ditapis penghafalan
SWE-bench Pro	77.8%	53.4%	+24.4%	731 masalah
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 masalah
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Rangka ujian dalaman
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Tugas terminal beragen

Claude Mythos Preview menunjukkan prestasi cemerlang dalam penanda aras pengekodan:

SWE-bench Pro: 77.8% (vs. 53.4% dalam Opus 4.6)
SWE-bench Verified: 93.9% (vs. 80.8%)
Terminal-Bench 2.0: 82.0% (vs. 65.4%)

Penanda aras ini mengukur tugas kejuruteraan dunia sebenar seperti penyahpepijatan, pemadanan tampalan, dan penaakulan pada peringkat repositori.

Keputusan ini menunjukkan bahawa Mythos Preview bukan sekadar menjana kod—ia berfungsi sebagai jurutera perisian.

Kemahiran Penaakulan & Matematik

Lonjakan besar dalam masalah peringkat siswazah dan gred pertandingan.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
USAMO 2026	97.6%	42.3%	+55.3%	Berasaskan bukti; 6 soalan
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 soalan
HLE (with tools)	64.7%	53.1%	+11.6%	Alat web/kod
GPQA Diamond	94.6%	91.3%	+3.3%	Sains peringkat siswazah
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M token

Dalam penanda aras penaakulan:

GPQA Diamond: 94.6%
Humanity’s Last Exam (dengan alat): 64.7%

Skor ini menunjukkan prestasi kukuh dalam tugas penaakulan kompleks dan berbilang langkah, khususnya apabila alat luaran digunakan.

Kemahiran Keselamatan Siber & Keselamatan

Kategori yang paling menonjol. Mythos Preview menepukan ujian terdahulu dan cemerlang dalam reproduksi serta eksploitasi kelemahan sebenar.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 tugas kelemahan tersasar
Cybench	100% pass@1	Lebih rendah (tidak dinyatakan)	—	35 cabaran
Firefox 147 Exploitation	Jauh lebih tinggi (PoC boleh diharap)	2/beratus percubaan	Lonjakan kualitatif	Bukti konsep (PoC) daripada crash

Kategori penanda aras terpenting ialah keselamatan:

CyberGym: 83.1% (vs. 66.6% dalam Opus 4.6)

Ini mencerminkan keupayaan model untuk:

Mengenal pasti kelemahan
Memahami mekanik eksploit
Menghasilkan semula senario serangan dunia sebenar

Inilah sebab utama model ini dianggap berisiko tinggi.

Keupayaan R&D AI

Mythos Preview mempercepat tugas penyelidikan secara dramatik (contohnya, pecutan 399.42× pada pengoptimuman kernel vs. 190× bagi Opus 4.6). Ia juga mendahului penanda aras beragen multimodal seperti OSWorld (79.6% vs. 72.7%) dan BrowseComp (86.9%, menggunakan 4.9× lebih sedikit token).

Angka-angka ini mengesahkan Mythos Preview sebagai “lonjakan” paling jelas dalam sejarah AI frontier menurut Anthropic.

Cara Claude Mythos Preview Berfungsi: Mencari Kelemahan dan Melaksanakan Serangan Berantai

Kehebatan keselamatan siber Mythos Preview berpunca daripada gelung pengekodan beragen, bukan latihan khusus. Dalam aliran kerja tipikal:

Dilancarkan dalam bekas terasing dengan kod sumber sasaran.
Menghipotesis pepijat berpotensi berdasarkan semakan kod.
Melaksana, menyahpepijat, dan beriterasi menggunakan alat.
Menghasilkan laporan pepijat berkeutamaan + eksploit PoC yang berfungsi.

Contoh dunia sebenar:

OpenBSD TCP SACK DoS berusia 27 tahun (RFC 1998): Keadaan perlumbaan + limpahan integer bertanda yang membawa kepada penulisan penuding NULL. Ditemui selepas ~~1,000 larian (~~$50 komput).
FFmpeg H.264 out-of-bounds write berusia 16 tahun (2003): Terselamat 5 juta larian fuzzer dan semakan manusia.
Peningkatan keistimewaan kernel Linux: Merantai 2–4 kelemahan (out-of-bounds, use-after-free) → memintas KASLR → baca struktur kernel → heap spray → root.
Pelarik web meloloskan sandbox: Heap spray JIT merantai primitif baca/tulis untuk keluar daripada sandbox renderer + OS.
FreeBSD NFS RCE: Limpahan timbunan berusia 17 tahun → rantaian ROP 20-gadget yang dipecah merentasi paket RPC → root jauh tanpa pengesahan.

Ia juga cemerlang dalam eksploit N-day (diberi hanya CVE + git hash) dan pengujian binari kotak hitam. Rakan kongsi melaporkan ia menyelesaikan medan siber peribadi secara hujung-ke-hujung—tugas yang sebelum ini dianggarkan mengambil 10+ jam untuk pakar manusia.

Dengan menggunakan alat, boleh menjejak sama ada ciri neural yang sepadan dengan konsep seperti “menipu,” “peretasan ganjaran,” dan “kesakitan” diserlahkan dalam model, dan juga boleh menterjemah keadaan dalaman kepada bahasa manusia, seumpama mesin pembaca minda. Data kuantitatif menunjukkan bahawa dalam 7.6% pusingan, model secara dalaman menyedari bahawa ia sedang dinilai. Kebanyakan masa, ia memilih untuk tidak menyatakannya.

Kata-kata asal kad sistem ialah: “Claude Mythos Preview ialah model yang paling terjajar daripada mana-mana model yang kami latih setakat ini mengikut hampir semua ukuran yang tersedia.” dan “apabila ia melakukan tindakan tidak terjajar pada kesempatan yang jarang berlaku, ini boleh menjadi sangat membimbangkan.”

Kes Penggunaan untuk Claude Mythos Preview

Rakan kongsi menggunakan Mythos Preview untuk:

Pengimbasan kelemahan proaktif ke atas pangkalan kod pihak pertama dan sumber terbuka.
Analisis binari kotak hitam dan pengerasan titik akhir.
Ujian penembusan dan simulasi pasukan merah.
Mempercepat pembangunan tampalan untuk infrastruktur kritikal (kernel OS, pelayar, pustaka kripto, dll.).
Analisis skala harian (contohnya, AWS menyemak 400 trilion aliran rangkaian).

Penyelenggara sumber terbuka memperoleh alat untuk membaiki pepijat yang telah bertahan selama dekad ujian tradisional. Hasil bersih: kitaran pendedahan-ke-tampalan yang lebih pendek dan lebih sedikit kelemahan boleh dieksploit dalam sistem produksi.

Siapa Boleh Mengakses Claude Mythos Preview Sekarang?

Akses sangat terhad kepada peserta Project Glasswing:

Rakan pelancaran: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Organisasi tambahan: ~40 lagi yang bertanggungjawab ke atas perisian kritikal dan infrastruktur sumber terbuka.
Platform: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Harga: Kredit penggunaan percuma $100M pada permulaan; selepas itu $25 per sejuta input / $125 per sejuta output token.
Laluan OSS: Penyelenggara boleh memohon melalui program Claude for Open Source.

Profesional keselamatan mungkin kemudian memohon ke Program Pengesahan Siber. Orang ramai dan pengguna biasa tiada akses semasa pelancaran.

Apakah Yang Boleh Digunakan oleh Pengguna Biasa?

Pada masa ini, tiada apa-apa—Claude Mythos Preview tidak tersedia kepada pengguna individu, pembangun, atau perniagaan di luar program terhad. Anthropic merancang untuk menggabungkan derivatif yang lebih selamat daripada keupayaannya ke dalam model Claude awam pada masa hadapan (contohnya, keluaran Opus seterusnya) dengan perlindungan yang dipertingkat. Buat masa ini, pengguna biasa terus menggunakan keluarga Claude 4 untuk pengaturcaraan, penaakulan, dan tugas umum sementara industri memanfaatkan Mythos Preview secara defensif. Claude Opus 4.6 sebagai model paling pintar yang tersedia secara meluas untuk agen dan pengekodan, dan Claude Sonnet 4.6 sebagai gabungan terbaik antara kelajuan dan kecerdasan.

Untuk kerja harian, ini bermakna Mythos Preview paling baik difahami sebagai isyarat ke mana keupayaan Claude sedang menuju, bukan sebagai alat yang boleh dicuba kebanyakan orang sekarang. Bagi pengguna biasa, aplikasi yang boleh diambil tindakan kekal seperti biasa: bantuan pengekodan, sokongan penaakulan, bantuan penyelidikan, analisis dokumen, dan automasi aliran kerja melalui produk Claude awam. Perbezaannya ialah Mythos Preview menunjukkan sejauh mana keluarga model asas boleh pergi apabila Anthropic membenarkannya beroperasi dalam tetapan terhad berfokus keselamatan.

Claude Opus 4.6 dan Sonnet 4.6 API tersedia di CometAPI dengan diskaun 20%.

Jadual perbandingan: Claude Mythos Preview vs. Opus 4.6

Benchmark / keupayaan	Claude Mythos Preview	Claude Opus 4.6	Kepentingannya
SWE-bench Pro	77.8%	53.4%	Pengaturcaraan beragen lebih kuat
Terminal-Bench 2.0	82.0%	65.4%	Pelaksanaan terminal dan alat lebih baik
SWE-bench Multimodal	59.0%	27.1%	Aliran kerja teks/kod/imej bercampur lebih baik
SWE-bench Multilingual	87.3%	77.8%	Pengekodan rentas bahasa lebih baik
SWE-bench Verified	93.9%	80.8%	Prestasi pembaikan perisian lebih kukuh
GPQA Diamond	94.6%	91.3%	Penaakulan sedikit lebih kuat
Humanity’s Last Exam, tanpa alat	56.8%	40.0%	Penaakulan sukar di bawah kekangan lebih baik
Humanity’s Last Exam, dengan alat	64.7%	53.1%	Penaakulan diperkasa alat lebih baik
BrowseComp	86.9%	83.7%	Carian beragen lebih baik
OSWorld-Verified	79.6%	72.7%	Tugas penggunaan komputer lebih baik
CyberGym	83.1%	66.6%	Replikasi kelemahan keselamatan jauh lebih kuat
Ujian gaya OSS-Fuzz	10 pengambilalihan tier-5	1 hasil tier-3 dalam perbandingan yang dirujuk	Lonjakan keupayaan eksploit lebih besar

Kesimpulan

Claude Mythos Preview bukan sekadar model bertambah baik lain—ia ialah sistem pengubah paradigma yang mentakrifkan semula pencapaian AI dalam keselamatan siber sambil menimbulkan persoalan mendalam tentang penggelaran selamat. Dengan mengekalkannya terhad dan menyalurkan kuasanya ke Project Glasswing, Anthropic mengambil pendirian berprinsip: alat paling berkuasa harus terlebih dahulu melindungi sistem yang kita semua bergantung padanya. Buat masa ini, Mythos Preview menjadi milik kelompok kecil pembela yang telah disemak; bagi yang lain, ia ialah pratonton fasa kemampuan AI seterusnya.

Anda boleh menggunakan Claude API di CometAPI untuk bersedia menyambut ketibaan Claude Mythos. Sedia?