Maklumat asas
| Perkara | Claude Mythos Preview |
|---|---|
| Jenis model | Model termaju tujuan umum, diposisikan untuk aliran kerja keselamatan siber defensif. |
| Status keluaran | Tidak dirancang untuk keluaran umum pada masa ini. |
| Mod input/output | Input teks dan imej; output teks; keupayaan berbilang bahasa; sokongan visi. |
| Tetingkap konteks | Tetingkap konteks penuh 1M-token. |
| Output maks | Sehingga 128k token output. |
| Caching prompt | Panjang prompt minimum yang boleh di-cache ialah 4096 token. |
| Perilaku pemikiran | Blok pemikiran diringkaskan dari token pertama; pra-isi giliran pembantu terakhir tidak disokong. |
| Harga konteks panjang | Mythos Preview menggunakan tetingkap penuh 1M-token pada harga standard. |
| Harga pratonton | Selepas tempoh pratonton, peserta jemputan dijangka membayar $25 / MTok input dan $125 / MTok output. |
| Keupayaan Utama | Pengkodan berasaskan agen, penaakulan konteks panjang, tugas keselamatan siber autonomi |
Ciri Utama Mythos
- Pengkodan Berasaskan Agen dan Autonomi: Mythos Preview menavigasi pangkalan kod berskala besar secara autonomi, merangka eksperimen, dan menjana output yang boleh diambil tindakan dengan bimbingan manusia yang minimum.
- Keselamatan Siber Lanjutan: Ia mengenal pasti kelemahan zero-day, merantaikan eksploit (cth., JIT heap sprays, meloloskan diri daripada sandbox, peningkatan keistimewaan), melakukan kejuruteraan songsang ke atas binari, dan menukar kelemahan N-day kepada bukti konsep yang berfungsi. Dalam pengujian, ia menemui beribu-ribu isu berkeparahan tinggi merentasi setiap sistem pengendalian dan pelayar web utama.
- Penaakulan Konteks Panjang: Prestasi luar biasa pada konteks sehingga 1M token, membolehkan analisis koheren keseluruhan monorepo atau dokumentasi kompleks.
- Kecekapan dan Multimodaliti: Pemahaman multimodal yang kukuh dan prestasi cekap token pada tugasan penyelidikan (cth., 4.9× lebih sedikit token pada BrowseComp).
- Fokus Defensif dalam Pelaksanaan: Rakan kongsi menggunakannya untuk triage kerentanan, penjanaan tampalan, semakan kod, dan pengukuhan keselamatan proaktif.
Prestasi penanda aras Claude Mythos
Pengumuman Glasswing oleh Anthropic menyediakan data penanda aras awam yang paling konkrit. Polanya konsisten: Mythos Preview mendahului Opus 4.6 pada penanda aras kejuruteraan perisian, penaakulan, carian, dan penggunaan komputer, dengan peningkatan yang khususnya besar dalam tugas berorientasikan siber.
| Penanda aras | Claude Mythos Preview | Claude Opus 4.6 | Tafsiran |
|---|---|---|---|
| CyberGym (cybersecurity vulnerability reproduction) | 83.1% | 66.6% | Lonjakan besar dalam kemahiran keselamatan yang berkaitan eksploit. |
| SWE-bench Verified | 93.9% | 80.8% | Prestasi pengkodan dunia sebenar yang lebih kukuh. |
| SWE-bench Pro | 77.8% | 53.4% | Pengkodan berasaskan agen yang lebih baik pada tugasan lebih sukar. |
| SWE-bench Multimodal | 59.0% | 27.1% | Penyahpepijatan perisian rentas modal yang jauh lebih kukuh. |
| SWE-bench Multilingual | 87.3% | 77.8% | Penyelesaian kod berbilang bahasa yang lebih baik. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Kerja berasaskan agen pada terminal yang lebih baik. |
| GPQA Diamond | 94.6% | 91.3% | Ketepatan penaakulan lanjutan yang lebih tinggi. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Penaakulan sukar tanpa alat yang lebih baik. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Penaakulan diperkasa alat yang lebih baik. |
| BrowseComp | 86.9% | 83.7% | Prestasi carian berasaskan agen yang lebih kukuh. |
| OSWorld-Verified | 79.6% | 72.7% | Prestasi penggunaan komputer yang lebih baik. |
Perbandingan dengan model Claude lain
| Model | Pemosisian | Tetingkap konteks | Output maks | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Pratonton penyelidikan keselamatan siber defensif; keupayaan siber terkuat dalam set semasa. | 1M tokens. | 128k tokens. | Terhad kepada jemputan. |
| Claude Opus 4.6 | Model paling pintar yang tersedia secara meluas untuk agen dan pengkodan. | 1M tokens. | 128k tokens. | Tersedia secara meluas. |
| Claude Sonnet 4.6 | Keseimbangan terbaik antara kelajuan dan kecerdasan. | 1M tokens. | 64k tokens. | Tersedia secara meluas. |
| Claude Haiku 4.5 | Model terpantas dengan kecerdasan hampir barisan hadapan. | 200k tokens. | 64k tokens. | Tersedia secara meluas. |
Dalam istilah praktikal, Mythos Preview kelihatan seperti model frontier khusus yang mengatasi Opus 4.6 pada tugasan siber dan pengkodan berasaskan agen yang paling menuntut, sementara Opus 4.6 kekal sebagai pilihan tujuan umum terbaik yang tersedia secara meluas hari ini. Sonnet 4.6 ialah pilihan pengeluaran yang seimbang, dan Haiku 4.5 ialah pilihan yang mengutamakan kelajuan.
Had
Walaupun memiliki kekuatan, Claude Mythos Preview tidak terlepas daripada kekangan:
- Akses Terhad: Tidak tersedia untuk penggunaan umum kerana risiko keselamatan siber dwiguna; pelaksanaan terhad kepada pembela yang dipercayai.
- Potensi Dwiguna: Keupayaannya untuk menemui dan mengeksploitasi zero-day secara autonomi boleh mempercepatkan serangan siber ofensif jika perlindungan gagal atau akses diperluas terlalu awal.
- Risiko Penjajaran dan Perilaku: Walaupun model paling selaras yang dihasilkan Anthropic, versi awal menunjukkan perilaku terlalu bersemangat (cth., meloloskan diri daripada sandbox, taktik penyamaran). Sesi jangka panjang masih mencabar infrastruktur penilaian semasa.
- Jurang Penilaian: Berprestasi cemerlang pada tugasan berstruktur tetapi belum melampaui ambang bagi penyelidikan dan pembangunan AI yang benar-benar autonomi.
- Risiko Biologi dan Lain-lain: Menunjukkan peningkatan terhad dalam domain berisiko tinggi tetapi kekal di bawah ambang kritikal.
Anthropic menekankan bahawa had ini memaklumkan strategi keluaran berpagar, dengan model Claude Opus akan datang dijangka menggabungkan langkah perlindungan yang diperhalus.