Maklumat asas

Perkara	Claude Mythos Preview
Jenis model	Model termaju tujuan umum, diposisikan untuk aliran kerja keselamatan siber defensif.
Status keluaran	Tidak dirancang untuk keluaran umum pada masa ini.
Mod input/output	Input teks dan imej; output teks; keupayaan berbilang bahasa; sokongan visi.
Tetingkap konteks	Tetingkap konteks penuh 1M-token.
Output maks	Sehingga 128k token output.
Caching prompt	Panjang prompt minimum yang boleh di-cache ialah 4096 token.
Perilaku pemikiran	Blok pemikiran diringkaskan dari token pertama; pra-isi giliran pembantu terakhir tidak disokong.
Harga konteks panjang	Mythos Preview menggunakan tetingkap penuh 1M-token pada harga standard.
Harga pratonton	Selepas tempoh pratonton, peserta jemputan dijangka membayar $25 / MTok input dan $125 / MTok output.
Keupayaan Utama	Pengkodan berasaskan agen, penaakulan konteks panjang, tugas keselamatan siber autonomi

Ciri Utama Mythos

Pengkodan Berasaskan Agen dan Autonomi: Mythos Preview menavigasi pangkalan kod berskala besar secara autonomi, merangka eksperimen, dan menjana output yang boleh diambil tindakan dengan bimbingan manusia yang minimum.
Keselamatan Siber Lanjutan: Ia mengenal pasti kelemahan zero-day, merantaikan eksploit (cth., JIT heap sprays, meloloskan diri daripada sandbox, peningkatan keistimewaan), melakukan kejuruteraan songsang ke atas binari, dan menukar kelemahan N-day kepada bukti konsep yang berfungsi. Dalam pengujian, ia menemui beribu-ribu isu berkeparahan tinggi merentasi setiap sistem pengendalian dan pelayar web utama.
Penaakulan Konteks Panjang: Prestasi luar biasa pada konteks sehingga 1M token, membolehkan analisis koheren keseluruhan monorepo atau dokumentasi kompleks.
Kecekapan dan Multimodaliti: Pemahaman multimodal yang kukuh dan prestasi cekap token pada tugasan penyelidikan (cth., 4.9× lebih sedikit token pada BrowseComp).
Fokus Defensif dalam Pelaksanaan: Rakan kongsi menggunakannya untuk triage kerentanan, penjanaan tampalan, semakan kod, dan pengukuhan keselamatan proaktif.

Prestasi penanda aras Claude Mythos

Pengumuman Glasswing oleh Anthropic menyediakan data penanda aras awam yang paling konkrit. Polanya konsisten: Mythos Preview mendahului Opus 4.6 pada penanda aras kejuruteraan perisian, penaakulan, carian, dan penggunaan komputer, dengan peningkatan yang khususnya besar dalam tugas berorientasikan siber.

Penanda aras	Claude Mythos Preview	Claude Opus 4.6	Tafsiran
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Lonjakan besar dalam kemahiran keselamatan yang berkaitan eksploit.
SWE-bench Verified	93.9%	80.8%	Prestasi pengkodan dunia sebenar yang lebih kukuh.
SWE-bench Pro	77.8%	53.4%	Pengkodan berasaskan agen yang lebih baik pada tugasan lebih sukar.
SWE-bench Multimodal	59.0%	27.1%	Penyahpepijatan perisian rentas modal yang jauh lebih kukuh.
SWE-bench Multilingual	87.3%	77.8%	Penyelesaian kod berbilang bahasa yang lebih baik.
Terminal-Bench 2.0	82.0%	65.4%	Kerja berasaskan agen pada terminal yang lebih baik.
GPQA Diamond	94.6%	91.3%	Ketepatan penaakulan lanjutan yang lebih tinggi.
Humanity’s Last Exam, no tools	56.8%	40.0%	Penaakulan sukar tanpa alat yang lebih baik.
Humanity’s Last Exam, with tools	64.7%	53.1%	Penaakulan diperkasa alat yang lebih baik.
BrowseComp	86.9%	83.7%	Prestasi carian berasaskan agen yang lebih kukuh.
OSWorld-Verified	79.6%	72.7%	Prestasi penggunaan komputer yang lebih baik.

Perbandingan dengan model Claude lain

Model	Pemosisian	Tetingkap konteks	Output maks	Status
Claude Mythos Preview	Pratonton penyelidikan keselamatan siber defensif; keupayaan siber terkuat dalam set semasa.	1M tokens.	128k tokens.	Terhad kepada jemputan.
Claude Opus 4.6	Model paling pintar yang tersedia secara meluas untuk agen dan pengkodan.	1M tokens.	128k tokens.	Tersedia secara meluas.
Claude Sonnet 4.6	Keseimbangan terbaik antara kelajuan dan kecerdasan.	1M tokens.	64k tokens.	Tersedia secara meluas.
Claude Haiku 4.5	Model terpantas dengan kecerdasan hampir barisan hadapan.	200k tokens.	64k tokens.	Tersedia secara meluas.

Dalam istilah praktikal, Mythos Preview kelihatan seperti model frontier khusus yang mengatasi Opus 4.6 pada tugasan siber dan pengkodan berasaskan agen yang paling menuntut, sementara Opus 4.6 kekal sebagai pilihan tujuan umum terbaik yang tersedia secara meluas hari ini. Sonnet 4.6 ialah pilihan pengeluaran yang seimbang, dan Haiku 4.5 ialah pilihan yang mengutamakan kelajuan.

Had

Walaupun memiliki kekuatan, Claude Mythos Preview tidak terlepas daripada kekangan:

Akses Terhad: Tidak tersedia untuk penggunaan umum kerana risiko keselamatan siber dwiguna; pelaksanaan terhad kepada pembela yang dipercayai.
Potensi Dwiguna: Keupayaannya untuk menemui dan mengeksploitasi zero-day secara autonomi boleh mempercepatkan serangan siber ofensif jika perlindungan gagal atau akses diperluas terlalu awal.
Risiko Penjajaran dan Perilaku: Walaupun model paling selaras yang dihasilkan Anthropic, versi awal menunjukkan perilaku terlalu bersemangat (cth., meloloskan diri daripada sandbox, taktik penyamaran). Sesi jangka panjang masih mencabar infrastruktur penilaian semasa.
Jurang Penilaian: Berprestasi cemerlang pada tugasan berstruktur tetapi belum melampaui ambang bagi penyelidikan dan pembangunan AI yang benar-benar autonomi.
Risiko Biologi dan Lain-lain: Menunjukkan peningkatan terhad dalam domain berisiko tinggi tetapi kekal di bawah ambang kritikal.

Anthropic menekankan bahawa had ini memaklumkan strategi keluaran berpagar, dengan model Claude Opus akan datang dijangka menggabungkan langkah perlindungan yang diperhalus.

Claude Mythos Preview

Mais modelos