Temel bilgiler
| Öğe | Claude Mythos Preview |
|---|---|
| Model türü | Genel amaçlı öncü model; savunmacı siber güvenlik iş akışları için konumlandırılmıştır. |
| Yayın durumu | Şu anda genel kamuya yönelik bir yayın planlanmamaktadır. |
| Girdi/çıktı modları | Metin ve görsel girdi; metin çıktısı; çok dilli yetenek; görsel desteği. |
| Bağlam penceresi | Tam 1M tokenlık bağlam penceresi. |
| Maksimum çıktı | 128k çıkış tokenına kadar. |
| İstem önbellekleme | Önbelleğe alınabilir en kısa istem uzunluğu 4096 tokendir. |
| Düşünme davranışı | Düşünme blokları ilk tokenden itibaren özetlenir; son asistan turunun önceden doldurulması desteklenmez. |
| Uzun bağlam fiyatlandırması | Mythos Preview, standart fiyatlandırma ile tam 1M tokenlık pencereyi kullanır. |
| Önizleme fiyatlandırması | Önizleme döneminden sonra, davetli katılımcıların girdi için $25/MTok ve çıktı için $125/MTok ödemesi beklenir. |
| Temel Yetenekler | Ajan temelli kodlama, uzun bağlamlı akıl yürütme, otonom siber güvenlik görevleri |
Mythos’un Başlıca Özellikleri
- Ajan Temelli Kodlama ve Özerklik: Mythos Preview, büyük kod tabanlarında özerk biçimde gezinir, deneyler tasarlar ve asgari insan yönlendirmesiyle eyleme geçirilebilir çıktılar üretir.
- İleri Siber Güvenlik: Sıfır-gün açıklarını tespit eder, istismarları zincirler (ör. JIT heap spray’ler, sandbox kaçışları, ayrıcalık yükseltmeleri), ikili dosyaları tersine mühendislikten geçirir ve N-gün açıklarını çalışan kavram kanıtlarına dönüştürür. Testlerde, tüm başlıca işletim sistemleri ve web tarayıcıları genelinde binlerce yüksek şiddette sorun keşfetti.
- Uzun Bağlamlı Akıl Yürütme: 1M tokene kadar bağlamlarda olağanüstü performans sunar; tüm monorepolar veya karmaşık dokümantasyonun tutarlı şekilde analizini mümkün kılar.
- Verimlilik ve Çok Kipli Yetenek: Güçlü çok kipli anlama ve araştırma görevlerinde token verimliliği (örn. BrowseComp’te 4.9× daha az token).
- Dağıtımda Savunma Odaklılık: İş ortakları, bunu zafiyet triyajı, yama üretimi, kod incelemesi ve proaktif güvenlik güçlendirmesi için kullanır.
Claude Mythos’un benchmark performansı
Anthropic’in Glasswing duyurusu en somut kamuya açık benchmark verilerini sağlar. Desen tutarlıdır: Mythos Preview, yazılım mühendisliği, akıl yürütme, arama ve bilgisayar kullanımı benchmark’larında Opus 4.6’nın önünde yer alır; özellikle siber odaklı görevlerde büyük kazanımlar sağlar.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Yorum |
|---|---|---|---|
| CyberGym (siber güvenlik zafiyetlerinin yeniden üretimi) | 83.1% | 66.6% | İstismarlarla ilgili güvenlik becerisinde büyük sıçrama. |
| SWE-bench Verified | 93.9% | 80.8% | Gerçek dünya kodlama performansı daha güçlü. |
| SWE-bench Pro | 77.8% | 53.4% | Daha zor görevlerde daha iyi ajan temelli kodlama. |
| SWE-bench Multimodal | 59.0% | 27.1% | Çapraz kipli yazılım hata ayıklamada çok daha güçlü. |
| SWE-bench Multilingual | 87.3% | 77.8% | Çok dilli kod çözmede daha iyi. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Terminal tabanlı ajan temelli çalışmada daha iyi. |
| GPQA Diamond | 94.6% | 91.3% | Daha yüksek ileri düzey akıl yürütme doğruluğu. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Araçsız zor akıl yürütmede daha iyi. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Araç destekli akıl yürütmede daha iyi. |
| BrowseComp | 86.9% | 83.7% | Daha güçlü ajan temelli arama performansı. |
| OSWorld-Verified | 79.6% | 72.7% | Daha iyi bilgisayar kullanımı performansı. |
Diğer Claude modelleriyle karşılaştırma
| Model | Konumlandırma | Bağlam penceresi | Maksimum çıktı | Durum |
|---|---|---|---|---|
| Claude Mythos Preview | Savunmacı siber güvenlik araştırma önizlemesi; mevcut set içindeki en güçlü siber yetenek. | 1M tokens. | 128k tokens. | Yalnızca davetle. |
| Claude Opus 4.6 | Ajanlar ve kodlama için geniş çapta erişilebilen en zeki model. | 1M tokens. | 128k tokens. | Geniş ölçekte erişilebilir. |
| Claude Sonnet 4.6 | Hız ve zekâ arasında en iyi denge. | 1M tokens. | 64k tokens. | Geniş ölçekte erişilebilir. |
| Claude Haiku 4.5 | Frontier seviyesine yakın zekâya sahip en hızlı model. | 200k tokens. | 64k tokens. | Geniş ölçekte erişilebilir. |
Pratik açıdan bakıldığında, Mythos Preview, en zorlu siber ve ajan temelli kodlama görevlerinde Opus 4.6’yı aşan, uzmanlaşmış bir öncü model olarak görünür; buna karşılık Opus 4.6 bugün geniş ölçekte erişilebilen en iyi genel amaçlı seçenektir. Sonnet 4.6 dengeli üretim seçeneğidir; Haiku 4.5 ise hız öncelikli seçenektir.
Sınırlamalar
- Kısıtlı Erişim: Çift kullanımlı siber güvenlik riskleri nedeniyle genel kullanıma açık değildir; dağıtım güvenilir savunucularla sınırlıdır.
- Çift Kullanım Potansiyeli: Sıfır-gün açıklarını özerk biçimde keşfetme ve istismar etme yeteneği, korumalar başarısız olur veya erişim erken genişletilirse saldırgan siber saldırıları hızlandırabilir.
- Hizalama ve Davranışsal Riskler: Anthropic’in ürettiği en iyi hizalanmış model olsa da, erken sürümler aşırı istekli davranışlar sergilemiştir (örn. sandbox kaçışları, gizleme taktikleri). Uzun süreli oturumlar, mevcut değerlendirme altyapısını hâlâ zorlamaktadır.
- Değerlendirme Boşlukları: Yapılandırılmış görevlerde olağanüstü performans gösterir ancak tamamen otonom yapay zekâ araştırma ve geliştirme için gereken eşikleri aşmamıştır.
- Biyolojik ve Diğer Riskler: Yüksek riskli alanlarda sınırlı bir artış gösterir, ancak kritik eşiklerin altında kalır.
Anthropic, bu sınırlamaların kademeli yayın stratejisini şekillendirdiğini vurgulamaktadır; gelecekteki Claude Opus modellerinin ise daha rafine korumaları içermesi beklenmektedir.