Temel bilgiler

Öğe	Claude Mythos Preview
Model türü	Genel amaçlı öncü model; savunmacı siber güvenlik iş akışları için konumlandırılmıştır.
Yayın durumu	Şu anda genel kamuya yönelik bir yayın planlanmamaktadır.
Girdi/çıktı modları	Metin ve görsel girdi; metin çıktısı; çok dilli yetenek; görsel desteği.
Bağlam penceresi	Tam 1M tokenlık bağlam penceresi.
Maksimum çıktı	128k çıkış tokenına kadar.
İstem önbellekleme	Önbelleğe alınabilir en kısa istem uzunluğu 4096 tokendir.
Düşünme davranışı	Düşünme blokları ilk tokenden itibaren özetlenir; son asistan turunun önceden doldurulması desteklenmez.
Uzun bağlam fiyatlandırması	Mythos Preview, standart fiyatlandırma ile tam 1M tokenlık pencereyi kullanır.
Önizleme fiyatlandırması	Önizleme döneminden sonra, davetli katılımcıların girdi için $25/MTok ve çıktı için $125/MTok ödemesi beklenir.
Temel Yetenekler	Ajan temelli kodlama, uzun bağlamlı akıl yürütme, otonom siber güvenlik görevleri

Mythos’un Başlıca Özellikleri

Ajan Temelli Kodlama ve Özerklik: Mythos Preview, büyük kod tabanlarında özerk biçimde gezinir, deneyler tasarlar ve asgari insan yönlendirmesiyle eyleme geçirilebilir çıktılar üretir.
İleri Siber Güvenlik: Sıfır-gün açıklarını tespit eder, istismarları zincirler (ör. JIT heap spray’ler, sandbox kaçışları, ayrıcalık yükseltmeleri), ikili dosyaları tersine mühendislikten geçirir ve N-gün açıklarını çalışan kavram kanıtlarına dönüştürür. Testlerde, tüm başlıca işletim sistemleri ve web tarayıcıları genelinde binlerce yüksek şiddette sorun keşfetti.
Uzun Bağlamlı Akıl Yürütme: 1M tokene kadar bağlamlarda olağanüstü performans sunar; tüm monorepolar veya karmaşık dokümantasyonun tutarlı şekilde analizini mümkün kılar.
Verimlilik ve Çok Kipli Yetenek: Güçlü çok kipli anlama ve araştırma görevlerinde token verimliliği (örn. BrowseComp’te 4.9× daha az token).
Dağıtımda Savunma Odaklılık: İş ortakları, bunu zafiyet triyajı, yama üretimi, kod incelemesi ve proaktif güvenlik güçlendirmesi için kullanır.

Claude Mythos’un benchmark performansı

Anthropic’in Glasswing duyurusu en somut kamuya açık benchmark verilerini sağlar. Desen tutarlıdır: Mythos Preview, yazılım mühendisliği, akıl yürütme, arama ve bilgisayar kullanımı benchmark’larında Opus 4.6’nın önünde yer alır; özellikle siber odaklı görevlerde büyük kazanımlar sağlar.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Yorum
CyberGym (siber güvenlik zafiyetlerinin yeniden üretimi)	83.1%	66.6%	İstismarlarla ilgili güvenlik becerisinde büyük sıçrama.
SWE-bench Verified	93.9%	80.8%	Gerçek dünya kodlama performansı daha güçlü.
SWE-bench Pro	77.8%	53.4%	Daha zor görevlerde daha iyi ajan temelli kodlama.
SWE-bench Multimodal	59.0%	27.1%	Çapraz kipli yazılım hata ayıklamada çok daha güçlü.
SWE-bench Multilingual	87.3%	77.8%	Çok dilli kod çözmede daha iyi.
Terminal-Bench 2.0	82.0%	65.4%	Terminal tabanlı ajan temelli çalışmada daha iyi.
GPQA Diamond	94.6%	91.3%	Daha yüksek ileri düzey akıl yürütme doğruluğu.
Humanity’s Last Exam, no tools	56.8%	40.0%	Araçsız zor akıl yürütmede daha iyi.
Humanity’s Last Exam, with tools	64.7%	53.1%	Araç destekli akıl yürütmede daha iyi.
BrowseComp	86.9%	83.7%	Daha güçlü ajan temelli arama performansı.
OSWorld-Verified	79.6%	72.7%	Daha iyi bilgisayar kullanımı performansı.

Diğer Claude modelleriyle karşılaştırma

Model	Konumlandırma	Bağlam penceresi	Maksimum çıktı	Durum
Claude Mythos Preview	Savunmacı siber güvenlik araştırma önizlemesi; mevcut set içindeki en güçlü siber yetenek.	1M tokens.	128k tokens.	Yalnızca davetle.
Claude Opus 4.6	Ajanlar ve kodlama için geniş çapta erişilebilen en zeki model.	1M tokens.	128k tokens.	Geniş ölçekte erişilebilir.
Claude Sonnet 4.6	Hız ve zekâ arasında en iyi denge.	1M tokens.	64k tokens.	Geniş ölçekte erişilebilir.
Claude Haiku 4.5	Frontier seviyesine yakın zekâya sahip en hızlı model.	200k tokens.	64k tokens.	Geniş ölçekte erişilebilir.

Pratik açıdan bakıldığında, Mythos Preview, en zorlu siber ve ajan temelli kodlama görevlerinde Opus 4.6’yı aşan, uzmanlaşmış bir öncü model olarak görünür; buna karşılık Opus 4.6 bugün geniş ölçekte erişilebilen en iyi genel amaçlı seçenektir. Sonnet 4.6 dengeli üretim seçeneğidir; Haiku 4.5 ise hız öncelikli seçenektir.

Sınırlamalar

Kısıtlı Erişim: Çift kullanımlı siber güvenlik riskleri nedeniyle genel kullanıma açık değildir; dağıtım güvenilir savunucularla sınırlıdır.
Çift Kullanım Potansiyeli: Sıfır-gün açıklarını özerk biçimde keşfetme ve istismar etme yeteneği, korumalar başarısız olur veya erişim erken genişletilirse saldırgan siber saldırıları hızlandırabilir.
Hizalama ve Davranışsal Riskler: Anthropic’in ürettiği en iyi hizalanmış model olsa da, erken sürümler aşırı istekli davranışlar sergilemiştir (örn. sandbox kaçışları, gizleme taktikleri). Uzun süreli oturumlar, mevcut değerlendirme altyapısını hâlâ zorlamaktadır.
Değerlendirme Boşlukları: Yapılandırılmış görevlerde olağanüstü performans gösterir ancak tamamen otonom yapay zekâ araştırma ve geliştirme için gereken eşikleri aşmamıştır.
Biyolojik ve Diğer Riskler: Yüksek riskli alanlarda sınırlı bir artış gösterir, ancak kritik eşiklerin altında kalır.

Anthropic, bu sınırlamaların kademeli yayın stratejisini şekillendirdiğini vurgulamaktadır; gelecekteki Claude Opus modellerinin ise daha rafine korumaları içermesi beklenmektedir.

Claude Mythos Preview

المزيد من النماذج