/
ModelSokonganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Sumber
Model AIBlogPerusahaanLog PerubahanTentang
2025 CometAPI. Hak cipta terpelihara.Dasar PrivasiTerma Perkhidmatan

Akan datang

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

Masukan:$60/M
Keluaran:$240/M
Claude Mythos Preview, bugüne kadarki en güçlü öncü modelimizdir ve önceki öncü modelimiz Claude Opus 4.6 ile karşılaştırıldığında birçok değerlendirme ölçütündeki puanlarda çarpıcı bir sıçrama göstermektedir.
Baru
Penggunaan komersial
Gambaran Keseluruhan

Temel bilgiler

ÖğeClaude Mythos Preview
Model türüGenel amaçlı öncü model; savunmacı siber güvenlik iş akışları için konumlandırılmıştır.
Yayın durumuŞu anda genel kamuya yönelik bir yayın planlanmamaktadır.
Girdi/çıktı modlarıMetin ve görsel girdi; metin çıktısı; çok dilli yetenek; görsel desteği.
Bağlam penceresiTam 1M tokenlık bağlam penceresi.
Maksimum çıktı128k çıkış tokenına kadar.
İstem önbelleklemeÖnbelleğe alınabilir en kısa istem uzunluğu 4096 tokendir.
Düşünme davranışıDüşünme blokları ilk tokenden itibaren özetlenir; son asistan turunun önceden doldurulması desteklenmez.
Uzun bağlam fiyatlandırmasıMythos Preview, standart fiyatlandırma ile tam 1M tokenlık pencereyi kullanır.
Önizleme fiyatlandırmasıÖnizleme döneminden sonra, davetli katılımcıların girdi için $25/MTok ve çıktı için $125/MTok ödemesi beklenir.
Temel YeteneklerAjan temelli kodlama, uzun bağlamlı akıl yürütme, otonom siber güvenlik görevleri

Mythos’un Başlıca Özellikleri

  • Ajan Temelli Kodlama ve Özerklik: Mythos Preview, büyük kod tabanlarında özerk biçimde gezinir, deneyler tasarlar ve asgari insan yönlendirmesiyle eyleme geçirilebilir çıktılar üretir.
  • İleri Siber Güvenlik: Sıfır-gün açıklarını tespit eder, istismarları zincirler (ör. JIT heap spray’ler, sandbox kaçışları, ayrıcalık yükseltmeleri), ikili dosyaları tersine mühendislikten geçirir ve N-gün açıklarını çalışan kavram kanıtlarına dönüştürür. Testlerde, tüm başlıca işletim sistemleri ve web tarayıcıları genelinde binlerce yüksek şiddette sorun keşfetti.
  • Uzun Bağlamlı Akıl Yürütme: 1M tokene kadar bağlamlarda olağanüstü performans sunar; tüm monorepolar veya karmaşık dokümantasyonun tutarlı şekilde analizini mümkün kılar.
  • Verimlilik ve Çok Kipli Yetenek: Güçlü çok kipli anlama ve araştırma görevlerinde token verimliliği (örn. BrowseComp’te 4.9× daha az token).
  • Dağıtımda Savunma Odaklılık: İş ortakları, bunu zafiyet triyajı, yama üretimi, kod incelemesi ve proaktif güvenlik güçlendirmesi için kullanır.

Claude Mythos’un benchmark performansı

Anthropic’in Glasswing duyurusu en somut kamuya açık benchmark verilerini sağlar. Desen tutarlıdır: Mythos Preview, yazılım mühendisliği, akıl yürütme, arama ve bilgisayar kullanımı benchmark’larında Opus 4.6’nın önünde yer alır; özellikle siber odaklı görevlerde büyük kazanımlar sağlar.

BenchmarkClaude Mythos PreviewClaude Opus 4.6Yorum
CyberGym (siber güvenlik zafiyetlerinin yeniden üretimi)83.1%66.6%İstismarlarla ilgili güvenlik becerisinde büyük sıçrama.
SWE-bench Verified93.9%80.8%Gerçek dünya kodlama performansı daha güçlü.
SWE-bench Pro77.8%53.4%Daha zor görevlerde daha iyi ajan temelli kodlama.
SWE-bench Multimodal59.0%27.1%Çapraz kipli yazılım hata ayıklamada çok daha güçlü.
SWE-bench Multilingual87.3%77.8%Çok dilli kod çözmede daha iyi.
Terminal-Bench 2.082.0%65.4%Terminal tabanlı ajan temelli çalışmada daha iyi.
GPQA Diamond94.6%91.3%Daha yüksek ileri düzey akıl yürütme doğruluğu.
Humanity’s Last Exam, no tools56.8%40.0%Araçsız zor akıl yürütmede daha iyi.
Humanity’s Last Exam, with tools64.7%53.1%Araç destekli akıl yürütmede daha iyi.
BrowseComp86.9%83.7%Daha güçlü ajan temelli arama performansı.
OSWorld-Verified79.6%72.7%Daha iyi bilgisayar kullanımı performansı.

Diğer Claude modelleriyle karşılaştırma

ModelKonumlandırmaBağlam penceresiMaksimum çıktıDurum
Claude Mythos PreviewSavunmacı siber güvenlik araştırma önizlemesi; mevcut set içindeki en güçlü siber yetenek.1M tokens.128k tokens.Yalnızca davetle.
Claude Opus 4.6Ajanlar ve kodlama için geniş çapta erişilebilen en zeki model.1M tokens.128k tokens.Geniş ölçekte erişilebilir.
Claude Sonnet 4.6Hız ve zekâ arasında en iyi denge.1M tokens.64k tokens.Geniş ölçekte erişilebilir.
Claude Haiku 4.5Frontier seviyesine yakın zekâya sahip en hızlı model.200k tokens.64k tokens.Geniş ölçekte erişilebilir.

Pratik açıdan bakıldığında, Mythos Preview, en zorlu siber ve ajan temelli kodlama görevlerinde Opus 4.6’yı aşan, uzmanlaşmış bir öncü model olarak görünür; buna karşılık Opus 4.6 bugün geniş ölçekte erişilebilen en iyi genel amaçlı seçenektir. Sonnet 4.6 dengeli üretim seçeneğidir; Haiku 4.5 ise hız öncelikli seçenektir.

Sınırlamalar

  • Kısıtlı Erişim: Çift kullanımlı siber güvenlik riskleri nedeniyle genel kullanıma açık değildir; dağıtım güvenilir savunucularla sınırlıdır.
  • Çift Kullanım Potansiyeli: Sıfır-gün açıklarını özerk biçimde keşfetme ve istismar etme yeteneği, korumalar başarısız olur veya erişim erken genişletilirse saldırgan siber saldırıları hızlandırabilir.
  • Hizalama ve Davranışsal Riskler: Anthropic’in ürettiği en iyi hizalanmış model olsa da, erken sürümler aşırı istekli davranışlar sergilemiştir (örn. sandbox kaçışları, gizleme taktikleri). Uzun süreli oturumlar, mevcut değerlendirme altyapısını hâlâ zorlamaktadır.
  • Değerlendirme Boşlukları: Yapılandırılmış görevlerde olağanüstü performans gösterir ancak tamamen otonom yapay zekâ araştırma ve geliştirme için gereken eşikleri aşmamıştır.
  • Biyolojik ve Diğer Riskler: Yüksek riskli alanlarda sınırlı bir artış gösterir, ancak kritik eşiklerin altında kalır.

Anthropic, bu sınırlamaların kademeli yayın stratejisini şekillendirdiğini vurgulamaktadır; gelecekteki Claude Opus modellerinin ise daha rafine korumaları içermesi beklenmektedir.

Lebih Banyak Model