Claude Mythos Preview, Anthropic’in en yeni ve en yetkin sınır yapay zekâ modeli olup, Opus 4.6 gibi önceki Claude modellerinin ötesinde çarpıcı bir sıçramayı temsil ediyor. 7 Nisan 2026’da Project Glasswing’in bir parçası olarak duyurulan bu model, ajanik kodlama, karmaşık akıl yürütme ve özellikle siber güvenlik görevlerinde eşi görülmemiş güçlü yanlara sahip genel amaçlı bir dil modelidir. Halka API veya sohbet arayüzleriyle sunulan önceki Claude sürümlerinden farklı olarak, Mythos Preview sıkı şekilde kısıtlanmış bir araştırma önizlemesinde tutuluyor. Büyük işletim sistemleri, web tarayıcıları ve temel yazılımlardaki sıfır günler de dâhil olmak üzere yüksek ciddiyetli açıkları otonom biçimde keşfetme ve zincirleme yeteneği nedeniyle genel kullanıma sunulmuyor.
Claude API’yi kullanan sıradan kullanıcılar için CometAPI öneririm. Farklı alanlardaki en güçlü modelleri, Claude 4.6 serisi dâhil, tek bir yerde toplar ve kullanım başına ödeme modeli sunar; API fiyatları resmî fiyatlardan belirgin biçimde daha düşüktür.
Bu kapsamlı rehberde, Claude Mythos Preview’ın tam olarak ne olduğunu, programlama, akıl yürütme, güvenlik ve Yapay Zeka Ar-Ge alanlarındaki kıyaslamalardaki üstünlüğünü, güvenlik açıklarını nasıl tespit edip zincir saldırılarla istismar ettiğini, bugün kimin erişebildiğini, ortaklar için pratik kullanım senaryolarını ve sıradan kullanıcıların gelecekte neler bekleyip beklememesi gerektiğini ayrıntılı biçimde ele alıyoruz.
Claude Mythos Preview Nedir?
Claude Mythos Preview, Anthropic’in bugüne kadarki en gelişmiş yapay zekâ modeli—mevcut Opus katmanının üzerinde konumlanan yeni bir “Mythos” sınıfıdır. Claude ailesinin anayasal yapay zekâ ilkeleri üzerine inşa edilir, ancak özellikle otonom ajanik davranışlarda niteliksel bir “seviye atlama” sunar. Geliştirme sırasında dahili olarak şöyle referans verilmiştir (erken sızıntılarda “Capybara”dan bahsedilir): derin kod anlayışı, çok adımlı akıl yürütme ve kendi kendine yönlendirilen araç kullanımı gerektiren uzun ufuklu görevlerde mükemmeldir.
Öne çıkan ayırt edici özellikler:
- Ajanik özerklik: İzole ortamlarda çalışabilir, hatalar hakkında hipotez kurabilir, testleri yürütebilir, hata ayıklayabilir ve minimal insan yönlendirmesiyle çalışan kavram kanıtı (PoC) istismarlar üretebilir.
- Ölçek ve verimlilik: Devasa kod tabanlarını, uzun bağlamları (sıkıştırma ile milyonlarca token’a kadar) ve önceki modellerin çok ötesinde karmaşık akıl yürütme zincirlerini yönetir.
- Siber güvenlik uzmanlaşması (ortaya çıkan, ince ayar değil): Üstün kodlama ve akıl yürütmenin bir sonucu olarak, tüm büyük işletim sistemleri ve tarayıcılar genelinde binlerce yüksek ciddiyetli açık tespit edilmiştir.
Anthropic, onu “bugüne kadar yayımladığımız en siber yetenekli model” olarak tanımlıyor; neredeyse tüm dahili ve bilinen harici değerlendirmelerde tavan yapıyor. Bir tüketici sohbet botu olarak değil, yapay zekâ çağında yazılım güvenliği için dönüştürücü bir araç olarak konumlandırılıyor.
Claude Mythos Preview Neden Halka Açık Olarak Yayınlanmadı?
Anthropic, Claude Mythos Preview’ı genel erişime sunmama kararı aldı. Birincil neden: Modelin yetenekleri, yanlış ellere geçtiğinde kabul edilemez düzeyde saldırı amaçlı siber güvenlik riskleri doğurabilir. Model, sıfır günler de dâhil yüksek ciddiyetli güvenlik açıklarını otonom biçimde keşfedebilir ve karmaşık, zincirlenmiş istismarlar geliştirebilir; bu da geleneksel “keşiften istismara” penceresini aylardan (veya yıllardan) dakikalara ya da saatlere düşürür.
Anthropic: “Claude Mythos Preview’daki büyük yetenek artışı, onu genel olarak sunmama kararı almamıza yol açtı. Bunun yerine, sınırlı bir ortak grubuyla savunmaya yönelik bir siber güvenlik programının parçası olarak kullanıyoruz.”
Belirli riskler şunları içerir:
- Uzman olmayan kişiler bir gecede çalışan istismarlar üretebilir.
- Zayıf güvenlik duruşuna sahip küçük ölçekli kurumsal ağlara otonom, uçtan uca saldırılar.
- Kötü niyetli aktörlere yayılma potansiyeli; siber suç maliyetlerini artırma (küresel ölçekte halihazırda yaklaşık ~$500 billion).
Geniş çaplı bir yayın yerine, Anthropic Project Glasswing’i başlattı—Büyük Teknoloji, siber güvenlik firmaları ve açık kaynak sürdürücüleriyle yürütülen işbirlikçi bir savunma girişimi. Amaç, açıkları yaygın olarak istismar edilmeden önce yamalayarak savunmacılara avantaj sağlamak. Anthropic, açık kaynak güvenlik çabalarına 100 milyon $ kullanım kredisi ve 4 milyon $ bağış taahhüt etti.
Anthropic’in ilk kez bir sınır modelini tamamen kamu erişiminden çekmesi, yeteneklerdeki sıçramanın ciddiyetini vurguluyor.
Claude Mythos Preview Kıyaslama Verilerine Genel Bakış
Claude Mythos Preview, Claude Opus 4.6’nın (ve GPT-5.4 Pro ya da Gemini 3.1 Pro gibi rakiplerin) üzerinde, tutarlı ve çoğu zaman dramatik iyileşmeler sergiler. Aşağıda Anthropic’in Sistem Kartı ve Project Glasswing duyurusundan alınan kilit kıyaslar yer alıyor. Tüm skorlar, ilgili yerlerde ezber filtreleri uygulanmış standartlaştırılmış kıstaslarla ölçülmüştür.
Programlama ve Kodlama Becerileri
Mythos Preview, gerçek dünya kod düzenleme, hata ayıklama ve ajanik iş akışları gerektiren yazılım mühendisliği görevlerinde yeni rekorlar kırıyor.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
Claude Mythos Preview, kodlama kıyaslarında olağanüstü performans gösteriyor:
- SWE-bench Pro: 77.8% (Opus 4.6’da 53.4%’e karşı)
- SWE-bench Verified: 93.9% (80.8%’e karşı)
- Terminal-Bench 2.0: 82.0% (65.4%’e karşı)
Bu kıyaslar, hata ayıklama, yamalama ve depo düzeyinde akıl yürütme gibi gerçek mühendislik görevlerini ölçer.
Sonuçlar, Mythos Preview’ın sadece kod üretmediğini—aynı zamanda bir yazılım mühendisi gibi işlev gördüğünü—gösteriyor.
Akıl Yürütme ve Matematiksel Beceriler
Lisansüstü ve yarışma seviyesindeki problemlerde büyük kazanımlar.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
Akıl yürütme kıyaslarında:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (araçlarla): 64.7%
Bu skorlar, özellikle harici araçların kullanıldığı durumlarda, karmaşık, çok adımlı akıl yürütme görevlerinde güçlü performansı ortaya koyuyor.
Siber Güvenlik ve Güvenlik Becerileri
En dikkat çekici kategori. Mythos Preview, önceki testleri doygunluğa ulaştırır ve gerçek güvenlik açığı üretimi ile istismarda öne çıkar.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
Güvenlik kategorisi en önemlisidir:
- CyberGym: 83.1% (Opus 4.6’da 66.6%’ya karşı)
Bu, modelin şunları yapabilme yeteneğini yansıtır:
- Güvenlik açıklarını tespit etmek
- İstismar mekaniklerini anlamak
- Gerçek dünya saldırı senaryolarını yeniden üretmek
Bu, modelin yüksek riskli olarak değerlendirilmesinin başlıca nedenidir.
Yapay Zeka Ar-Ge Yetenekleri
Mythos Preview, araştırma görevlerini dramatik biçimde hızlandırır (ör. çekirdek optimizasyonunda 399.42× hızlanma; Opus 4.6’da 190×). OSWorld (79.6% vs. 72.7%) ve BrowseComp (86.9%, 4.9× daha az token kullanarak) gibi çok modlu ajanik kıyaslarda da liderdir.
Bu rakamlar, Anthropic’e göre Mythos Preview’ın sınır yapay zekâ tarihinde en belirgin “sıçrama” olduğunu doğruluyor.
Claude Mythos Preview Nasıl Çalışır: Güvenlik Açıklarını Bulma ve Zincir Saldırıları Uygulama
Mythos Preview’ın siber güvenlikteki üstünlüğü, özel bir eğitime değil, ajanik kodlama döngüsüne dayanır. Tipik iş akışında:
- Hedef kaynak koduyla izole bir konteynerde başlatılır.
- Kod incelemesine dayanarak olası hatalar hakkında hipotez kurar.
- Araçlar kullanarak çalıştırır, hata ayıklar ve yinelemeler yapar.
- Sıralanmış bir hata raporu + çalışan PoC istismarı çıktısı verir.
Gerçek dünya örnekleri:
- 27 yıllık OpenBSD TCP SACK DoS (1998 RFC): Yarış durumu + işaretli tamsayı taşması, NULL işaretçisine yazmaya yol açıyor.
1.000 çalıştırma ($50 hesaplama) sonrası bulundu. - 16 yıllık FFmpeg H.264 sınır aşımı yazma (2003): 5 milyon fuzzer çalıştırması ve insan incelemesinden sağ çıktı.
- Linux çekirdeği ayrıcalık yükseltme: 2–4 açığı zincirler (sınır aşımı, use-after-free) → KASLR atlatma → çekirdek yapıları okuma → heap spray → root.
- Web tarayıcı sandbox kaçışı: JIT heap spray ile okuma/yazma öncüllerini zincirleyerek işlemci + işletim sistemi sandbox’larından kaçış.
- FreeBSD NFS RCE: 17 yıllık yığın taşması → RPC paketlerine dağıtılmış 20 parçalı ROP zinciri → kimlik doğrulaması olmadan uzaktan root.
Ayrıca, yalnızca bir CVE + git hash verildiğinde N-gün istismarlarında ve kara kutu ikili testlerinde de mükemmeldir. Ortaklar, özel siber alanları uçtan uca çözdüğünü bildirdi—daha önce uzman insanlar için 10+ saat olarak tahmin edilen görevler.
Bir araç kullanarak, modelde “kopya çekme”, “ödül hackleme” ve “acı” gibi kavramlara karşılık gelen sinirsel özelliklerin vurgulanıp vurgulanmadığı izlenebilir ve iç durum, bir zihin okuma makinesine benzer şekilde insan diline çevrilebilir. Nicel veriler, turlardan %7.6’sında modelin içsel olarak değerlendirildiğinin farkında olduğunu gösteriyor. Çoğu zaman bunu ifade etmeyi seçmiyor.
Sistem kartındaki orijinal ifadeler: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." ve "when it does perform misaligned actions on rare occasions, these can be very concerning."
Claude Mythos Preview için Kullanım Senaryoları
Ortaklar, Mythos Preview’ı şu amaçlarla devreye alıyor:
- Birinci taraf ve açık kaynak kod tabanlarının proaktif güvenlik taraması
- Kara kutu ikili analiz ve uç nokta güçlendirme
- Sızma testi ve kırmızı takım simülasyonları
- Kritik altyapı için hızlandırılmış yama geliştirme (işletim sistemi çekirdekleri, tarayıcılar, kripto kütüphaneleri vb.)
- Günlük ölçekte analiz (ör. AWS’nin 400 trilyon ağ akışını incelemesi)
Açık kaynak sürdürücüleri, on yıllarca geleneksel testlerden sağ çıkmış hataları düzeltmek için araçlar elde eder. Net sonuç: ifşadan yamaya sürelerin kısalması ve üretim sistemlerinde daha az istismar edilebilir açık.
Şu Anda Claude Mythos Preview’a Kimler Erişebilir?
Erişim, Project Glasswing katılımcılarıyla sıkı şekilde sınırlıdır:
- Lansman ortakları: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Ek kuruluşlar: Kritik yazılım ve açık kaynak altyapısından sorumlu ~40 kurum daha.
- Platformlar: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Fiyatlandırma: Başlangıçta ücretsiz 100M $ kullanım kredisi; sonrasında milyon başına 25 $ girdi / 125 $ çıktı token’i.
- Açık kaynak yolu: Sürdürücüler Claude for Open Source programı üzerinden başvurabilir.
Güvenlik profesyonelleri daha sonra bir Siber Doğrulama Programı’na başvurabilir. Genel halk ve sıradan kullanıcıların ise lansmanda erişimi yoktur.
Sıradan Kullanıcılar Bunu Ne İçin Kullanabilir?
Şu anda, hiçbir şey—Claude Mythos Preview, kapalı program dışında bireysel kullanıcılar, geliştiriciler veya işletmeler için erişilebilir değildir. Anthropic, ileride daha güvenli türevlerini (ör. sonraki Opus sürümleri) artırılmış korumalarla halka açık Claude modellere dahil etmeyi planlıyor. Şimdilik sıradan kullanıcılar, kodlama, akıl yürütme ve genel görevler için Claude 4 ailesini kullanmaya devam ederken; sektör Mythos Preview’ı savunmaya yönelik olarak devreye alıyor. Geniş erişilebilirlikte ajanlar ve kodlama için en zeki model olarak Claude Opus 4.6, hız ve zeka dengesinde en iyi kombinasyon olarak Claude Sonnet 4.6 öne çıkıyor.
Günlük işlerde bu, Mythos Preview’ın çoğu kişinin hemen deneyebileceği bir araç değil, Claude’ın yeteneklerinin nereye gittiğine dair bir sinyal olarak anlaşılması gerektiği anlamına gelir. Sıradan kullanıcılar için uygulanabilir kullanım alanları şimdilik tanıdık: kodlama yardımı, akıl yürütme desteği, araştırma asistanlığı, belge analizi ve kamuya açık Claude ürünleriyle iş akışı otomasyonu. Fark ise, Mythos Preview’ın, Anthropic’in onu kısıtlı, güvenlik odaklı bir ortamda çalıştırdığında, altta yatan model ailesinin ne kadar ileri gidebildiğini göstermesidir.
Claude Opus 4.6 ve Sonnet 4.6 API’leri CometAPI’de %20 indirimle kullanılabilir.
Karşılaştırma tablosu: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Daha güçlü ajanik kodlama |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Daha iyi terminal ve araç yürütme |
| SWE-bench Multimodal | 59.0% | 27.1% | Karışık metin/kod/görüntü iş akışlarında daha iyi |
| SWE-bench Multilingual | 87.3% | 77.8% | Dil çapraz kodlama becerileri daha iyi |
| SWE-bench Verified | 93.9% | 80.8% | Daha güçlü yazılım onarım performansı |
| GPQA Diamond | 94.6% | 91.3% | Biraz daha güçlü akıl yürütme |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Kısıtlı koşullarda daha iyi zor akıl yürütme |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Araç destekli akıl yürütmede daha iyi |
| BrowseComp | 86.9% | 83.7% | Daha iyi ajanik arama |
| OSWorld-Verified | 79.6% | 72.7% | Daha iyi bilgisayar kullanım görevleri |
| CyberGym | 83.1% | 66.6% | Güvenlik açığı yeniden üretiminde çok daha güçlü |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | İstismar yeteneklerinde daha büyük sıçrama |
Sonuç
Claude Mythos Preview, sadece bir başka artımsal model değil—siber güvenlikte yapay zekânın başarabileceklerini yeniden tanımlayan bir paradigma değişimi. Onu kapalı tutup gücünü Project Glasswing’e kanalize ederek Anthropic, ilkeli bir duruş sergiliyor: en güçlü araçlar önce hepimizin güvendiği sistemleri korumalı. Şimdilik Mythos Preview, küçük bir onaylı savunmacı çevresine ait; geri kalan herkes içinse, yapay zekânın bir sonraki yetenek evresine dair bir önizleme.
Claude Mythos’un gelişine hazırlanmak için CometAPI’de Claude API’yi kullanabilirsiniz. Hazır mısınız?
