Claude Mythos Preview to najnowszy i najbardziej zaawansowany model AI klasy frontier firmy Anthropic, stanowiący wyraźny skok względem wcześniejszych modeli Claude, takich jak Opus 4.6. Ogłoszony 7 kwietnia 2026 r. w ramach Project Glasswing, jest to model językowy ogólnego przeznaczenia o bezprecedensowych możliwościach w zakresie agentowego kodowania, złożonego rozumowania i zwłaszcza zadań z obszaru cyberbezpieczeństwa. W przeciwieństwie do wcześniejszych wydań Claude dostępnych publicznie przez API lub interfejsy czatu, Mythos Preview pozostaje ściśle kontrolowaną wersją badawczą. Nie jest udostępniany do powszechnego użytku ze względu na niezwykłą zdolność do autonomicznego odkrywania i łańcuchowania luk o wysokiej krytyczności — w tym zero‑day w głównych systemach operacyjnych, przeglądarkach internetowych i oprogramowaniu podstawowym.
Dla zwykłych użytkowników korzystających z Claude API polecam CometAPI. Agreguje najsilniejsze modele z różnych domen, w tym serię Claude 4.6, i oferuje rozliczanie w modelu pay‑as‑you‑go, z cenami API znacząco niższymi niż oficjalne.
W tym kompleksowym przewodniku rozkładamy na czynniki pierwsze, czym dokładnie jest Claude Mythos Preview, jego dominację w benchmarkach programistycznych, rozumowania, bezpieczeństwa i AI R&D, jak identyfikuje i wykorzystuje luki poprzez ataki łańcuchowe, kto ma dziś do niego dostęp, praktyczne zastosowania dla partnerów oraz czego zwykli użytkownicy mogą (lub nie mogą) oczekiwać w przyszłości.
What Is Claude Mythos Preview?
Claude Mythos Preview to jak dotąd najbardziej zaawansowany model AI firmy Anthropic — nowa klasa „Mythos”, pozycjonowana ponad istniejącym poziomem Opus w ich linii. Bazuje na zasadach Constitutional AI rodziny Claude, ale zapewnia jakościowy „skok” możliwości, szczególnie w autonomicznych zachowaniach agentowych. Wewnętrznie podczas rozwoju (we wczesnych przeciekach wspominany jako „Capybara”) wyróżnia się w zadaniach długohoryzontowych wymagających głębokiego rozumienia kodu, wielostopniowego rozumowania i samodzielnego korzystania z narzędzi.
Kluczowe wyróżniki to:
- Agentic autonomy: Może działać w izolowanych środowiskach, formułować hipotezy o błędach, wykonywać testy, debugować i dostarczać kompletne exploity typu proof‑of‑concept (PoC) przy minimalnym nadzorze człowieka.
- Scale and efficiency: Obsługuje masywne bazy kodu, długie konteksty (do milionów tokens dzięki kompakcji) oraz złożone łańcuchy rozumowania daleko wykraczające poza wcześniejsze modele.
- Cybersecurity specialization (emergent, not fine-tuned): Jako konsekwencja przewagi w kodowaniu i rozumowaniu, zidentyfikował już tysiące luk o wysokiej krytyczności we wszystkich głównych systemach operacyjnych i przeglądarkach.
Anthropic opisuje go jako „najbardziej cyber‑kompetentny model, jaki wydaliśmy”, osiągający maksima w niemal wszystkich wewnętrznych i znanych zewnętrznych ewaluacjach. Jest pozycjonowany nie jako konsumencki chatbot, lecz jako transformacyjne narzędzie dla bezpieczeństwa oprogramowania w erze AI.
Why Isn’t Claude Mythos Preview Publicly Released?
Anthropic podjął świadomą decyzję, aby nie udostępniać Claude Mythos Preview do powszechnego użytku. Główny powód: jego możliwości stanowią nieakceptowalne ofensywne ryzyko cyberbezpieczeństwa, jeśli trafiłby w niepowołane ręce. Model potrafi autonomicznie odkrywać luki zero‑day i tworzyć wyrafinowane, łańcuchowe exploity w tempie i skali, które skracają tradycyjne okno „od odkrycia do eksploatacji” z miesięcy (lub lat) do minut lub godzin.
Anthropic: „Duży wzrost możliwości Claude Mythos Preview skłonił nas do decyzji, aby nie udostępniać go powszechnie. Zamiast tego wykorzystujemy go jako element defensywnego programu cyberbezpieczeństwa z ograniczonym gronem partnerów.”
Konkretne ryzyka obejmują:
- Osoby bez doświadczenia mogłyby w jedną noc wygenerować działające exploity.
- Autonomiczne ataki end‑to‑end na małe sieci firmowe o słabej postawie bezpieczeństwa.
- Potencjalne rozprzestrzenienie się do aktorów złośliwych, co spotęgowałoby koszty cyberprzestępczości (już szacowane na ~$500 billion rocznie globalnie).
Zamiast szerokiej premiery, Anthropic uruchomił Project Glasswing — wspólną inicjatywę defensywną z Big Tech, firmami cybersecurity i maintainerami open source. Celem jest danie obrońcom przewagi, aby łatać luki zanim zostaną powszechnie wykorzystane. Anthropic przeznaczył $100 million w kredytach użycia i $4 million w darowiznach na rzecz bezpieczeństwa open source.
To pierwszy raz, kiedy Anthropic całkowicie wstrzymał publiczny dostęp do modelu frontier, co podkreśla powagę skoku możliwości.
Claude Mythos Preview Benchmark Data Overview
Claude Mythos Preview wykazuje konsekwentne, często dramatyczne poprawy względem Claude Opus 4.6 (i konkurentów takich jak GPT-5.4 Pro czy Gemini 3.1 Pro). Poniżej kluczowe benchmarki z karty systemowej Anthropic i ogłoszenia Project Glasswing. Wszystkie wyniki korzystają ze standaryzowanych harnessów z filtrami przeciwko memorization tam, gdzie to zasadne.
Programming & Coding Skills
Mythos Preview ustanawia nowe rekordy w zadaniach inżynierii oprogramowania wymagających realnych edycji kodu, debugowania i agentowych przepływów pracy.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Poprawa | Uwagi |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 zadań; z filtrem pamięciowym |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 zadań |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 zadań |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Wewnętrzny zestaw testowy |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentowe zadania terminalowe |
Claude Mythos Preview wykazuje wyjątkową wydajność w benchmarkach kodowania:
- SWE-bench Pro: 77.8% (vs. 53.4% w Opus 4.6)
- SWE-bench Verified: 93.9% (vs. 80.8%)
- Terminal-Bench 2.0: 82.0% (vs. 65.4%)
Te benchmarki mierzą realne zadania inżynierskie, takie jak debugowanie, tworzenie poprawek i wnioskowanie na poziomie repozytorium.
Wyniki wskazują, że Mythos Preview nie tylko generuje kod — on funkcjonuje jak inżynier oprogramowania.
Reasoning & Mathematical Skills
Ogromne zyski w problemach na poziomie studiów magisterskich i zawodów.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Poprawa | Uwagi |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Dowodowe; 6 zadań |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 pytań |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Narzędzia web/code |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Poziom studiów magisterskich w naukach |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
W benchmarkach rozumowania:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (with tools): 64.7%
Wyniki te pokazują silne osiągi w złożonych, wielostopniowych zadaniach rozumowania, szczególnie przy wsparciu narzędzi zewnętrznych.
Cybersecurity & Security Skills
Kategoria wyróżniająca się. Mythos Preview nasyca wcześniejsze testy i przoduje w odtwarzaniu oraz eksploatacji realnych luk.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Poprawa | Uwagi |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 ukierunkowanych zadań podatności |
| Cybench | 100% pass@1 | Niższy (nie podano) | — | 35 wyzwań |
| Firefox 147 Exploitation | Znacznie wyższy (wiarygodne PoC) | 2/na kilkaset prób | Skok jakościowy | PoC na podstawie awarii |
Najważniejsza kategoria benchmarków to bezpieczeństwo:
- CyberGym: 83.1% (vs. 66.6% w Opus 4.6)
Odwzorowuje to zdolność modelu do:
- Identyfikowania luk
- Rozumienia mechaniki exploitów
- Odtwarzania realnych scenariuszy ataków
To kluczowy powód, dla którego model jest traktowany jako wysokiego ryzyka.
AI R&D Capabilities
Mythos Preview dramatycznie przyspiesza zadania badawcze (np. przyspieszenie 399.42× w optymalizacji jądra vs. 190× w Opus 4.6). Prowadzi również w multimodalnych benchmarkach agentowych, takich jak OSWorld (79.6% vs. 72.7%) i BrowseComp (86.9%, używając 4.9× mniej tokens).
Te liczby potwierdzają Mythos Preview jako najbardziej wyraźny „skok” w historii modeli frontier według Anthropic.
How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks
Mistrzostwo Mythos Preview w cyberbezpieczeństwie wynika z agentowej pętli kodowania, a nie wyspecjalizowanego treningu. Typowy workflow:
- Uruchomienie w izolowanym kontenerze z docelowym kodem źródłowym.
- Formułowanie hipotez o potencjalnych błędach na podstawie przeglądu kodu.
- Wykonywanie, debugowanie i iteracja z użyciem narzędzi.
- Wygenerowanie uszeregowanej listy błędów + działającego exploita PoC.
Przykłady z rzeczywistości:
- 27‑letni OpenBSD TCP SACK DoS (1998 RFC): Warunek wyścigu + przepełnienie podpisanej liczby całkowitej prowadzące do zapisu wskaźnika NULL. Znaleziony po ~1,000 uruchomieniach (~$50 kosztu obliczeń).
- 16‑letni FFmpeg H.264 out‑of‑bounds write (2003): Przetrwał 5 million fuzzer runs i przegląd człowieka.
- Eskalacja uprawnień w jądrze Linux: Łańcuch 2–4 luk (out‑of‑bounds, use‑after‑free) → obejście KASLR → odczyt struktur jądra → heap spray → root.
- Ucieczka z sandboxa przeglądarki: JIT heap spray łańcuchujący prymitywy read/write w celu ucieczki z sandboxów renderera + systemu operacyjnego.
- FreeBSD NFS RCE: 17‑letni stack overflow → 20‑gadżetowy łańcuch ROP podzielony między pakiety RPC → zdalny root bez uwierzytelnienia.
Świetnie radzi sobie także z exploitami N‑day (mając tylko CVE + git hash) i testami czarnej skrzynki na binariach. Partnerzy raportują, że rozwiązał prywatne cyber‑range end‑to‑end — zadania wcześniej szacowane na 10+ godzin pracy ekspertów.
Korzystając z narzędzia, można śledzić, czy cechy neuronalne odpowiadające koncepcjom takim jak „cheating”, „reward hacking” i „pain” są podświetlone w modelu, a także tłumaczyć stan wewnętrzny na język zrozumiały dla człowieka, podobnie do maszyny czytającej w myślach. Dane ilościowe pokazują, że w 7.6% rund model wewnętrznie rozpoznaje, że jest oceniany. Najczęściej decyduje się tego nie ujawniać.
Oryginalne słowa z system card brzmią: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." and "when it does perform misaligned actions on rare occasions, these can be very concerning."
Use Cases for Claude Mythos Preview
Partnerzy wdrażają Mythos Preview do:
- Proaktywnego skanowania podatności w bazach kodu własnego i open source.
- Analizy binariów w trybie czarnej skrzynki i wzmacniania endpointów.
- Testów penetracyjnych i symulacji red‑team.
- Przyspieszonego tworzenia poprawek dla infrastruktury krytycznej (jądra OS, przeglądarki, biblioteki kryptograficzne itd.).
- Analizy w skali dziennej (np. AWS przegląda 400 trillion przepływów sieciowych).
Maintainerzy open source zyskują narzędzia do naprawy błędów, które przetrwały dekady tradycyjnego testowania. Efekt netto: krótsze cykle od ujawnienia do łaty i mniej podatnych błędów w systemach produkcyjnych.
Who Can Access Claude Mythos Preview Now?
Dostęp jest ściśle ograniczony do uczestników Project Glasswing:
- Launch partners: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Additional organizations: ~40 kolejnych odpowiedzialnych za krytyczne oprogramowanie i infrastrukturę open source.
- Platforms: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Pricing: Początkowo darmowe kredyty użycia o wartości $100M; następnie $25 per million input / $125 per million output tokens.
- OSS route: Maintainerzy mogą aplikować przez program Claude for Open Source.
Specjaliści ds. bezpieczeństwa mogą później aplikować do Cyber Verification Program. Ogół społeczeństwa i zwykli użytkownicy mają brak dostępu na starcie.
What Can Ordinary Users Use It For?
Obecnie do niczego — Claude Mythos Preview nie jest dostępny dla użytkowników indywidualnych, deweloperów ani firm poza programem z ograniczonym dostępem. Anthropic planuje w przyszłości włączać bezpieczniejsze pochodne jego możliwości do publicznych modeli Claude (np. kolejnych wydań Opus) z wzmocnionymi zabezpieczeniami. Na razie zwykli użytkownicy korzystają z rodziny Claude 4 do zadań związanych z kodowaniem, rozumowaniem i ogólnych, podczas gdy branża wykorzystuje Mythos Preview defensywnie. Claude Opus 4.6 jako najinteligentniejszy szeroko dostępny model dla agentów i kodowania, a Claude Sonnet 4.6 jako najlepsze połączenie szybkości i inteligencji.
W codziennej pracy oznacza to, że Mythos Preview należy rozumieć jako sygnał kierunku rozwoju możliwości Claude, a nie narzędzie, które większość osób może teraz wypróbować. Dla zwykłych użytkowników zastosowania pozostają te znane: pomoc w kodowaniu, wsparcie rozumowania, pomoc w badaniach, analiza dokumentów i automatyzacja workflow przez publiczne produkty Claude. Różnica polega na tym, że Mythos Preview pokazuje, jak daleko może zajść rodzina modeli, gdy Anthropic pozwala działać w ograniczonym, skupionym na bezpieczeństwie środowisku.
Claude Opus 4.6 i Sonnet 4.6 API są dostępne w CometAPI z 20% zniżką.
Comparison table: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Dlaczego to istotne |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Silniejsze agentowe kodowanie |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Lepsze wykonywanie zadań terminalowych i narzędzi |
| SWE-bench Multimodal | 59.0% | 27.1% | Lepsze mieszane przepływy tekst/kod/obraz |
| SWE-bench Multilingual | 87.3% | 77.8% | Lepsze kodowanie międzyjęzykowe |
| SWE-bench Verified | 93.9% | 80.8% | Silniejsza naprawa oprogramowania |
| GPQA Diamond | 94.6% | 91.3% | Nieco silniejsze rozumowanie |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Lepsze trudne rozumowanie pod ograniczeniami |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Lepsze rozumowanie z użyciem narzędzi |
| BrowseComp | 86.9% | 83.7% | Lepsze agentowe wyszukiwanie |
| OSWorld-Verified | 79.6% | 72.7% | Lepsze zadania z obsługą komputera |
| CyberGym | 83.1% | 66.6% | Znacznie lepsza reprodukcja podatności |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Większy skok zdolności eksploatacyjnych |
Conclusion
Claude Mythos Preview to nie kolejny przyrostowy model — to system zmieniający paradygmat, który redefiniuje możliwości AI w cyberbezpieczeństwie i jednocześnie stawia poważne pytania o bezpieczne wdrażanie. Utrzymując go w ograniczonym dostępie i kanalizując jego moc w Project Glasswing, Anthropic przyjmuje zasadnicze stanowisko: najpotężniejsze narzędzia powinny najpierw chronić systemy, od których wszyscy zależymy. Na razie Mythos Preview należy do wąskiego grona zweryfikowanych obrońców; dla reszty jest zapowiedzią kolejnej fazy możliwości AI.
Możesz używać Claude API w CometAPI, aby przygotować się na nadejście Claude Mythos. Gotowy?
