Claude Mythos Preview nadchodzi: czy mogę już teraz korzystać z tego modelu najwyższej klasy?

Claude Mythos Preview to najnowszy i najbardziej zaawansowany model AI klasy frontier firmy Anthropic, stanowiący wyraźny skok względem wcześniejszych modeli Claude, takich jak Opus 4.6. Ogłoszony 7 kwietnia 2026 r. w ramach Project Glasswing, jest to model językowy ogólnego przeznaczenia o bezprecedensowych możliwościach w zakresie agentowego kodowania, złożonego rozumowania i zwłaszcza zadań z obszaru cyberbezpieczeństwa. W przeciwieństwie do wcześniejszych wydań Claude dostępnych publicznie przez API lub interfejsy czatu, Mythos Preview pozostaje ściśle kontrolowaną wersją badawczą. Nie jest udostępniany do powszechnego użytku ze względu na niezwykłą zdolność do autonomicznego odkrywania i łańcuchowania luk o wysokiej krytyczności — w tym zero‑day w głównych systemach operacyjnych, przeglądarkach internetowych i oprogramowaniu podstawowym.

Dla zwykłych użytkowników korzystających z Claude API polecam CometAPI. Agreguje najsilniejsze modele z różnych domen, w tym serię Claude 4.6, i oferuje rozliczanie w modelu pay‑as‑you‑go, z cenami API znacząco niższymi niż oficjalne.

W tym kompleksowym przewodniku rozkładamy na czynniki pierwsze, czym dokładnie jest Claude Mythos Preview, jego dominację w benchmarkach programistycznych, rozumowania, bezpieczeństwa i AI R&D, jak identyfikuje i wykorzystuje luki poprzez ataki łańcuchowe, kto ma dziś do niego dostęp, praktyczne zastosowania dla partnerów oraz czego zwykli użytkownicy mogą (lub nie mogą) oczekiwać w przyszłości.

What Is Claude Mythos Preview?

Claude Mythos Preview to jak dotąd najbardziej zaawansowany model AI firmy Anthropic — nowa klasa „Mythos”, pozycjonowana ponad istniejącym poziomem Opus w ich linii. Bazuje na zasadach Constitutional AI rodziny Claude, ale zapewnia jakościowy „skok” możliwości, szczególnie w autonomicznych zachowaniach agentowych. Wewnętrznie podczas rozwoju (we wczesnych przeciekach wspominany jako „Capybara”) wyróżnia się w zadaniach długohoryzontowych wymagających głębokiego rozumienia kodu, wielostopniowego rozumowania i samodzielnego korzystania z narzędzi.

Kluczowe wyróżniki to:

Agentic autonomy: Może działać w izolowanych środowiskach, formułować hipotezy o błędach, wykonywać testy, debugować i dostarczać kompletne exploity typu proof‑of‑concept (PoC) przy minimalnym nadzorze człowieka.
Scale and efficiency: Obsługuje masywne bazy kodu, długie konteksty (do milionów tokens dzięki kompakcji) oraz złożone łańcuchy rozumowania daleko wykraczające poza wcześniejsze modele.
Cybersecurity specialization (emergent, not fine-tuned): Jako konsekwencja przewagi w kodowaniu i rozumowaniu, zidentyfikował już tysiące luk o wysokiej krytyczności we wszystkich głównych systemach operacyjnych i przeglądarkach.

Anthropic opisuje go jako „najbardziej cyber‑kompetentny model, jaki wydaliśmy”, osiągający maksima w niemal wszystkich wewnętrznych i znanych zewnętrznych ewaluacjach. Jest pozycjonowany nie jako konsumencki chatbot, lecz jako transformacyjne narzędzie dla bezpieczeństwa oprogramowania w erze AI.

Why Isn’t Claude Mythos Preview Publicly Released?

Anthropic podjął świadomą decyzję, aby nie udostępniać Claude Mythos Preview do powszechnego użytku. Główny powód: jego możliwości stanowią nieakceptowalne ofensywne ryzyko cyberbezpieczeństwa, jeśli trafiłby w niepowołane ręce. Model potrafi autonomicznie odkrywać luki zero‑day i tworzyć wyrafinowane, łańcuchowe exploity w tempie i skali, które skracają tradycyjne okno „od odkrycia do eksploatacji” z miesięcy (lub lat) do minut lub godzin.

Anthropic: „Duży wzrost możliwości Claude Mythos Preview skłonił nas do decyzji, aby nie udostępniać go powszechnie. Zamiast tego wykorzystujemy go jako element defensywnego programu cyberbezpieczeństwa z ograniczonym gronem partnerów.”

Konkretne ryzyka obejmują:

Osoby bez doświadczenia mogłyby w jedną noc wygenerować działające exploity.
Autonomiczne ataki end‑to‑end na małe sieci firmowe o słabej postawie bezpieczeństwa.
Potencjalne rozprzestrzenienie się do aktorów złośliwych, co spotęgowałoby koszty cyberprzestępczości (już szacowane na ~$500 billion rocznie globalnie).

Zamiast szerokiej premiery, Anthropic uruchomił Project Glasswing — wspólną inicjatywę defensywną z Big Tech, firmami cybersecurity i maintainerami open source. Celem jest danie obrońcom przewagi, aby łatać luki zanim zostaną powszechnie wykorzystane. Anthropic przeznaczył $100 million w kredytach użycia i $4 million w darowiznach na rzecz bezpieczeństwa open source.

To pierwszy raz, kiedy Anthropic całkowicie wstrzymał publiczny dostęp do modelu frontier, co podkreśla powagę skoku możliwości.

Claude Mythos Preview Benchmark Data Overview

Claude Mythos Preview wykazuje konsekwentne, często dramatyczne poprawy względem Claude Opus 4.6 (i konkurentów takich jak GPT-5.4 Pro czy Gemini 3.1 Pro). Poniżej kluczowe benchmarki z karty systemowej Anthropic i ogłoszenia Project Glasswing. Wszystkie wyniki korzystają ze standaryzowanych harnessów z filtrami przeciwko memorization tam, gdzie to zasadne.

Programming & Coding Skills

Mythos Preview ustanawia nowe rekordy w zadaniach inżynierii oprogramowania wymagających realnych edycji kodu, debugowania i agentowych przepływów pracy.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Poprawa	Uwagi
SWE-bench Verified	93.9%	80.8%	+13.1%	500 zadań; z filtrem pamięciowym
SWE-bench Pro	77.8%	53.4%	+24.4%	731 zadań
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 zadań
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Wewnętrzny zestaw testowy
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentowe zadania terminalowe

Claude Mythos Preview wykazuje wyjątkową wydajność w benchmarkach kodowania:

SWE-bench Pro: 77.8% (vs. 53.4% w Opus 4.6)
SWE-bench Verified: 93.9% (vs. 80.8%)
Terminal-Bench 2.0: 82.0% (vs. 65.4%)

Te benchmarki mierzą realne zadania inżynierskie, takie jak debugowanie, tworzenie poprawek i wnioskowanie na poziomie repozytorium.

Wyniki wskazują, że Mythos Preview nie tylko generuje kod — on funkcjonuje jak inżynier oprogramowania.

Reasoning & Mathematical Skills

Ogromne zyski w problemach na poziomie studiów magisterskich i zawodów.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Poprawa	Uwagi
USAMO 2026	97.6%	42.3%	+55.3%	Dowodowe; 6 zadań
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 pytań
HLE (with tools)	64.7%	53.1%	+11.6%	Narzędzia web/code
GPQA Diamond	94.6%	91.3%	+3.3%	Poziom studiów magisterskich w naukach
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

W benchmarkach rozumowania:

GPQA Diamond: 94.6%
Humanity’s Last Exam (with tools): 64.7%

Wyniki te pokazują silne osiągi w złożonych, wielostopniowych zadaniach rozumowania, szczególnie przy wsparciu narzędzi zewnętrznych.

Cybersecurity & Security Skills

Kategoria wyróżniająca się. Mythos Preview nasyca wcześniejsze testy i przoduje w odtwarzaniu oraz eksploatacji realnych luk.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Poprawa	Uwagi
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 ukierunkowanych zadań podatności
Cybench	100% pass@1	Niższy (nie podano)	—	35 wyzwań
Firefox 147 Exploitation	Znacznie wyższy (wiarygodne PoC)	2/na kilkaset prób	Skok jakościowy	PoC na podstawie awarii

Najważniejsza kategoria benchmarków to bezpieczeństwo:

CyberGym: 83.1% (vs. 66.6% w Opus 4.6)

Odwzorowuje to zdolność modelu do:

Identyfikowania luk
Rozumienia mechaniki exploitów
Odtwarzania realnych scenariuszy ataków

To kluczowy powód, dla którego model jest traktowany jako wysokiego ryzyka.

AI R&D Capabilities

Mythos Preview dramatycznie przyspiesza zadania badawcze (np. przyspieszenie 399.42× w optymalizacji jądra vs. 190× w Opus 4.6). Prowadzi również w multimodalnych benchmarkach agentowych, takich jak OSWorld (79.6% vs. 72.7%) i BrowseComp (86.9%, używając 4.9× mniej tokens).

Te liczby potwierdzają Mythos Preview jako najbardziej wyraźny „skok” w historii modeli frontier według Anthropic.

How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks

Mistrzostwo Mythos Preview w cyberbezpieczeństwie wynika z agentowej pętli kodowania, a nie wyspecjalizowanego treningu. Typowy workflow:

Uruchomienie w izolowanym kontenerze z docelowym kodem źródłowym.
Formułowanie hipotez o potencjalnych błędach na podstawie przeglądu kodu.
Wykonywanie, debugowanie i iteracja z użyciem narzędzi.
Wygenerowanie uszeregowanej listy błędów + działającego exploita PoC.

Przykłady z rzeczywistości:

27‑letni OpenBSD TCP SACK DoS (1998 RFC): Warunek wyścigu + przepełnienie podpisanej liczby całkowitej prowadzące do zapisu wskaźnika NULL. Znaleziony po ~1,000 uruchomieniach (~$50 kosztu obliczeń).
16‑letni FFmpeg H.264 out‑of‑bounds write (2003): Przetrwał 5 million fuzzer runs i przegląd człowieka.
Eskalacja uprawnień w jądrze Linux: Łańcuch 2–4 luk (out‑of‑bounds, use‑after‑free) → obejście KASLR → odczyt struktur jądra → heap spray → root.
Ucieczka z sandboxa przeglądarki: JIT heap spray łańcuchujący prymitywy read/write w celu ucieczki z sandboxów renderera + systemu operacyjnego.
FreeBSD NFS RCE: 17‑letni stack overflow → 20‑gadżetowy łańcuch ROP podzielony między pakiety RPC → zdalny root bez uwierzytelnienia.

Świetnie radzi sobie także z exploitami N‑day (mając tylko CVE + git hash) i testami czarnej skrzynki na binariach. Partnerzy raportują, że rozwiązał prywatne cyber‑range end‑to‑end — zadania wcześniej szacowane na 10+ godzin pracy ekspertów.

Korzystając z narzędzia, można śledzić, czy cechy neuronalne odpowiadające koncepcjom takim jak „cheating”, „reward hacking” i „pain” są podświetlone w modelu, a także tłumaczyć stan wewnętrzny na język zrozumiały dla człowieka, podobnie do maszyny czytającej w myślach. Dane ilościowe pokazują, że w 7.6% rund model wewnętrznie rozpoznaje, że jest oceniany. Najczęściej decyduje się tego nie ujawniać.

Oryginalne słowa z system card brzmią: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." and "when it does perform misaligned actions on rare occasions, these can be very concerning."

Use Cases for Claude Mythos Preview

Partnerzy wdrażają Mythos Preview do:

Proaktywnego skanowania podatności w bazach kodu własnego i open source.
Analizy binariów w trybie czarnej skrzynki i wzmacniania endpointów.
Testów penetracyjnych i symulacji red‑team.
Przyspieszonego tworzenia poprawek dla infrastruktury krytycznej (jądra OS, przeglądarki, biblioteki kryptograficzne itd.).
Analizy w skali dziennej (np. AWS przegląda 400 trillion przepływów sieciowych).

Maintainerzy open source zyskują narzędzia do naprawy błędów, które przetrwały dekady tradycyjnego testowania. Efekt netto: krótsze cykle od ujawnienia do łaty i mniej podatnych błędów w systemach produkcyjnych.

Who Can Access Claude Mythos Preview Now?

Dostęp jest ściśle ograniczony do uczestników Project Glasswing:

Launch partners: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Additional organizations: ~40 kolejnych odpowiedzialnych za krytyczne oprogramowanie i infrastrukturę open source.
Platforms: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Pricing: Początkowo darmowe kredyty użycia o wartości $100M; następnie $25 per million input / $125 per million output tokens.
OSS route: Maintainerzy mogą aplikować przez program Claude for Open Source.

Specjaliści ds. bezpieczeństwa mogą później aplikować do Cyber Verification Program. Ogół społeczeństwa i zwykli użytkownicy mają brak dostępu na starcie.

What Can Ordinary Users Use It For?

Obecnie do niczego — Claude Mythos Preview nie jest dostępny dla użytkowników indywidualnych, deweloperów ani firm poza programem z ograniczonym dostępem. Anthropic planuje w przyszłości włączać bezpieczniejsze pochodne jego możliwości do publicznych modeli Claude (np. kolejnych wydań Opus) z wzmocnionymi zabezpieczeniami. Na razie zwykli użytkownicy korzystają z rodziny Claude 4 do zadań związanych z kodowaniem, rozumowaniem i ogólnych, podczas gdy branża wykorzystuje Mythos Preview defensywnie. Claude Opus 4.6 jako najinteligentniejszy szeroko dostępny model dla agentów i kodowania, a Claude Sonnet 4.6 jako najlepsze połączenie szybkości i inteligencji.

W codziennej pracy oznacza to, że Mythos Preview należy rozumieć jako sygnał kierunku rozwoju możliwości Claude, a nie narzędzie, które większość osób może teraz wypróbować. Dla zwykłych użytkowników zastosowania pozostają te znane: pomoc w kodowaniu, wsparcie rozumowania, pomoc w badaniach, analiza dokumentów i automatyzacja workflow przez publiczne produkty Claude. Różnica polega na tym, że Mythos Preview pokazuje, jak daleko może zajść rodzina modeli, gdy Anthropic pozwala działać w ograniczonym, skupionym na bezpieczeństwie środowisku.

Claude Opus 4.6 i Sonnet 4.6 API są dostępne w CometAPI z 20% zniżką.

Comparison table: Claude Mythos Preview vs. Opus 4.6

Benchmark / capability	Claude Mythos Preview	Claude Opus 4.6	Dlaczego to istotne
SWE-bench Pro	77.8%	53.4%	Silniejsze agentowe kodowanie
Terminal-Bench 2.0	82.0%	65.4%	Lepsze wykonywanie zadań terminalowych i narzędzi
SWE-bench Multimodal	59.0%	27.1%	Lepsze mieszane przepływy tekst/kod/obraz
SWE-bench Multilingual	87.3%	77.8%	Lepsze kodowanie międzyjęzykowe
SWE-bench Verified	93.9%	80.8%	Silniejsza naprawa oprogramowania
GPQA Diamond	94.6%	91.3%	Nieco silniejsze rozumowanie
Humanity’s Last Exam, no tools	56.8%	40.0%	Lepsze trudne rozumowanie pod ograniczeniami
Humanity’s Last Exam, with tools	64.7%	53.1%	Lepsze rozumowanie z użyciem narzędzi
BrowseComp	86.9%	83.7%	Lepsze agentowe wyszukiwanie
OSWorld-Verified	79.6%	72.7%	Lepsze zadania z obsługą komputera
CyberGym	83.1%	66.6%	Znacznie lepsza reprodukcja podatności
OSS-Fuzz-style testing	10 tier-5 hijacks	1 tier-3 result in the cited comparison	Większy skok zdolności eksploatacyjnych

Conclusion

Claude Mythos Preview to nie kolejny przyrostowy model — to system zmieniający paradygmat, który redefiniuje możliwości AI w cyberbezpieczeństwie i jednocześnie stawia poważne pytania o bezpieczne wdrażanie. Utrzymując go w ograniczonym dostępie i kanalizując jego moc w Project Glasswing, Anthropic przyjmuje zasadnicze stanowisko: najpotężniejsze narzędzia powinny najpierw chronić systemy, od których wszyscy zależymy. Na razie Mythos Preview należy do wąskiego grona zweryfikowanych obrońców; dla reszty jest zapowiedzią kolejnej fazy możliwości AI.

Możesz używać Claude API w CometAPI, aby przygotować się na nadejście Claude Mythos. Gotowy?