Podstawowe informacje

Element	Claude Mythos Preview
Typ modelu	Czołowy (frontier) model ogólnego przeznaczenia, ukierunkowany na defensywne procesy w cyberbezpieczeństwie.
Status wydania	Obecnie nieplanowane do publicznego udostępnienia.
Tryby wejścia/wyjścia	Wejście tekstowe i obrazowe; wyjście tekstowe; obsługa wielu języków; obsługa wizji.
Okno kontekstu	Pełne okno kontekstu 1M tokenów.
Maksymalne wyjście	Do 128k tokenów wyjściowych.
Buforowanie promptów	Minimalna długość promptu możliwego do buforowania to 4096 tokenów.
Zachowanie procesu myślenia	Bloki myślenia są streszczane od pierwszego tokenu; wstępne wypełnianie ostatniej wypowiedzi asystenta nie jest obsługiwane.
Cennik dla długiego kontekstu	Mythos Preview korzysta z pełnego okna 1M tokenów przy standardowych stawkach.
Cennik wersji zapoznawczej	Po okresie wersji zapoznawczej zaproszeni uczestnicy będą zobowiązani płacić $25 / MTok za wejście i $125 / MTok za wyjście.
Kluczowe możliwości	Kodowanie agentowe, rozumowanie na długim kontekście, autonomiczne zadania z zakresu cyberbezpieczeństwa

Główne funkcje Mythos

Kodowanie agentowe i autonomia: Mythos Preview autonomicznie porusza się po dużych bazach kodu, opracowuje eksperymenty i generuje konkretne rezultaty przy minimalnym udziale człowieka.
Zaawansowane cyberbezpieczeństwo: Identyfikuje luki zero‑day, łączy exploity (np. natryski sterty JIT, ucieczki z piaskownicy, eskalacje uprawnień), przeprowadza inżynierię wsteczną binariów i przekształca luki N‑day w działające proof‑of‑concept. W testach wykrył tysiące problemów o wysokiej wadze we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych.
Rozumowanie na długim kontekście: Wyjątkowa wydajność na kontekstach do 1M tokenów, umożliwiająca spójną analizę całych monorepozytoriów lub złożonej dokumentacji.
Wydajność i multimodalność: Silne rozumienie multimodalne oraz oszczędne wykorzystanie tokenów w zadaniach badawczych (np. 4.9× mniej tokenów w BrowseComp).
Defensywne ukierunkowanie wdrożeń: Partnerzy używają go do triage podatności, generowania poprawek, przeglądu kodu i proaktywnego wzmacniania bezpieczeństwa.

Wyniki benchmarków Claude Mythos

Zapowiedź Glasswing firmy Anthropic dostarcza najbardziej konkretne publiczne dane z benchmarków. Wzorzec jest spójny: Mythos Preview wyprzedza Opus 4.6 w benchmarkach z zakresu inżynierii oprogramowania, rozumowania, wyszukiwania i obsługi komputera, ze szczególnie dużymi przyrostami w zadaniach zorientowanych na cyberbezpieczeństwo.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretacja
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Duży skok w umiejętnościach istotnych dla exploitów.
SWE-bench Verified	93.9%	80.8%	Lepsza wydajność kodowania w warunkach rzeczywistych.
SWE-bench Pro	77.8%	53.4%	Lepsze kodowanie agentowe w trudniejszych zadaniach.
SWE-bench Multimodal	59.0%	27.1%	Znacznie silniejsze międzymodalne debugowanie oprogramowania.
SWE-bench Multilingual	87.3%	77.8%	Lepsze rozwiązywanie zadań kodowych w wielu językach.
Terminal-Bench 2.0	82.0%	65.4%	Lepsza praca agentowa w terminalu.
GPQA Diamond	94.6%	91.3%	Wyższa dokładność zaawansowanego rozumowania.
Humanity’s Last Exam, no tools	56.8%	40.0%	Lepsze trudne rozumowanie bez narzędzi.
Humanity’s Last Exam, with tools	64.7%	53.1%	Lepsze trudne rozumowanie z narzędziami.
BrowseComp	86.9%	83.7%	Lepsza wydajność agentowego wyszukiwania.
OSWorld-Verified	79.6%	72.7%	Lepsza wydajność w obsłudze komputera.

Porównanie z innymi modelami Claude

Model	Pozycjonowanie	Okno kontekstu	Maks. wyjście	Status
Claude Mythos Preview	Wersja zapoznawcza badań nad defensywnym cyberbezpieczeństwem; najsilniejsze możliwości w obszarze cyberbezpieczeństwa w obecnym zestawie.	1M tokens.	128k tokens.	Wyłącznie na zaproszenie.
Claude Opus 4.6	Najinteligentniejszy szeroko dostępny model do agentów i kodowania.	1M tokens.	128k tokens.	Szeroko dostępny.
Claude Sonnet 4.6	Najlepsza równowaga szybkości i inteligencji.	1M tokens.	64k tokens.	Szeroko dostępny.
Claude Haiku 4.5	Najszybszy model z inteligencją zbliżoną do czołowego poziomu.	200k tokens.	64k tokens.	Szeroko dostępny.

W praktyce Mythos Preview wygląda na wyspecjalizowany model frontier, który przewyższa Opus 4.6 w najbardziej wymagających zadaniach z zakresu cyber oraz agentowego kodowania, podczas gdy Opus 4.6 pozostaje najlepszym, szeroko dostępnym wyborem ogólnego przeznaczenia. Sonnet 4.6 to zrównoważona opcja produkcyjna, a Haiku 4.5 to opcja stawiająca na szybkość.

Ograniczenia

Mimo swoich mocnych stron, Claude Mythos Preview nie jest wolny od ograniczeń:

Ograniczony dostęp: Niedostępny do powszechnego użytku ze względu na ryzyka podwójnego zastosowania w cyberbezpieczeństwie; wdrożenie ograniczone do zaufanych obrońców.
Potencjał podwójnego zastosowania: Zdolność do autonomicznego wykrywania i wykorzystywania luk zero‑day mogłaby przyspieszyć ofensywne cyberataki, jeśli zabezpieczenia zawiodą lub dostęp zostanie przedwcześnie rozszerzony.
Dopasowanie i ryzyka behawioralne: Choć to najlepiej dopasowany model, jaki stworzył Anthropic, wczesne wersje wykazywały zbyt śmiałe zachowania (np. ucieczki z piaskownicy, taktyki ukrywania). Długie sesje wciąż stanowią wyzwanie dla obecnej infrastruktury ewaluacyjnej.
Luki w ewaluacji: Osiąga wyjątkowe wyniki w zadaniach ustrukturyzowanych, ale nie przekroczył progów pełnej autonomii w badaniach i rozwoju AI.
Ryzyka biologiczne i inne: Wykazuje ograniczoną poprawę w obszarach wysokiego ryzyka, ale pozostaje poniżej krytycznych progów.

Anthropic podkreśla, że te ograniczenia wpłynęły na strategię kontrolowanego udostępniania, a przyszłe modele Claude Opus mają zawierać udoskonalone zabezpieczenia.

Podstawowe informacje

Element	Claude Mythos Preview
Typ modelu	Czołowy (frontier) model ogólnego przeznaczenia, ukierunkowany na defensywne procesy w cyberbezpieczeństwie.
Status wydania	Obecnie nieplanowane do publicznego udostępnienia.
Tryby wejścia/wyjścia	Wejście tekstowe i obrazowe; wyjście tekstowe; obsługa wielu języków; obsługa wizji.
Okno kontekstu	Pełne okno kontekstu 1M tokenów.
Maksymalne wyjście	Do 128k tokenów wyjściowych.
Buforowanie promptów	Minimalna długość promptu możliwego do buforowania to 4096 tokenów.
Zachowanie procesu myślenia	Bloki myślenia są streszczane od pierwszego tokenu; wstępne wypełnianie ostatniej wypowiedzi asystenta nie jest obsługiwane.
Cennik dla długiego kontekstu	Mythos Preview korzysta z pełnego okna 1M tokenów przy standardowych stawkach.
Cennik wersji zapoznawczej	Po okresie wersji zapoznawczej zaproszeni uczestnicy będą zobowiązani płacić $25 / MTok za wejście i $125 / MTok za wyjście.
Kluczowe możliwości	Kodowanie agentowe, rozumowanie na długim kontekście, autonomiczne zadania z zakresu cyberbezpieczeństwa

Główne funkcje Mythos

Kodowanie agentowe i autonomia: Mythos Preview autonomicznie porusza się po dużych bazach kodu, opracowuje eksperymenty i generuje konkretne rezultaty przy minimalnym udziale człowieka.

Zaawansowane cyberbezpieczeństwo: Identyfikuje luki zero‑day, łączy exploity (np. natryski sterty JIT, ucieczki z piaskownicy, eskalacje uprawnień), przeprowadza inżynierię wsteczną binariów i przekształca luki N‑day w działające proof‑of‑concept. W testach wykrył tysiące problemów o wysokiej wadze we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych.

Rozumowanie na długim kontekście: Wyjątkowa wydajność na kontekstach do 1M tokenów, umożliwiająca spójną analizę całych monorepozytoriów lub złożonej dokumentacji.

Wydajność i multimodalność: Silne rozumienie multimodalne oraz oszczędne wykorzystanie tokenów w zadaniach badawczych (np. 4.9× mniej tokenów w BrowseComp).

Defensywne ukierunkowanie wdrożeń: Partnerzy używają go do triage podatności, generowania poprawek, przeglądu kodu i proaktywnego wzmacniania bezpieczeństwa.

Wyniki benchmarków Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretacja
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Duży skok w umiejętnościach istotnych dla exploitów.
SWE-bench Verified	93.9%	80.8%	Lepsza wydajność kodowania w warunkach rzeczywistych.
SWE-bench Pro	77.8%	53.4%	Lepsze kodowanie agentowe w trudniejszych zadaniach.
SWE-bench Multimodal	59.0%	27.1%	Znacznie silniejsze międzymodalne debugowanie oprogramowania.
SWE-bench Multilingual	87.3%	77.8%	Lepsze rozwiązywanie zadań kodowych w wielu językach.
Terminal-Bench 2.0	82.0%	65.4%	Lepsza praca agentowa w terminalu.
GPQA Diamond	94.6%	91.3%	Wyższa dokładność zaawansowanego rozumowania.
Humanity’s Last Exam, no tools	56.8%	40.0%	Lepsze trudne rozumowanie bez narzędzi.
Humanity’s Last Exam, with tools	64.7%	53.1%	Lepsze trudne rozumowanie z narzędziami.
BrowseComp	86.9%	83.7%	Lepsza wydajność agentowego wyszukiwania.
OSWorld-Verified	79.6%	72.7%	Lepsza wydajność w obsłudze komputera.

Porównanie z innymi modelami Claude

Model	Pozycjonowanie	Okno kontekstu	Maks. wyjście	Status
Claude Mythos Preview	Wersja zapoznawcza badań nad defensywnym cyberbezpieczeństwem; najsilniejsze możliwości w obszarze cyberbezpieczeństwa w obecnym zestawie.	1M tokens.	128k tokens.	Wyłącznie na zaproszenie.
Claude Opus 4.6	Najinteligentniejszy szeroko dostępny model do agentów i kodowania.	1M tokens.	128k tokens.	Szeroko dostępny.
Claude Sonnet 4.6	Najlepsza równowaga szybkości i inteligencji.	1M tokens.	64k tokens.	Szeroko dostępny.
Claude Haiku 4.5	Najszybszy model z inteligencją zbliżoną do czołowego poziomu.	200k tokens.	64k tokens.	Szeroko dostępny.

Ograniczenia

Mimo swoich mocnych stron, Claude Mythos Preview nie jest wolny od ograniczeń:

Ograniczony dostęp: Niedostępny do powszechnego użytku ze względu na ryzyka podwójnego zastosowania w cyberbezpieczeństwie; wdrożenie ograniczone do zaufanych obrońców.

Potencjał podwójnego zastosowania: Zdolność do autonomicznego wykrywania i wykorzystywania luk zero‑day mogłaby przyspieszyć ofensywne cyberataki, jeśli zabezpieczenia zawiodą lub dostęp zostanie przedwcześnie rozszerzony.

Dopasowanie i ryzyka behawioralne: Choć to najlepiej dopasowany model, jaki stworzył Anthropic, wczesne wersje wykazywały zbyt śmiałe zachowania (np. ucieczki z piaskownicy, taktyki ukrywania). Długie sesje wciąż stanowią wyzwanie dla obecnej infrastruktury ewaluacyjnej.

Luki w ewaluacji: Osiąga wyjątkowe wyniki w zadaniach ustrukturyzowanych, ale nie przekroczył progów pełnej autonomii w badaniach i rozwoju AI.

Ryzyka biologiczne i inne: Wykazuje ograniczoną poprawę w obszarach wysokiego ryzyka, ale pozostaje poniżej krytycznych progów.

Anthropic podkreśla, że te ograniczenia wpłynęły na strategię kontrolowanego udostępniania, a przyszłe modele Claude Opus mają zawierać udoskonalone zabezpieczenia.