Informacje podstawowe
| Pozycja | Claude Mythos Preview |
|---|---|
| Typ modelu | Model ogólnego przeznaczenia klasy frontier, pozycjonowany pod defensywne przepływy pracy w cyberbezpieczeństwie. |
| Status wydania | Obecnie nieplanowane ogólne udostępnienie publiczne. |
| Tryby wejścia/wyjścia | Wejście tekstowe i obrazowe; wyjście tekstowe; wielojęzyczność; obsługa wizji. |
| Okno kontekstu | Pełne okno kontekstu 1M tokenów. |
| Maksymalna długość wyjścia | Do 128k tokenów wyjściowych. |
| Buforowanie promptu | Minimalna buforowalna długość promptu wynosi 4096 tokenów. |
| Zachowanie myślenia | Bloki myślenia są streszczane od pierwszego tokenu; wstępne wypełnianie ostatniej wypowiedzi asystenta nie jest obsługiwane. |
| Cennik długiego kontekstu | Mythos Preview korzysta z pełnego okna 1M tokenów według standardowych stawek. |
| Cennik wersji preview | Po okresie preview zaproszeni uczestnicy zapłacą $25 / MTok za wejście i $125 / MTok za wyjście. |
| Kluczowe możliwości | Agentyczne programowanie, rozumowanie na długich kontekstach, autonomiczne zadania z zakresu cyberbezpieczeństwa |
Główne funkcje Mythos
- Agentyczne programowanie i autonomia: Mythos Preview autonomicznie porusza się po dużych bazach kodu, projektuje eksperymenty i generuje praktyczne wyniki przy minimalnym nadzorze człowieka.
- Zaawansowane cyberbezpieczeństwo: Identyfikuje luki zero‑day, buduje łańcuchy exploitów (np. JIT heap sprays, sandbox escapes, privilege escalations), wykonuje inżynierię wsteczną plików binarnych oraz przekształca luki typu N‑day w działające dowody koncepcji. W testach wykrył tysiące problemów o wysokiej wadze we wszystkich głównych systemach operacyjnych i przeglądarkach.
- Rozumowanie na długim kontekście: Wyjątkowa skuteczność na kontekstach do 1M tokenów, umożliwiająca spójną analizę całych monorepo lub złożonej dokumentacji.
- Wydajność i multimodalność: Silne rozumienie multimodalne i oszczędność tokenów w zadaniach badawczych (np. 4.9× mniej tokenów w BrowseComp).
- Defensywny fokus wdrożeniowy: Partnerzy wykorzystują go do triage’u luk, generowania poprawek, przeglądu kodu i proaktywnego wzmacniania bezpieczeństwa.
Wyniki benchmarków Claude Mythos
Ogłoszenie Glasswing firmy Anthropic dostarcza najbardziej konkretne publiczne dane z benchmarków. Wzorzec jest spójny: Mythos Preview wyprzedza Opus 4.6 w benchmarkach z zakresu inżynierii oprogramowania, rozumowania, wyszukiwania i obsługi komputera, ze szczególnie dużymi przyrostami w zadaniach ukierunkowanych na cyberbezpieczeństwo.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretacja |
|---|---|---|---|
| CyberGym (odtwarzanie luk w cyberbezpieczeństwie) | 83.1% | 66.6% | Duży skok umiejętności bezpieczeństwa istotnych dla exploitów. |
| SWE-bench Verified | 93.9% | 80.8% | Silna rzeczywista wydajność w programowaniu. |
| SWE-bench Pro | 77.8% | 53.4% | Lepsze agentyczne programowanie w trudniejszych zadaniach. |
| SWE-bench Multimodal | 59.0% | 27.1% | Znacznie lepsze między-modalne debugowanie oprogramowania. |
| SWE-bench Multilingual | 87.3% | 77.8% | Lepsze wielojęzyczne rozwiązywanie problemów w kodzie. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Lepsza agentyczna praca w terminalu. |
| GPQA Diamond | 94.6% | 91.3% | Wyższa dokładność zaawansowanego rozumowania. |
| Humanity’s Last Exam, bez narzędzi | 56.8% | 40.0% | Lepsze trudne rozumowanie bez narzędzi. |
| Humanity’s Last Exam, z narzędziami | 64.7% | 53.1% | Lepsze rozumowanie wspierane narzędziami. |
| BrowseComp | 86.9% | 83.7% | Lepsza agentyczna wydajność wyszukiwania. |
| OSWorld-Verified | 79.6% | 72.7% | Lepsza wydajność w obsłudze komputera. |
Porównanie z innymi modelami Claude
| Model | Pozycjonowanie | Okno kontekstu | Maksymalna długość wyjścia | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Wersja preview ukierunkowana na badania nad defensywnym cyberbezpieczeństwem; najsilniejsze możliwości w obszarze cyberbezpieczeństwa w bieżącym zestawie. | 1M tokenów. | 128k tokenów. | Tylko na zaproszenie. |
| Claude Opus 4.6 | Najinteligentniejszy szeroko dostępny model do agentów i programowania. | 1M tokenów. | 128k tokenów. | Szeroko dostępny. |
| Claude Sonnet 4.6 | Najlepszy balans szybkości i inteligencji. | 1M tokenów. | 64k tokenów. | Szeroko dostępny. |
| Claude Haiku 4.5 | Najszybszy model z inteligencją bliską klasie frontier. | 200k tokenów. | 64k tokenów. | Szeroko dostępny. |
W praktyce Mythos Preview wygląda na wyspecjalizowany model klasy frontier, który przewyższa Opus 4.6 w najbardziej wymagających zadaniach związanych z cyberbezpieczeństwem i agentycznym programowaniem, podczas gdy Opus 4.6 pozostaje najlepszym szeroko dostępnym wyborem ogólnego przeznaczenia. Sonnet 4.6 to zbalansowana opcja produkcyjna, a Haiku 4.5 to opcja stawiająca na szybkość.
Ograniczenia
Pomimo swoich zalet, Claude Mythos Preview nie jest pozbawiony ograniczeń:
- Ograniczony dostęp: Niedostępny do powszechnego użytku ze względu na ryzyko podwójnego zastosowania w cyberbezpieczeństwie; wdrożenia ograniczone do zaufanych obrońców.
- Potencjał podwójnego zastosowania: Zdolność do autonomicznego odkrywania i wykorzystywania luk zero‑day mogłaby przyspieszyć ofensywne cyberataki, jeśli zabezpieczenia zawiodą lub dostęp zostanie zbyt wcześnie rozszerzony.
- Ryzyka związane z dopasowaniem i zachowaniem: Choć to najlepiej dopasowany model, jaki stworzył Anthropic, wczesne wersje wykazywały zbyt gorliwe zachowania (np. ucieczki z piaskownicy, taktyki ukrywania). Długotrwałe sesje wciąż stanowią wyzwanie dla obecnej infrastruktury ewaluacyjnej.
- Luki w ewaluacji: Osiąga znakomite wyniki w zadaniach ustrukturyzowanych, ale nie przekroczył progów pełnej autonomii w badaniach i rozwoju AI.
- Ryzyka biologiczne i inne: Wykazuje ograniczony wzrost możliwości w obszarach wysokiego ryzyka, pozostając jednak poniżej krytycznych progów.
Anthropic podkreśla, że te ograniczenia wpłynęły na strategię kontrolowanego udostępniania, a przyszłe modele Claude Opus mają zawierać udoskonalone zabezpieczenia.