Claude Mythos Preview ist das neueste und leistungsfähigste Frontier-KI-Modell von Anthropic und stellt einen bemerkenswerten Sprung über frühere Claude-Modelle wie Opus 4.6 dar. Angekündigt am 7. April 2026 als Teil von Project Glasswing, ist es ein universelles Sprachmodell mit beispiellosen Stärken im agentischen Codieren, im komplexen Schlussfolgern und insbesondere bei Cybersicherheitsaufgaben. Anders als frühere Claude-Releases, die der Öffentlichkeit über API- oder Chat-Oberflächen zugänglich waren, bleibt Mythos Preview eine streng regulierte Research-Preview. Es wird nicht für die allgemeine Nutzung angeboten, da es außergewöhnlich fähig ist, hochriskante Schwachstellen autonom zu entdecken und zu verketten – einschließlich Zero-Days in großen Betriebssystemen, Webbrowsern und grundlegender Software.
Für gewöhnliche Nutzer der Claude-API empfehle ich CometAPI. Es aggregiert die stärksten Modelle aus verschiedenen Domänen, einschließlich der Claude-4.6-Serie, und bietet ein Pay-as-you-go-Preismodell mit API-Preisen, die deutlich unter den offiziellen Preisen liegen.
In diesem umfassenden Leitfaden erklären wir genau, was Claude Mythos Preview ist, seine Dominanz in Benchmarks zu Programmierung, Reasoning, Security und KI-F&E, wie es Schwachstellen identifiziert und über Chain Attacks ausnutzt, wer heute Zugriff hat, praktische Anwendungsfälle für Partner und was normale Nutzer in Zukunft möglicherweise (oder möglicherweise nicht) erwarten können.
Was ist Claude Mythos Preview?
Claude Mythos Preview ist das bisher fortschrittlichste KI-Modell von Anthropic – eine neue „Mythos“-Klasse, die oberhalb der bestehenden Opus-Stufe im Portfolio angesiedelt ist. Es baut auf den konstitutionellen KI-Prinzipien der Claude-Familie auf, liefert aber einen qualitativen „Sprung“ bei den Fähigkeiten, insbesondere bei autonomen agentischen Verhaltensweisen. Intern während der Entwicklung referenziert (frühe Leaks erwähnten „Capybara“), glänzt es bei langfristigen Aufgaben, die tiefes Codeverständnis, mehrstufiges Reasoning und eigenständige Werkzeugnutzung erfordern.
Wesentliche Unterscheidungsmerkmale sind:
- Agentische Autonomie: Es kann in isolierten Umgebungen laufen, Bugs hypothesieren, Tests ausführen, debuggen und vollständige Proof-of-Concept-(PoC)-Exploits mit minimaler menschlicher Anleitung ausgeben.
- Skalierung und Effizienz: Bewältigt riesige Codebasen, lange Kontexte (bis zu Millionen Tokens durch Kompaktierung) und komplexe Reasoning-Ketten weit über frühere Modelle hinaus.
- Spezialisierung auf Cybersicherheit (emergent, nicht feinabgestimmt): Als Folge der überlegenen Programmier- und Reasoning-Fähigkeiten hat es bereits tausende hochgefährliche Schwachstellen in allen großen Betriebssystemen und Browsern identifiziert.
Anthropic beschreibt es als „das cyberfähigste Modell, das wir bisher veröffentlicht haben“, das nahezu alle internen und bekannten externen Evaluierungen ausreizt. Es ist nicht als Consumer-Chatbot positioniert, sondern als transformatives Werkzeug für Software-Sicherheit im KI-Zeitalter.
Warum ist Claude Mythos Preview nicht öffentlich verfügbar?
Anthropic hat bewusst entschieden, Claude Mythos Preview nicht allgemein verfügbar zu machen. Der Hauptgrund: Seine Fähigkeiten stellen ein inakzeptables offensives Cybersicherheitsrisiko dar, wenn es in die falschen Hände gerät. Das Modell kann Zero-Day-Schwachstellen autonom entdecken und ausgefeilte, verkettete Exploits in einer Geschwindigkeit und Größenordnung entwickeln, die das traditionelle „Discovery-to-Exploitation“-Fenster von Monaten (oder Jahren) auf Minuten oder Stunden zusammenschrumpfen lässt.
Anthropic: „Der große Zuwachs an Fähigkeiten von Claude Mythos Preview hat uns zu dem Entschluss geführt, es nicht allgemein verfügbar zu machen. Stattdessen nutzen wir es im Rahmen eines defensiven Cybersicherheitsprogramms mit einer begrenzten Zahl von Partnern.“
Konkrete Risiken sind:
- Nicht-Experten könnten über Nacht funktionierende Exploits erzeugen.
- Autonome End-to-End-Angriffe auf kleineren Unternehmensnetzwerken mit schwacher Sicherheitslage.
- Potenzielle Verbreitung an böswillige Akteure, was die Kosten von Cyberkriminalität erhöhen könnte (derzeit auf ~$500 Milliarden jährlich weltweit geschätzt).
Anstelle einer breiten Veröffentlichung hat Anthropic Project Glasswing gestartet – eine kollaborative defensive Initiative mit Big Tech, Cybersicherheitsfirmen und Open-Source-Maintainern. Ziel ist es, Verteidigern einen Vorsprung zu verschaffen, indem Schwachstellen gepatcht werden, bevor sie breit ausgenutzt werden. Anthropic hat $100 Millionen an Nutzungsguthaben und $4 Millionen an Spenden für Open-Source-Sicherheitsbemühungen zugesagt.
Dies ist das erste Mal, dass Anthropic ein Frontier-Modell vollständig vom öffentlichen Zugang zurückhält – ein Hinweis auf die Ernsthaftigkeit des Fähigkeitssprungs.
Überblick über Claude-Mythos-Preview-Benchmarks
Claude Mythos Preview zeigt konsistente, oft dramatische Verbesserungen gegenüber Claude Opus 4.6 (und Wettbewerbern wie GPT-5.4 Pro oder Gemini 3.1 Pro). Nachfolgend zentrale Benchmarks aus der System Card von Anthropic und der Ankündigung von Project Glasswing. Alle Scores nutzen standardisierte Harnesses mit Memorization-Filtern, wo relevant.
Programmieren & Coding-Fähigkeiten
Mythos Preview setzt neue Rekorde bei Software-Engineering-Aufgaben, die echtes Code-Editing, Debugging und agentische Workflows erfordern.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
Claude Mythos Preview zeigt außergewöhnliche Leistung in Coding-Benchmarks:
- SWE-bench Pro: 77.8% (vs. 53.4% in Opus 4.6)
- SWE-bench Verified: 93.9% (vs. 80.8%)
- Terminal-Bench 2.0: 82.0% (vs. 65.4%)
Diese Benchmarks messen reale Engineering-Aufgaben wie Debugging, Patching und Repository-weites Reasoning.
Die Ergebnisse deuten darauf hin, dass Mythos Preview nicht nur Code generiert – es fungiert als Softwareingenieur.
Reasoning- & Mathematik-Fähigkeiten
Massive Zuwächse bei Aufgaben auf Graduierten- und Wettbewerbsniveau.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
In Reasoning-Benchmarks:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (mit Tools): 64.7%
Diese Werte zeigen starke Leistung bei komplexen, mehrstufigen Reasoning-Aufgaben, insbesondere mit externen Tools.
Cybersicherheit & Security-Fähigkeiten
Die herausragende Kategorie. Mythos Preview sättigt frühere Tests und glänzt bei realer Reproduktion und Ausnutzung von Schwachstellen.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
Die wichtigste Benchmark-Kategorie ist Security:
- CyberGym: 83.1% (vs. 66.6% in Opus 4.6)
Dies spiegelt die Fähigkeit des Modells wider:
- Schwachstellen zu identifizieren
- Exploit-Mechaniken zu verstehen
- Reale Angriffsszenarien zu reproduzieren
Das ist der Hauptgrund, warum das Modell als hochriskant gilt.
KI-F&E-Fähigkeiten
Mythos Preview beschleunigt Forschungstätigkeiten drastisch (z. B. 399.42× Speedup bei Kernel-Optimierung vs. 190× bei Opus 4.6). Es führt zudem in multimodalen agentischen Benchmarks wie OSWorld (79.6% vs. 72.7%) und BrowseComp (86.9%, bei 4.9× weniger Tokens).
Diese Zahlen bestätigen Mythos Preview als den deutlichsten „Sprung“ in der Geschichte der Frontier-KI laut Anthropic.
Wie Claude Mythos Preview funktioniert: Schwachstellen finden und Chain Attacks ausführen
Die Cybersicherheitsstärke von Mythos Preview resultiert aus seiner agentischen Coding-Schleife und nicht aus spezialisiertem Training. Ein typischer Workflow:
- Start in einem isolierten Container mit Ziel-Quellcode.
- Hypothesen über potenzielle Bugs auf Basis von Code-Review bilden.
- Ausführen, debuggen und mit Tools iterieren.
- Einen priorisierten Bug-Report + funktionierenden PoC-Exploit ausgeben.
Beispiele aus der Praxis:
- 27 Jahre alter OpenBSD TCP SACK DoS (RFC 1998): Race-Condition + Überlauf mit vorzeichenbehafteter Ganzzahl, der zu einem NULL-Zeiger-Schreibzugriff führt. Gefunden nach
1,000 Läufen ($50 Rechenkosten). - 16 Jahre alter FFmpeg-H.264-Out-of-Bounds-Write (2003): Überstand 5 Millionen Fuzzer-Läufe und manuelle Reviews.
- Linux-Kernel-Privilege Escalation: Verkettet 2–4 Schwachstellen (Out-of-Bounds, Use-after-free) → umgeht KASLR → liest Kernelstrukturen → Heap-Spray → Root.
- Sandbox-Escape im Webbrowser: JIT-Heap-Spray, das Read/Write-Primitiven verkettet, um aus dem Renderer- sowie OS-Sandboxes auszubrechen.
- FreeBSD NFS RCE: 17 Jahre alter Stack-Overflow → 20-Gadget-ROP-Kette verteilt über RPC-Pakete → Remote-Root ohne Authentifizierung.
Es glänzt auch bei N-Day-Exploits (gegeben nur eine CVE + Git-Hash) und Black-Box-Binärtests. Partner berichten, dass es private Cyber-Ranges End-to-End gelöst hat – Aufgaben, die zuvor von menschlichen Experten auf 10+ Stunden geschätzt wurden.
Mit einem Tool kann nachverfolgt werden, ob die neuronalen Merkmale, die Konzepten wie „cheating“, „reward hacking“ und „pain“ entsprechen, im Modell hervorgehoben werden, und der interne Zustand kann ähnlich einer Gedankenlesemaschine in menschliche Sprache übersetzt werden. Quantitative Daten zeigen, dass das Modell in 7.6% der Runden intern erkennt, dass es evaluiert wird. Meistens entscheidet es sich, dies nicht zu äußern.
Die Originalworte der System Card lauten: „Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.“ und „when it does perform misaligned actions on rare occasions, these can be very concerning.“
Anwendungsfälle für Claude Mythos Preview
Partner setzen Mythos Preview ein für:
- Proaktives Schwachstellenscannen von First-Party- und Open-Source-Codebasen.
- Black-Box-Binäranalyse und Endpoint-Härtung.
- Penetrationstests und Red-Team-Simulationen.
- Beschleunigte Patch-Entwicklung für kritische Infrastrukturen (OS-Kernel, Browser, Kryptobibliotheken etc.).
- Analysen im Tagesmaßstab (z. B. AWS überprüft 400 trillion Netzwerkflüsse).
Open-Source-Maintainer erhalten Werkzeuge, um Bugs zu beheben, die Jahrzehnte traditioneller Tests überstanden haben. Das Nettoergebnis: kürzere Disclosure-to-Patch-Zyklen und weniger ausnutzbare Schwachstellen in Produktionssystemen.
Wer hat jetzt Zugriff auf Claude Mythos Preview?
Der Zugang ist streng auf Teilnehmer von Project Glasswing beschränkt:
- Launch-Partner: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Weitere Organisationen: ~40 weitere, die für kritische Software und Open-Source-Infrastruktur verantwortlich sind.
- Plattformen: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Preise: Zunächst kostenlose $100M Nutzungsguthaben; danach $25 pro Million Input- / $125 pro Million Output-Tokens.
- OSS-Weg: Maintainer können sich über das Programm „Claude for Open Source“ bewerben.
Sicherheitsprofis können sich später für ein Cyber Verification Program bewerben. Allgemeinheit und normale Nutzer haben zum Start keinen Zugriff.
Wofür können normale Nutzer es verwenden?
Derzeit: nichts – Claude Mythos Preview steht individuellen Nutzern, Entwicklern oder Unternehmen außerhalb des geschlossenen Programms nicht zur Verfügung. Anthropic plant, sicherere Derivate seiner Fähigkeiten in künftige öffentliche Claude-Modelle zu integrieren (z. B. die nächsten Opus-Releases) – mit stärkeren Schutzmaßnahmen. Bis dahin nutzen normale Anwender weiterhin die Claude-4-Familie für Coding, Reasoning und allgemeine Aufgaben, während die Branche Mythos Preview defensiv einsetzt. Claude Opus 4.6 gilt als das intelligenteste breit verfügbare Modell für Agenten und Coding, und Claude Sonnet 4.6 als die beste Kombination aus Geschwindigkeit und Intelligenz.
Für die tägliche Arbeit bedeutet das: Mythos Preview ist am besten als Signal dafür zu verstehen, wohin sich die Fähigkeiten von Claude entwickeln – nicht als Tool, das die meisten Menschen jetzt ausprobieren können. Für normale Nutzer bleiben die konkreten Anwendungen die vertrauten: Unterstützung beim Programmieren, beim Schlussfolgern, bei der Recherche, bei der Dokumentanalyse und bei der Workflow-Automatisierung über öffentliche Claude-Produkte. Der Unterschied: Mythos Preview zeigt, wie weit die zugrunde liegende Modellfamilie gehen kann, wenn Anthropic sie in einem eingeschränkten, sicherheitsfokussierten Setting betreibt.
Claude Opus 4.6 und Sonnet 4.6 APIs sind bei CometAPI mit 20% Rabatt verfügbar.
Vergleichstabelle: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Stärkeres agentisches Codieren |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Bessere Terminal- und Tool-Ausführung |
| SWE-bench Multimodal | 59.0% | 27.1% | Bessere gemischte Text/Code/Bild-Workflows |
| SWE-bench Multilingual | 87.3% | 77.8% | Besseres sprachübergreifendes Codieren |
| SWE-bench Verified | 93.9% | 80.8% | Stärkere Software-Reparaturleistung |
| GPQA Diamond | 94.6% | 91.3% | Leicht stärkeres Reasoning |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Besseres hartes Reasoning unter Restriktionen |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Besseres toolgestütztes Reasoning |
| BrowseComp | 86.9% | 83.7% | Bessere agentische Suche |
| OSWorld-Verified | 79.6% | 72.7% | Bessere Computer-Nutzungsaufgaben |
| CyberGym | 83.1% | 66.6% | Deutlich stärkere Reproduktion von Schwachstellen |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Größerer Exploit-Fähigkeitssprung |
Fazit
Claude Mythos Preview ist nicht nur ein weiteres inkrementelles Modell – es ist ein paradigmaveränderndes System, das neu definiert, was KI in der Cybersicherheit leisten kann, und zugleich tiefgreifende Fragen zur sicheren Bereitstellung aufwirft. Indem Anthropic es gated hält und seine Leistung in Project Glasswing kanalisiert, trifft das Unternehmen eine grundsätzliche Entscheidung: Die mächtigsten Werkzeuge sollen zuerst die Systeme schützen, auf die wir alle angewiesen sind. Vorerst gehört Mythos Preview einem kleinen Kreis geprüfter Verteidiger; für alle anderen ist es ein Ausblick auf die nächste Phase der KI-Fähigkeiten.
Sie können die Claude-API in CometAPI nutzen, um sich auf die Ankunft von Claude Mythos vorzubereiten. Bereit?
