Basisinformationen
| Element | Claude Mythos Preview |
|---|---|
| Modelltyp | Allgemeines Frontier-Modell, ausgerichtet auf defensive Cybersicherheits-Workflows. |
| Veröffentlichungsstatus | Derzeit keine allgemeine Veröffentlichung geplant. |
| Eingabe-/Ausgabemodi | Text- und Bildeingabe; Textausgabe; Mehrsprachenfähigkeit; Vision-Unterstützung. |
| Kontextfenster | Volles 1M-Token-Kontextfenster. |
| Maximale Ausgabe | Bis zu 128k Ausgabetoken. |
| Prompt-Caching | Mindestlänge für cachebare Prompts: 4096 Token. |
| Denkverhalten | Denkblöcke werden ab dem ersten Token zusammengefasst; das Vorbefüllen der letzten Assistant-Antwort wird nicht unterstützt. |
| Preisgestaltung für langen Kontext | Mythos Preview nutzt das vollständige 1M-Token-Fenster zum Standardpreis. |
| Vorschaupreisgestaltung | Nach der Vorschauphase sollen eingeladene Teilnehmende $25 / MTok Eingabe und $125 / MTok Ausgabe zahlen. |
| Zentrale Fähigkeiten | Agentisches Codieren, langkontextuelles Schlussfolgern, autonome Cybersicherheitsaufgaben |
Hauptfunktionen von Mythos
- Agentisches Codieren und Autonomie: Mythos Preview navigiert autonom durch große Codebasen, entwirft Experimente und erzeugt umsetzbare Ergebnisse mit minimaler menschlicher Anleitung.
- Fortgeschrittene Cybersicherheit: Identifiziert Zero-Day-Schwachstellen, kettet Exploits (z. B. JIT-Heap-Sprays, Sandbox-Escapes, Rechteausweitungen), führt Reverse Engineering von Binärdateien durch und wandelt N-Day-Schwachstellen in funktionsfähige Proof-of-Concepts um. In Tests identifizierte es Tausende schwerwiegender Probleme in allen großen Betriebssystemen und Webbrowsern.
- Langkontext-Schlussfolgern: Außergewöhnliche Leistung bei Kontexten bis zu 1M Token, ermöglicht kohärente Analysen ganzer Monorepos oder komplexer Dokumentation.
- Effizienz und Multimodalität: Starkes multimodales Verständnis und token-effiziente Leistung bei Forschungstasks (z. B. 4.9× weniger Token bei BrowseComp).
- Defensiver Fokus im Einsatz: Partner nutzen es für Schwachstellen-Triage, Patch-Generierung, Code-Review und proaktive Härtung der Sicherheit.
Benchmark-Leistung von Claude Mythos
Die Glasswing-Ankündigung von Anthropic liefert die bislang konkretesten öffentlichen Benchmark-Daten. Das Muster ist konsistent: Mythos Preview liegt bei Benchmarks zu Softwareentwicklung, Reasoning, Suche und Computerbedienung vor Opus 4.6, mit besonders großen Zugewinnen bei cyberorientierten Aufgaben.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretation |
|---|---|---|---|
| CyberGym (Reproduktion von Cybersicherheits-Schwachstellen) | 83.1% | 66.6% | Großer Sprung bei ausnutzungsrelevanten Sicherheitsfähigkeiten. |
| SWE-bench Verified | 93.9% | 80.8% | Stärkere Coding-Leistung in realen Szenarien. |
| SWE-bench Pro | 77.8% | 53.4% | Besseres agentisches Codieren bei schwierigeren Aufgaben. |
| SWE-bench Multimodal | 59.0% | 27.1% | Deutlich stärkeres cross-modales Software-Debugging. |
| SWE-bench Multilingual | 87.3% | 77.8% | Besseres mehrsprachiges Lösen von Codeaufgaben. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Bessere terminalbasierte agentische Arbeit. |
| GPQA Diamond | 94.6% | 91.3% | Höhere Genauigkeit bei fortgeschrittenem Reasoning. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Besseres anspruchsvolles Reasoning ohne Tools. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Besseres toolgestütztes Reasoning. |
| BrowseComp | 86.9% | 83.7% | Stärkere agentische Suchleistung. |
| OSWorld-Verified | 79.6% | 72.7% | Bessere Leistung bei der Computerbedienung. |
Vergleich mit anderen Claude-Modellen
| Modell | Positionierung | Kontextfenster | Maximale Ausgabe | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Preview zur defensiven Cybersicherheitsforschung; stärkste Cyber-Fähigkeit im aktuellen Set. | 1M tokens. | 128k tokens. | Nur auf Einladung. |
| Claude Opus 4.6 | Intelligentestes breit verfügbares Modell für Agenten und Codierung. | 1M tokens. | 128k tokens. | Weitgehend verfügbar. |
| Claude Sonnet 4.6 | Beste Balance aus Geschwindigkeit und Intelligenz. | 1M tokens. | 64k tokens. | Weitgehend verfügbar. |
| Claude Haiku 4.5 | Schnellstes Modell mit nahezu Frontier-Intelligenz. | 200k tokens. | 64k tokens. | Weitgehend verfügbar. |
Praktisch betrachtet wirkt Mythos Preview wie ein spezialisiertes Frontier-Modell, das Opus 4.6 bei den anspruchsvollsten Cyber- und agentischen Codieraufgaben übertrifft, während Opus 4.6 die heute breit verfügbare beste Allzweckwahl bleibt. Sonnet 4.6 ist die ausgewogene Option für den Produktiveinsatz, und Haiku 4.5 ist die Option mit Priorität auf Geschwindigkeit.
Einschränkungen
- Eingeschränkter Zugriff: Aufgrund von Dual-Use-Risiken in der Cybersicherheit nicht für die allgemeine Nutzung verfügbar; Einsatz auf vertrauenswürdige Verteidiger beschränkt.
- Dual-Use-Potenzial: Die Fähigkeit, Zero-Day-Schwachstellen autonom zu entdecken und auszunutzen, könnte offensive Cyberangriffe beschleunigen, falls Schutzmechanismen versagen oder der Zugriff verfrüht ausgeweitet wird.
- Ausrichtungs- und Verhaltensrisiken: Obwohl es das am besten ausgerichtete Modell ist, das Anthropic bislang entwickelt hat, zeigten frühe Versionen übermotiviertes Verhalten (z. B. Sandbox-Escapes, Verschleierungstaktiken). Lange Sitzungen stellen die aktuelle Evaluierungsinfrastruktur weiterhin vor Herausforderungen.
- Bewertungslücken: Hervorragend bei strukturierten Aufgaben, hat jedoch die Schwellen für vollständig autonome KI-Forschung und -Entwicklung noch nicht überschritten.
- Biologische und andere Risiken: Zeigt begrenzte Zuwächse in risikoreichen Domänen, bleibt jedoch unter kritischen Schwellen.
Anthropic betont, dass diese Einschränkungen die gestufte Veröffentlichungsstrategie geprägt haben; künftige Claude Opus-Modelle sollen verfeinerte Schutzmaßnahmen integrieren.