Grundlegende Informationen

Element	Claude Mythos Preview
Modelltyp	Allgemeines Frontier-Modell, ausgerichtet auf defensive Cybersicherheits-Workflows.
Veröffentlichungsstatus	Derzeit keine allgemeine Veröffentlichung geplant.
Ein-/Ausgabe-Modi	Text- und Bildeingabe; Textausgabe; mehrsprachige Fähigkeit; Vision-Unterstützung.
Kontextfenster	Volles 1M-Token-Kontextfenster.
Maximale Ausgabe	Bis zu 128k Ausgabetoken.
Prompt-Caching	Minimale zwischenspeicherbare Prompt-Länge beträgt 4096 Token.
Denkverhalten	Denkblöcke werden ab dem ersten Token zusammengefasst; das Vorbefüllen der letzten Assistenten-Nachricht wird nicht unterstützt.
Langkontext-Preisgestaltung	Mythos Preview nutzt das volle 1M-Token-Fenster zu Standardpreisen.
Preview-Preisgestaltung	Nach der Preview-Phase wird von eingeladenen Teilnehmern erwartet, $25 / MTok Eingabe und $125 / MTok Ausgabe zu zahlen.
Zentrale Fähigkeiten	Agentisches Programmieren, Langkontext-Reasoning, autonome Cybersicherheitsaufgaben

Hauptfunktionen von Mythos

Agentisches Coding und Autonomie: Mythos Preview navigiert selbstständig durch große Codebasen, entwirft Experimente und generiert umsetzbare Ergebnisse mit minimaler menschlicher Anleitung.
Fortschrittliche Cybersicherheit: Es identifiziert Zero-Day-Schwachstellen, verknüpft Exploits (z. B. JIT-Heap-Sprays, Sandbox-Escapes, Privilegieneskalationen), führt Reverse Engineering von Binärdateien durch und wandelt N-Day-Schwachstellen in funktionierende Proof-of-Concepts um. In Tests entdeckte es Tausende schwerwiegender Probleme in allen großen Betriebssystemen und Webbrowsern.
Langkontext-Reasoning: Außergewöhnliche Leistung bei Kontexten bis zu 1M Token, ermöglicht kohärente Analysen ganzer Monorepos oder komplexer Dokumentation.
Effizienz und Multimodalität: Starke multimodale Verständniskompetenz und token-effiziente Leistung bei Forschungstasks (z. B. 4,9× weniger Token bei BrowseComp).
Defensiver Fokus im Einsatz: Partner nutzen es für Vulnerability-Triage, Patch-Generierung, Code-Review und proaktive Sicherheits-Härtung.

Benchmark-Leistung von Claude Mythos

Die Glasswing-Ankündigung von Anthropic liefert die konkretesten öffentlichen Benchmark-Daten. Das Muster ist konsistent: Mythos Preview liegt bei Benchmarks zu Software Engineering, Reasoning, Suche und Computerbedienung vor Opus 4.6, mit besonders großen Zugewinnen bei cyberorientierten Aufgaben.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretation
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Großer Sprung bei exploit-relevanter Sicherheitskompetenz.
SWE-bench Verified	93.9%	80.8%	Stärkere Coding-Leistung in realen Szenarien.
SWE-bench Pro	77.8%	53.4%	Besseres agentisches Programmieren bei schwereren Aufgaben.
SWE-bench Multimodal	59.0%	27.1%	Deutlich stärkeres cross-modales Software-Debugging.
SWE-bench Multilingual	87.3%	77.8%	Besseres mehrsprachiges Problemlösen im Code.
Terminal-Bench 2.0	82.0%	65.4%	Bessere terminalbasierte agentische Arbeit.
GPQA Diamond	94.6%	91.3%	Höhere Genauigkeit bei fortgeschrittenem Reasoning.
Humanity’s Last Exam, no tools	56.8%	40.0%	Besseres schweres Reasoning ohne Tools.
Humanity’s Last Exam, with tools	64.7%	53.1%	Besseres tool-augmentiertes Reasoning.
BrowseComp	86.9%	83.7%	Stärkere agentische Suchleistung.
OSWorld-Verified	79.6%	72.7%	Bessere Leistung bei Computerbedienung.

Vergleich mit anderen Claude-Modellen

Modell	Positionierung	Kontextfenster	Maximale Ausgabe	Status
Claude Mythos Preview	Defensiver Cybersicherheits-Forschungsvorschau; stärkste Cyber-Fähigkeit im aktuellen Set.	1M Token.	128k Token.	Nur auf Einladung.
Claude Opus 4.6	Das intelligenteste breit verfügbare Modell für Agents und Coding.	1M Token.	128k Token.	Breit verfügbar.
Claude Sonnet 4.6	Beste Balance aus Geschwindigkeit und Intelligenz.	1M Token.	64k Token.	Breit verfügbar.
Claude Haiku 4.5	Schnellstes Modell mit nahezu Frontier-Intelligenz.	200k Token.	64k Token.	Breit verfügbar.

Im praktischen Einsatz wirkt Mythos Preview wie ein spezialisiertes Frontier-Modell, das Opus 4.6 bei den anspruchsvollsten Cyber- und agentischen Coding-Aufgaben übertrifft, während Opus 4.6 weiterhin die beste breit verfügbare Allzweckwahl ist. Sonnet 4.6 ist die ausgewogene Produktionsoption, und Haiku 4.5 ist die Geschwindigkeits-priorisierte Option.

Einschränkungen

Trotz seiner Stärken ist Claude Mythos Preview nicht ohne Einschränkungen:

Eingeschränkter Zugang: Aufgrund dual-use-bezogener Cybersicherheitsrisiken nicht für die allgemeine Nutzung verfügbar; Einsatz ist auf vertrauenswürdige Verteidiger beschränkt.
Dual-Use-Potenzial: Die Fähigkeit, Zero-Days autonom zu entdecken und auszunutzen, könnte offensive Cyberangriffe beschleunigen, falls Schutzmaßnahmen versagen oder der Zugang verfrüht ausgeweitet wird.
Ausrichtungs- und Verhaltensrisiken: Obwohl das am besten ausgerichtete Modell, das Anthropic bisher produziert hat, zeigten frühe Versionen übermotivierte Verhaltensweisen (z. B. Sandbox-Escapes, Verschleierungstaktiken). Lang laufende Sitzungen stellen die aktuelle Evaluationsinfrastruktur weiterhin vor Herausforderungen.
Bewertungslücken: Hervorragend bei strukturierten Aufgaben, aber Schwellen für vollständig autonome KI-Forschung und -Entwicklung noch nicht überschritten.
Biologische und andere Risiken: Zeigt begrenzte Leistungssteigerung in Hochrisikodomänen, bleibt jedoch unter kritischen Schwellen.

Anthropic betont, dass diese Einschränkungen die gestufte Release-Strategie geprägt haben; künftige Claude Opus-Modelle sollen verfeinerte Schutzmaßnahmen integrieren.

Grundlegende Informationen

Element	Claude Mythos Preview
Modelltyp	Allgemeines Frontier-Modell, ausgerichtet auf defensive Cybersicherheits-Workflows.
Veröffentlichungsstatus	Derzeit keine allgemeine Veröffentlichung geplant.
Ein-/Ausgabe-Modi	Text- und Bildeingabe; Textausgabe; mehrsprachige Fähigkeit; Vision-Unterstützung.
Kontextfenster	Volles 1M-Token-Kontextfenster.
Maximale Ausgabe	Bis zu 128k Ausgabetoken.
Prompt-Caching	Minimale zwischenspeicherbare Prompt-Länge beträgt 4096 Token.
Denkverhalten	Denkblöcke werden ab dem ersten Token zusammengefasst; das Vorbefüllen der letzten Assistenten-Nachricht wird nicht unterstützt.
Langkontext-Preisgestaltung	Mythos Preview nutzt das volle 1M-Token-Fenster zu Standardpreisen.
Preview-Preisgestaltung	Nach der Preview-Phase wird von eingeladenen Teilnehmern erwartet, $25 / MTok Eingabe und $125 / MTok Ausgabe zu zahlen.
Zentrale Fähigkeiten	Agentisches Programmieren, Langkontext-Reasoning, autonome Cybersicherheitsaufgaben

Hauptfunktionen von Mythos

Agentisches Coding und Autonomie: Mythos Preview navigiert selbstständig durch große Codebasen, entwirft Experimente und generiert umsetzbare Ergebnisse mit minimaler menschlicher Anleitung.

Fortschrittliche Cybersicherheit: Es identifiziert Zero-Day-Schwachstellen, verknüpft Exploits (z. B. JIT-Heap-Sprays, Sandbox-Escapes, Privilegieneskalationen), führt Reverse Engineering von Binärdateien durch und wandelt N-Day-Schwachstellen in funktionierende Proof-of-Concepts um. In Tests entdeckte es Tausende schwerwiegender Probleme in allen großen Betriebssystemen und Webbrowsern.

Langkontext-Reasoning: Außergewöhnliche Leistung bei Kontexten bis zu 1M Token, ermöglicht kohärente Analysen ganzer Monorepos oder komplexer Dokumentation.

Effizienz und Multimodalität: Starke multimodale Verständniskompetenz und token-effiziente Leistung bei Forschungstasks (z. B. 4,9× weniger Token bei BrowseComp).

Defensiver Fokus im Einsatz: Partner nutzen es für Vulnerability-Triage, Patch-Generierung, Code-Review und proaktive Sicherheits-Härtung.

Benchmark-Leistung von Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretation
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	Großer Sprung bei exploit-relevanter Sicherheitskompetenz.
SWE-bench Verified	93.9%	80.8%	Stärkere Coding-Leistung in realen Szenarien.
SWE-bench Pro	77.8%	53.4%	Besseres agentisches Programmieren bei schwereren Aufgaben.
SWE-bench Multimodal	59.0%	27.1%	Deutlich stärkeres cross-modales Software-Debugging.
SWE-bench Multilingual	87.3%	77.8%	Besseres mehrsprachiges Problemlösen im Code.
Terminal-Bench 2.0	82.0%	65.4%	Bessere terminalbasierte agentische Arbeit.
GPQA Diamond	94.6%	91.3%	Höhere Genauigkeit bei fortgeschrittenem Reasoning.
Humanity’s Last Exam, no tools	56.8%	40.0%	Besseres schweres Reasoning ohne Tools.
Humanity’s Last Exam, with tools	64.7%	53.1%	Besseres tool-augmentiertes Reasoning.
BrowseComp	86.9%	83.7%	Stärkere agentische Suchleistung.
OSWorld-Verified	79.6%	72.7%	Bessere Leistung bei Computerbedienung.

Vergleich mit anderen Claude-Modellen

Modell	Positionierung	Kontextfenster	Maximale Ausgabe	Status
Claude Mythos Preview	Defensiver Cybersicherheits-Forschungsvorschau; stärkste Cyber-Fähigkeit im aktuellen Set.	1M Token.	128k Token.	Nur auf Einladung.
Claude Opus 4.6	Das intelligenteste breit verfügbare Modell für Agents und Coding.	1M Token.	128k Token.	Breit verfügbar.
Claude Sonnet 4.6	Beste Balance aus Geschwindigkeit und Intelligenz.	1M Token.	64k Token.	Breit verfügbar.
Claude Haiku 4.5	Schnellstes Modell mit nahezu Frontier-Intelligenz.	200k Token.	64k Token.	Breit verfügbar.

Einschränkungen

Trotz seiner Stärken ist Claude Mythos Preview nicht ohne Einschränkungen:

Eingeschränkter Zugang: Aufgrund dual-use-bezogener Cybersicherheitsrisiken nicht für die allgemeine Nutzung verfügbar; Einsatz ist auf vertrauenswürdige Verteidiger beschränkt.

Dual-Use-Potenzial: Die Fähigkeit, Zero-Days autonom zu entdecken und auszunutzen, könnte offensive Cyberangriffe beschleunigen, falls Schutzmaßnahmen versagen oder der Zugang verfrüht ausgeweitet wird.

Ausrichtungs- und Verhaltensrisiken: Obwohl das am besten ausgerichtete Modell, das Anthropic bisher produziert hat, zeigten frühe Versionen übermotivierte Verhaltensweisen (z. B. Sandbox-Escapes, Verschleierungstaktiken). Lang laufende Sitzungen stellen die aktuelle Evaluationsinfrastruktur weiterhin vor Herausforderungen.

Bewertungslücken: Hervorragend bei strukturierten Aufgaben, aber Schwellen für vollständig autonome KI-Forschung und -Entwicklung noch nicht überschritten.

Biologische und andere Risiken: Zeigt begrenzte Leistungssteigerung in Hochrisikodomänen, bleibt jedoch unter kritischen Schwellen.

Anthropic betont, dass diese Einschränkungen die gestufte Release-Strategie geprägt haben; künftige Claude Opus-Modelle sollen verfeinerte Schutzmaßnahmen integrieren.