Anthropics Claude-4.5-Familie (insbesondere Sonnet 4.5 und Opus 4.5) bringt erweitertes „Thinking“ bzw. internes Scratchpad-artiges Schlussfolgern in die Claude-4-Reihe. Die Messages API stellt diese Fähigkeit über ein thinking-Objekt (Aktivieren/Deaktivieren + ein budget_tokens-Kontingent), Streaming-Optionen und eine spezielle Behandlung von thinking-Content-Blöcken bereit, einschließlich Signaturen und Schwärzung. Sonnet 4.5 ist auf Coding- und agentische Aufgaben ausgerichtet und profitiert stark von erweitertem Thinking; Opus 4.5 ergänzt dies um beibehaltene Thinking-Blöcke und weitere Optimierungen.
Was ist Claude 4.5?
Claude 4.5 (von Anthropic in der Claude-Modellfamilie als die Varianten Sonnet 4.5 und Opus 4.5 veröffentlicht) ist die neueste Generation großer Sprachmodelle des Unternehmens, optimiert für tieferes Schlussfolgern, langfristigen Kontext und produktionsreife Coding-/agentische Workflows. In den Ankündigungen und Produktseiten von Anthropic wird Sonnet 4.5 als ein großer Fortschritt für Coding, Agentenentwicklung und „using computers“ beschrieben (d. h. tool-gestützte Workflows und mehrstufige Automatisierung), mit messbaren Verbesserungen bei Schlussfolgern, Mathematik und Aufgaben mit langem Kontext.
Die 4.5-Familie im Überblick
- Claude Sonnet 4.5 (Veröffentlicht am 29. Sept. 2025): Das „Arbeitspferd“ der Familie. Es gilt derzeit als das weltweit beste Coding-Modell und kann sich über 30 Stunden hinweg auf autonome Aufgaben konzentrieren. Es balanciert Geschwindigkeit, Kosten und anspruchsvolles Schlussfolgern und ist damit die Standardwahl für die meisten Unternehmensanwendungen.
- Claude Haiku 4.5 (Veröffentlicht am 15. Okt. 2025): Das auf Geschwindigkeit optimierte Modell. Überraschenderweise unterstützt es jetzt Extended Thinking und ist damit das erste „kleine“ Modell, das tiefe Schlussfolgerungsfähigkeiten bietet, die zuvor Frontier-Modellen vorbehalten waren. Es ist ideal für hochfrequente Aufgaben, bei denen Latenz wichtig ist, aber Genauigkeit nicht geopfert werden darf.
- Claude Opus 4.5 (Veröffentlicht am 24. Nov. 2025): Das Modell für Frontier-Intelligenz. Opus 4.5 ist für die komplexesten und mehrdeutigsten Aufgaben ausgelegt – etwa wissenschaftliche Forschung, neuartiges Architekturdesign und Finanzanalysen mit hohem Einsatz. Es hat die höchste Kapazität für das „Thinking-Budget“ und überzeugt bei der Selbstkorrektur.
Wichtige Fähigkeiten auf einen Blick
- Größere nutzbare Kontextfenster und verbessertes Verhalten bei lang laufenden Aufgaben (Agent-Workflows, schrittweises Debugging, Codebase-Änderungen).
- Bessere Leistung bei Coding-Benchmarks, Refactoring und mehrstufigen, toolgestützten Aufgaben (Sonnet- und Opus-Familie).
- Fortgeschrittene „Thinking“-Funktionen (von Anthropic als extended thinking / thinking mode bezeichnet), die optional einen Teil des internen schrittweisen Schlussfolgerns für Entwickler sichtbar machen oder dem Modell erlauben, vor der endgültigen Antwort ein konfigurierbares „Budget“ an Tokens für das Schlussfolgern zu verwenden.
Wo Sie Claude 4.5 ausführen können
Claude 4.5 (Sonnet/Opus) ist über Anthropics eigene API verfügbar und wurde in CometAPI(die API-Preise sind derzeit im Angebot und liegen bei etwa 20 % des Anthropic-Preises) integriert, sodass Sie diese Modelle über Anthropics Plattform oder über Drittanbieter-Clouds ausführen können, die das Modell hosten.
Was ist der neue THINKING-Modus in Claude Code und Claude 4.5?
Anthropics extended thinking (auch „thinking mode“, „thinking blocks“ oder „thinking tokens“) ist eine Funktion, mit der das Modell zusätzliche interne Sampling-Schritte ausführen kann, um gründlicher zu schlussfolgern, bevor es eine endgültige Antwort erzeugt. Sie aktivieren sie, indem Sie Ihrer Messages-API-Anfrage eine thinking-Konfiguration hinzufügen (zum Beispiel: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) oder Anthropic-SDK-Helfer verwenden. Wenn sie aktiviert ist, liefert die API – je nach Modell – entweder eine zusammengefasste Version des internen Schlussfolgerns oder das vollständige Schlussfolgern zurück (vorbehaltlich Schwärzung aus Sicherheitsgründen).
Um zu verstehen, warum der „Thinking Mode“ revolutionär ist, müssen wir betrachten, wie große Sprachmodelle (LLMs) traditionell arbeiten. Standardmodelle sind „probabilistische Textgeneratoren“ – sie sagen direkt nach Erhalt eines Prompts das nächste Token voraus. Sie „halten nicht inne, um nachzudenken“; sie beginnen sofort zu sprechen (zu generieren).
Der Wechsel zu „Extended Thinking“
Thinking Mode verändert dieses Paradigma. Wenn er aktiviert ist, erzeugt Claude 4.5 einen versteckten Strom von „thinking tokens“, bevor es auch nur ein einziges sichtbares Zeichen für den Nutzer ausgibt.
Sichtbares Schlussfolgern (optional): In einigen Oberflächen wie Claude.ai sehen Sie ein „Thinking“-Dropdown, das den internen Monolog des Modells anzeigt.
Verstecktes Schlussfolgern (API): In der API sind dies eigenständige thinking-Blöcke. Das Modell nutzt diesen Raum, um:
- Den Prompt zu zerlegen: Komplexe Einschränkungen aufzuschlüsseln.
- Eine Strategie zu planen: Eine schrittweise Logik zu entwerfen.
- Zu entwerfen und zu kritisieren: Mental eine Lösung zu versuchen, einen Fehler zu finden und ihn vor der Ausgabe der Antwort zu korrigieren.
Interleaved Thinking
Eine wichtige Innovation in Sonnet 4.5 ist Interleaved Thinking. In agentischen Workflows (bei denen die KI Werkzeuge wie einen Rechner, einen Code-Interpreter oder einen Webbrowser verwendet) würden Standardmodelle einfach ein Tool aufrufen, ein Ergebnis erhalten und sofort das nächste Tool aufrufen.
Mit Interleaved Thinking kann Claude 4.5:
- Nachdenken über die Nutzeranfrage.
- Tool A aufrufen (z. B. das Web durchsuchen).
- Nachdenken über die Suchergebnisse („Dieses Ergebnis ist veraltet, ich sollte eine andere Suchanfrage versuchen“).
- Tool B aufrufen (z. B. erneut suchen).
- Nachdenken darüber, wie die Daten zu synthetisieren sind.
- Endgültige Antwort.
Diese „Think-Act-Think-Act“-Schleife reduziert Halluzinationen und Fehlerfortpflanzung bei langen, mehrstufigen Coding-Aufgaben drastisch.
Wie Claude Code Thinking in Entwickler-Tools sichtbar macht
In Claude Code (der CLI-/Editor-Erfahrung) hat Anthropic UI-Elemente hinzugefügt, um den Thinking-Modus für interaktive Sitzungen umzuschalten (ein häufiges UX-Muster ist das Drücken von Tab, um Thinking ein-/auszuschalten) und Indikatoren für das aktuelle Thinking-Budget anzuzeigen. Einige ältere Trigger-Schlüsselwörter (z. B. think, think hard) wurden historisch verwendet, um die Tiefe des Thinkings zu steuern; moderne Versionen verlassen sich auf explizite Schalter und Budget-Parameter, wobei ultrathink in einigen Kontexten weiterhin verfügbar bleibt. Die Konfiguration kann global in ~/.claude/settings.json erfolgen oder pro Anfrage überschrieben werden.
Wie implementieren Sie den Thinking Mode von Claude 4.5?
Für Entwickler erfordert der Umstieg auf Claude 4.5 eine Änderung darin, wie API-Anfragen strukturiert werden. Sie senden nicht mehr nur einen Prompt; Sie verwalten ein „Thinking-Budget“.
Festlegen des Thinking-Budgets
Der Parameter thinking ist nun ein erstklassiger Bestandteil der Anthropic-API. Sie müssen ihn explizit aktivieren und einen budget_tokens-Wert definieren. Dieser Wert stellt die maximale Menge an Rechenaufwand dar, die das Modell für sein internes Schlussfolgern aufwenden darf.
Beispielimplementierung in Python
Der folgende Code zeigt, wie eine Claude-4.5-Sitzung mit aktiviertem Extended Thinking initialisiert wird.
import anthropic
# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# We set a high max_tokens to accommodate both thinking and the final answer
# The budget_tokens must be less than max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # Allocating 12k tokens for 'thinking'
},
messages=[
{"role": "user", "content": user_query}
]
)
# Extracting the two distinct parts of the response
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)
Wichtige technische Überlegungen
- Gesamter Tokenverbrauch: Ihr Gesamtverbrauch ist
thinking_tokens+output_tokens. Wenn Sie ein Budget von 10.000 Tokens festlegen und das Modell 8.000 fürs Thinking und 2.000 für die Antwort verwendet, werden Ihnen 10.000 Output-Tokens berechnet. - Erzwungenes Thinking: Wenn die Aufgabe zu einfach ist, könnte das Modell dennoch eine Mindestanzahl an Thinking-Tokens verwenden, um die Einfachheit der Anfrage zu verifizieren.
Wie verbessert der Thinking Mode die Codegenerierung?
Eines der bedeutendsten Upgrades in Claude 4.5 ist seine Leistung in der Claude Code-CLI. Wenn Claude 4.5 über Code „nachdenkt“, führt es mehrere versteckte Aktionen aus, die Standardmodelle übersehen.
1. Abhängigkeits-Mapping
Bevor auch nur eine einzige Zeile eines Fixes geschrieben wird, durchläuft Claude 4.5 Ihr Repository, um zu verstehen, wie eine Änderung in utils/auth.ts eine Komponente in views/Profile.tsx beschädigen könnte.
2. Mentale Ausführung
Das Modell „führt“ den Code in seinem Schlussfolgerungsblock aus. Es simuliert den Logikfluss und identifiziert potenzielle Race Conditions oder Off-by-one-Fehler.
3. Verifikation von Einschränkungen
Wenn Sie nach einer Lösung fragen, die „performant ist und keine externen Bibliotheken verwendet“, fungiert der Thinking-Modus als Gatekeeper. Wenn der erste Impuls des Modells darin besteht, ein NPM-Paket vorzuschlagen, erkennt der Thinking-Prozess diesen Verstoß und zwingt das Modell, eine Vanilla-JavaScript-Implementierung neu zu durchdenken.
Wie verhält sich der Thinking Mode im Vergleich zu traditionellem Prompting?
Viele Nutzer kennen „Chain of Thought“(CoT)-Prompting, bei dem man dem Modell sagt: „Denk Schritt für Schritt.“ Das ist zwar effektiv, aber nicht dasselbe wie der native Thinking Mode von Claude 4.5.
| Feature | Chain of Thought (manuell) | Extended Thinking (nativ) |
|---|---|---|
| Mechanismus | Durch Nutzer veranlasste Instruktionen. | Eingebaute Modellarchitektur. |
| Token-Raum | Belegt sichtbaren Ausgaberaum. | Belegt einen dedizierten internen Block. |
| Selbstkorrektur | Begrenzt; das Modell „verdoppelt“ oft frühe Fehler. | Hoch; das Modell kann einen ganzen Schlussfolgerungspfad verwerfen und neu beginnen. |
| Zuverlässigkeit | Variabel, abhängig von der Prompt-Qualität. | Durchgängig hoch in komplexen Domänen. |
| API-Handhabung | Erfordert manuelles Parsen von Text. | Strukturierte JSON-Blöcke für thinking und text. |
Wie funktioniert der Thinking Mode in Claude 4.5?
Interner Workflow (konzeptionell)
- Nutzeranfrage: Ihre Anwendung sendet eine Messages-API-Anfrage mit Angabe von Modell, Prompt,
max_tokensund optionalthinking: { type: "enabled", budget_tokens: N }. - Internes Schlussfolgern: Claude führt internes „Thinking“ bis zum Budget aus. Es zeichnet Schlussfolgerungsausgaben als
thinking-Blöcke auf (die für den Nutzer zusammengefasst sein können). - Zusammenstellung der Ausgabe: Die API gibt ein Array von Content-Blöcken zurück. Typischerweise ist die Reihenfolge
thinking-Block/Blöcke und danntext-Block/Blöcke (endgültige Antwort). Bei Streaming erhalten Siethinking_delta-Events, gefolgt vontext_delta-Events. - Kontext beibehalten: Bei der Verwendung von Tools oder Multi-Turn-Flows können Sie vorherige Thinking-Blöcke (unverändert) erneut mitsenden, damit Claude die Chain-of-Thought fortsetzen kann. Opus 4.5 führte ein Verhalten ein, um Thinking-Blöcke standardmäßig für Cache/Effizienz beizubehalten.
Technisch basiert der Thinking Mode auf einer bestimmten API-Parameterkonfiguration, die ein „Budget“ an Tokens für das Schlussfolgern zuweist.
Das Token-Budget-Konzept
Wenn Sie eine Anfrage an Claude 4.5 stellen, müssen Sie einen Parameter budget_tokens angeben. Dies ist die maximale Anzahl an Tokens, die das Modell für seinen internen Monolog verwenden darf.
- Niedriges Budget (<2.000 Tokens): Gut für schnelle Plausibilitätsprüfungen oder einfache Logikrätsel.
- Hohes Budget (10.000+ Tokens): Erforderlich für komplexe Softwarearchitektur, mathematische Beweise oder das Verfassen umfassender rechtlicher Gutachten.
Das Modell ist darauf trainiert, dieses Budget zu „verwalten“. Wenn es bemerkt, dass ihm das Budget ausgeht, wird es versuchen, sein Schlussfolgern abzuschließen und die bestmögliche Antwort zu liefern.
Der Lebenszyklus des „Thinking Process“
Wenn ein Nutzer fragt: „Schreibe ein Python-Skript, um diese Website zu scrapen, aber stelle sicher, dass es robots.txt respektiert und dynamisches Laden behandelt.“
- Aufnahme: Claude liest den Prompt.
- Thinking-Phase (verborgen):
- Selbstkorrektur: „Ich muss Selenium oder Playwright für dynamisches Laden verwenden.
requestswird nicht funktionieren.“ - Sicherheitsprüfung: „Ich muss verifizieren, dass der Nutzer die Berechtigung zum Scrapen hat. Ich werde einen Hinweis hinzufügen.“
- Architektur: „Ich werde den Code mit einem klassenbasierten Ansatz strukturieren, um Modularität zu gewährleisten.“
- Selbstkorrektur: „Ich muss Selenium oder Playwright für dynamisches Laden verwenden.
- Ausgabephase (sichtbar): Claude erzeugt den Python-Code.
Bei früheren Modellen hätte die KI möglicherweise sofort begonnen, den requests-Code zu schreiben, auf halbem Weg bemerkt, dass er für dynamische Inhalte nicht funktioniert, und dann entweder eine Lösung halluziniert oder fehlerhaften Code geliefert. Der Thinking Mode verhindert dieses „in eine Sackgasse manövriert“-Szenario.
Wann sollten Sie den Thinking Mode aktivieren — Anwendungsfälle und Heuristiken?
Anwendungsfälle, die am meisten profitieren
- Komplexes Coding (Architekturänderungen, Multi-File-Refactorings, lange Debugging-Sitzungen). Sonnet 4.5 ist ausdrücklich als führend für Coding und agentische Aufgaben positioniert, wenn Thinking verwendet wird.
- Agentische Workflows, die Werkzeuge wiederholt nutzen und internen Kontext über viele Schritte hinweg beibehalten müssen. Interleaved Thinking + Tool-Nutzung ist ein zentrales Szenario.
- Tiefgehende Recherche oder Analyse (statistische Analyse, Finanzstrukturierung, juristisches Schlussfolgern), bei denen es wertvoll ist, Zwischenschritte des Schlussfolgerns zu prüfen oder zu verifizieren.
Wann Sie es nicht aktivieren sollten
- Kurze Antwortgenerierung oder APIs mit hohem Durchsatz und niedriger Latenz, bei denen minimale Latenz entscheidend ist (z. B. Chat-UIs, die Antworten im Millisekundenbereich erfordern).
- Aufgaben, bei denen die Token-Kosten pro Anfrage minimiert werden müssen und die Aufgabe einfach oder gut spezifiziert ist.
Praktische Heuristik
Beginnen Sie mit dem minimalen Thinking-Budget (≈1.024 Tokens) und erhöhen Sie es schrittweise bei Aufgaben, die mehr Tiefe erfordern; benchmarken Sie die End-to-End-Aufgabengenauigkeit im Verhältnis zu Latenz und Tokens. Bei mehrstufigen Agent-Aufgaben experimentieren Sie mit Interleaved Thinking und gecachten Prompt-Breakpoints, um einen Sweet Spot zu finden.
Fazit
Der Thinking Mode von Claude 4.5 ist mehr als nur eine Funktion; er ist eine neue Art der Interaktion mit künstlicher Intelligenz. Durch die Trennung des Denkprozesses vom Ergebnis des Denkens hat Anthropic ein Werkzeug bereitgestellt, das zuverlässiger, transparenter und besser in der Lage ist, die Komplexität moderner Unternehmensarbeit zu bewältigen.
Ganz gleich, ob Sie die Claude Code-CLI verwenden, um eine umfangreiche Migration zu steuern, oder die API nutzen, um die nächste Generation autonomer Agenten zu entwickeln – die Beherrschung des „Thinking-Budgets“ ist der Schlüssel zum Erfolg.
Entwickler können auf das Claude-4.5-Modell über CometAPI zugreifen. Um zu beginnen, erkunden Sie die Modellfähigkeiten von CometAPI im Playground und konsultieren Sie den API-Leitfaden für detaillierte Anweisungen. Stellen Sie vor dem Zugriff bitte sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bietet einen Preis, der deutlich unter dem offiziellen Preis liegt, um Ihnen die Integration zu erleichtern.
Bereit loszulegen?→ Kostenlose Testversion von Claude 4.5!
