Wie man den Thinking Mode in Claude 4.5 verwendet

„Denkmodus“ (auch genannt erweitertes Denken, Denken oder Denkblöcke) in Claude 4.5 ist ein expliziter, konfigurierbarer Betriebsmodus, der das Modell anweist, eine separat budgetierte Anzahl Tokens für interne, schrittweise Überlegungen (eine „Gedankenkette“) aufzuwenden, bevor die endgültige Antwort ausgegeben wird. Er ist darauf ausgelegt, die Leistung bei mehrstufigem Denken, komplexem Coding und agentischen Workflows sowie Rechercheaufgaben zu verbessern, indem Latenz und Tokenkosten gegen tiefere interne Überlegung eingetauscht werden. Claude 4.5 stellt diese Fähigkeit auf Ebene der Messages API mit expliziten Parametern bereit (z. B. thinking / budget_tokens oder einen Effort/„interleaved-thinking“-Header), bewahrt Denkblöcke auf und verschlüsselt sie optional für spätere Verifizierung oder Tool-Nutzung, und führt Cache- sowie Token-Abrechnungsverhalten ein, die Sie beim Aufbau produktiver Workloads managen müssen.

Was ist Claude 4.5? (Und welche Modelle sind relevant?)

Claude 4.5 ist Anthropic’s neueste Reihe von Claude-Modellen, die als inkrementelle „4.5“-Updates veröffentlicht wurden (zum Beispiel Sonnet 4.5 und Opus 4.5). Sonnet 4.5 ist die beste Balance aus Intelligenz, Coding- und agentischer Leistung für die meisten Entwickler; Opus 4.5 fokussiert sich auf sehr aufwändige Schlussfolgerungen und bewahrt Denkblöcke, um die Kontinuität über mehrere Turns zu verbessern. Beide Modelle unterstützen Claudes erweiterte Denkfähigkeiten, wobei sich einige Verhaltensweisen (z. B. zusammengefasste vs. vollständige Denk-Inhalte) je nach Modell unterscheiden.

Die Leistungsgewinne in Claude 4.5, insbesondere in Sonnet 4.5, sind im SWE-bench Verified-Benchmark am deutlichsten sichtbar, der die Fähigkeit einer KI misst, reale GitHub-Issues zu lösen.

Modell	SWE-bench Verified Score	OSWorld (Computer-Nutzung)
Claude 3.5 Sonnet	49,0%	42,2%
Claude 4.1 Opus	67,6%	55,0%
Claude 4.5 Sonnet (Thinking On)	77,2%	61,4%
GPT-5 (Medium Reasoning)	65,0%	52,0%

Diese Zahlen zeigen, dass Claude 4.5 nicht nur besser darin ist, Snippets zu schreiben; es ist deutlich fähiger, ganze Dateisysteme zu navigieren und autonome Aufgaben ohne menschliches Eingreifen auszuführen.

Warum das wichtig ist

Coding & Agenten: Sonnet 4.5 zeigt starke Zuwächse bei realen Softwareaufgaben und langfristiger Coding-Arbeit — es ist daher eine natürliche Wahl für Codegenerierung, Codebearbeitung und autonome Agenten-Flows.
Erweitertes Denken & Kontext: Modelle der Claude-4.5-Familie sind darauf ausgelegt, mit sehr großen internen Notizblöcken (Zehntausende Tokens oder mehr) zu denken, was tiefere mehrstufige Schlussfolgerungen ermöglicht. Das verändert, wie Sie Prompts, Tokenbudgets und Tool-Interaktionen gestalten.

Was ist der Denkmodus in Claude 4.5?

Der Denkmodus (offiziell „Extended Thinking“ genannt) ist eine Fähigkeit, die dem Modell erlaubt, „seine Arbeit“ für sich selbst zu zeigen, bevor es eine endgültige Ausgabe liefert. Anders als Standardmodelle, die sofort eine Antwort festlegen, nutzt Claude 4.5 einen dedizierten Denkraum, um mehrere Hypothesen zu erkunden, mögliche Fehler in seiner Logik zu identifizieren und seine Strategie zu verfeinern.

Der Aufbau einer Antwort

Bei einer Standardinteraktion erhält das Modell einen Prompt und beginnt, die Antwort zu generieren. Im Denkmodus wird die Antwort in zwei unterschiedliche Blöcke aufgeteilt:

Block-Typ	Sichtbarkeit	Zweck
Denkblock	Versteckt (via API) oder eingeklappt (UI)	Internes Selbstgespräch, Planung und Selbstkritik des Modells.
Textblock	Sichtbar	Die finale, verfeinerte Antwort an den Nutzer.

Wichtige Eigenschaften des Denkmodus

Aktivierung auf Anfrage: Sie übergeben ein thinking-Objekt im API-Call, etwa {"type":"enabled","budget_tokens":10000}, um den Modus zu aktivieren und dem Modell ein internes Tokenbudget für die Überlegungen zu geben.
Budgetierung: budget_tokens begrenzt die internen Denk-Tokens des Modells. Mehr Budget => größeres Potenzial für tiefere Überlegungen, aber höhere Kosten und Latenz. In Claude-4-Modellen werden Denk-Tokens abgerechnet, auch wenn Sie nur eine zusammengefasste Ansicht erhalten.
Zusammenfassung & Schwärzung: Bei vielen Claude-4-Modellen sieht der Nutzer eine zusammengefasste Version des Denk-Inhalts; einige interne Überlegungen können durch Sicherheitssysteme geschwärzt (verschlüsselt) und als redacted_thinking zurückgegeben werden.
Signaturen & Verifizierung: Denkblöcke enthalten eine opake signature, die für die Verifizierung wichtig ist, wenn Denkblöcke an die API zurückgegeben werden (insbesondere bei der Tool-Nutzung). Behandeln Sie die Signatur als opak — versuchen Sie nicht, sie zu parsen.
Interleaved Thinking mit Tools: Claude 4 unterstützt das Verflechten von Denkblöcken mit Tool-Ausführungen (in manchen Fällen Beta und Flag-basiert). Das ist stark für agentisches Arbeiten (Tool ausführen, denken, weiteres Tool ausführen, etc.).

Für praktische Beispiele und die aktuellsten Parameter sind Anthropic’s Messages/Extended Thinking-Dokumente die maßgebliche Referenz.

Wie liefert die Messages API Denk-Inhalte zurück

Zusammengefasst vs. vollständig; Verschlüsselung & Signaturen

Verschiedene Claude-Modellversionen gehen unterschiedlich mit Denk-Inhalten um: neuere Claude-4-Modelle (wie Sonnet/Opus 4.5) geben häufig eine zusammengefasste öffentliche Ansicht der internen Überlegungen zurück, während der vollständige „Scratchpad“ verschlüsselt sein und nur über ein signature-Feld (oder geschwärzte Blöcke) verfügbar sein kann. Wenn Tools verwendet werden (oder Sie den internen Zustand über Tool-Aufrufe hinweg bewahren müssen), müssen Sie Denkblöcke an die API zurückgeben oder den in den Docs beschriebenen Signaturmechanismus verwenden. Dieser Mechanismus schützt sensible interne Überlegungen und erlaubt eine sichere Fortsetzung des Denkprozesses, wenn erforderlich.

Praktisches Umgangsmuster

Tool-Nutzung / Fortsetzung: Wenn Ihre nächste Anfrage denselben internen Zustand fortsetzen muss (z. B. wurden Tools basierend auf den Überlegungen ausgeführt), fügen Sie den zurückgegebenen Denkblock oder die Signatur bei Ihrem nächsten API-Call wieder hinzu, damit das Modell entschlüsseln und dort weitermachen kann, wo es aufgehört hat.

Request: senden Sie thinking: {type: "enabled", budget_tokens: N}.

Response: Sie erhalten möglicherweise (a) eine zusammengefasste öffentliche Ausgabe, (b) eine verschlüsselte signature oder redacted_thinking, oder (c) beides.

CometAPI bietet die Claude-4.5-API zu 20 % des offiziellen API-Preises an und kann zudem über die Anthropic Messages aufgerufen werden. Sie müssen einen API-Schlüssel erhalten, bevor Sie beginnen.

Beispiel 1 — einfaches curl (non-streaming) mit aktiviertem Denken

curl https://api.cometapi.com/v1/messages \
  -H "x-api-key: $CometAPI_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
      "type": "enabled",
      "budget_tokens": 10000
    },
    "messages": [
      {"role": "user", "content": "Design a robust data validation strategy for CSV imports, show tests + code."}
    ]
  }'

Die Antwort enthält content-Blöcke. Inspektieren Sie jeden Block und bevorzugen Sie die text-Blöcke für die finale Ausgabe; thinking-Blöcke enthalten die zusammengefasste interne Analyse des Modells.

Beispiel 2 — Python: Anfrage, Denken- und Textblöcke parsen

import os, requests

API_KEY = os.environ["CometAPI_API_KEY"]
URL = "https://api.cometapi.com/v1/messages"
HEADERS = {
    "x-api-key": API_KEY,
    "anthropic-version": "2023-06-01",
    "content-type": "application/json"
}

payload = {
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {"type": "enabled", "budget_tokens": 8000},
    "messages": [{"role": "user", "content": "Explain how to do property-based testing in Python; include example code."}]
}

r = requests.post(URL, headers=HEADERS, json=payload)
r.raise_for_status()
resp = r.json()

# Parse blocks
for block in resp.get("content", []):
    if block.get("type") == "thinking":
        thinking_summary = block.get("thinking")
        print("=== THINKING (summary) ===")
        print(thinking_summary[:1000])  # truncate for logs
        print("signature:", block.get("signature")[:64], "...")
    elif block.get("type") == "text":
        print("=== FINAL TEXT ===")
        print(block.get("text"))

Dieser Code extrahiert und druckt die zusammengefassten Denk-Inhalte und die finale Antwort. Wenn Sie die Kontinuität in mehrturnigen Agenten-Flows bewahren müssen, fügen Sie die unveränderten Denkblöcke in die nächste Anfrage im messages-Array ein (siehe nächstes Beispiel).

Beispiel 3 — Denkblöcke in einem mehrturnigen Flow wiederverwenden (Python-Pseudo)

# After initial response (resp above):
# Add the assistant message including the thinking block back into the conversation
assistant_message = {
  "role": "assistant",
  "content": resp["content"]  # include raw content array (contains thinking + text blocks)
}

# Next user turn: ask follow-up and include previous assistant message
payload2 = {
  "model": "claude-opus-4-5",  # Opus preserves thinking blocks better across turns
  "max_tokens": 20000,
  "thinking": {"type": "enabled", "budget_tokens": 12000},
  "messages": [
    {"role": "user", "content": "Now adapt the validation logic for an avro pipeline."},
    assistant_message
  ]
}
r2 = requests.post(URL, headers=HEADERS, json=payload2)

Das exakte, unveränderte Bewahren von Denkblöcken ist entscheidend bei Tool-integrierten oder langen Agenten-Workflows. Opus 4.5 hat verbesserte Defaults für das Bewahren und Caching von Denkblöcken.

Wie streame ich Denk-Ausgaben und zeige Fortschritt in einer UI?

Best Practices fürs Streaming

Nutzen Sie die SDK-Streaming-Endpunkte (die Python/TypeScript-SDKs haben Stream-Helper). Bei lang laufenden oder hoch budgetierten Denk-Jobs verhindert Streaming HTTP-Timeouts und liefert Ihnen Teiltexte, während das Modell rechnet. Üblicher Code nutzt einen Iterator über text_stream (Python) oder Event-Parsing (JS).
Rechnen Sie mit zweiphasigen Streams: Das Modell kann zunächst sichtbare Denk-Schnipsel erzeugen und anschließend die Antwort finalisieren. Bauen Sie Ihre UI so, dass sie chunked Content handhabt und „Denken …“ vs. „finale Antwort“-Zustände anzeigt.
Wenn die API beim Streaming ein signature_delta oder content_block_delta zurückgibt, erfassen Sie es und hängen es gemäß Spezifikation an nachfolgende Calls an.

Wenn Sie in einer UI Zwischenfortschritt der Überlegungen zeigen müssen, streamen Sie die Antwort. Der Server sendet thinking_delta-Events gefolgt von text_delta-Events.

curl https://api.cometapi.com/v1/messages \
  --header "x-api-key: $CometAPI_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": { "type": "enabled", "budget_tokens": 8000 },
    "messages": [ { "role": "user", "content": "Walk me through debugging this failing unit test and propose fixes." } ]
  }'

Beim Streaming verarbeiten Sie content_block_start, content_block_delta (enthält thinking_delta und text_delta) und content_block_stop-Events in der richtigen Reihenfolge. So können Sie die schrittweise Überlegung des Modells anzeigen, während sie passiert.

Wie interagiert Claude Code mit dem Denkmodus? (Terminal + VS Code)

Claude Code ist das interaktive, agentische Coding-Terminal, das die Messages API und Tool Runner integriert. Die CLI/IDE-Erfahrung zeigt Denken auf zwei Arten:

Globale / Session-bezogene Einstellungen: Claude Code bietet ein /config-Settings-Panel, um Verhalten anzupassen (wie der Agent um Erlaubnisse bittet, ob Denkblöcke bewahrt werden, etc.). Nutzen Sie dieses UI anstatt rohes JSON einzutippen, wenn Sie eine persistente Verhaltensänderung möchten.
Modellwahl & CLI-Befehle: Sie können claude-sonnet-4-5 oder claude-opus-4-5 als aktives Modell im REPL wählen; Tools- und Denkverhalten folgen dann der Messages-API-Semantik. Das CHANGELOG und die Release Notes zeigen, dass Denken für einige Opus-4.5-Deployments standardmäßig aktiviert ist und die Denk-Konfiguration über /config sichtbar ist.

Praktischer Ablauf in Claude Code:

Starten Sie ein Projekt im REPL.
Nutzen Sie /config, um denkenbezogene Flags (Bewahrung, Verbosität, etc.) zu prüfen.
Bitten Sie den Agenten, eine lange Aufgabe auszuführen — er erzeugt Denk-Inhalte und fragt bei Bedarf um Erlaubnis, bestimmte Bash-Schritte auszuführen. Bewahren Sie Denkblöcke, wenn Sie Entscheidungen später verifizieren oder erneut ausführen müssen.

Installation und Setup

Claude Code erfordert Node.js und kann global installiert werden.

# Install Claude Code CLI
npm install -g @anthropic/claude-code

# Authenticate
claude-code --init

Denken im Terminal aktivieren

Claude Code unterstützt verschiedene Flags und natürliche Sprach-Trigger, um die Tiefe seiner Überlegungen zu steuern.

Befehl/Trigger	Beschreibung
claude-code --think	Startet eine Session mit standardmäßig aktiviertem erweitertem Denken.
claude-code --model sonnet-4.5	Legt das neueste Spitzenmodell fest.
/think <task>	Ein Slash-Befehl in der CLI, um eine spezifische, denkintensive Aufgabe aufzurufen.
"ultrathink"	Ein natürliches Sprachkeyword, das Claude anweist, das maximal mögliche Denkbudget zu nutzen.

Tipps:

Verwenden Sie „think“/„think harder“, wenn der Agent alternative Implementierungen erkunden soll.
Wenn Claude Code Tool-Aufrufe ausführt (Tests laufen lassen, Git-Operationen), bewahren Sie etwaige thinking-Blöcke, falls die CLI/der Agent sie zurückgibt; andernfalls kann der Agent zwischen Schritten Kontext verlieren.

Vorteile von Interleaved Thinking und Block-Bewahrung

Für fortgeschrittene agentische Workflows führt Claude 4.5 zwei Beta-Funktionen ein, die mehrturnige Interaktionen und Tool-Nutzung deutlich verbessern: Interleaved Thinking und Bewahrung von Denkblöcken.

Interleaved Thinking (Beta)

Standardmäßig findet Denken einmal vor der Ausgabe statt. Interleaved Thinking (aktiviert über den interleaved-thinking-2025-05-14-Header) erlaubt Claude, zwischen Tool-Aufrufen zu „denken“.

Stellen Sie sich vor, Claude debuggt einen Server:

Denken: „Ich sollte zuerst die Logs prüfen.“
Tool-Aufruf: read_file(logs.txt)
Denken: „Die Logs zeigen einen Datenbank-Timeout. Jetzt muss ich die Einstellungen des Connection-Pools prüfen.“
Tool-Aufruf: read_file(db_config.yml)

Diese „kontinuierliche Reflexion“ stellt sicher, dass das Modell seine Strategie basierend auf den von Tools gelieferten Daten anpasst, statt einem starren, vordefinierten Plan zu folgen.

Bewahrung von Denkblöcken

In mehrturnigen Unterhaltungen, insbesondere bei Tool-Nutzung, ist es entscheidend, die vorherigen thinking-Blöcke an die API zurückzugeben.

Logische Kontinuität: Durch das Erhalten seiner vorherigen Gedanken bewahrt Claude den logischen Kontext seines Weges.
Opus-4.5-Optimierung: In Claude Opus 4.5 ist dieses Verhalten automatisiert. Das Modell bewahrt alle vorherigen Denkblöcke standardmäßig im Kontext und stellt sicher, dass es selbst in 30+ Stunden langen Sessions nicht „vergisst“, warum es vor zehn Turns bestimmte Architekturentscheidungen getroffen hat.

Best Practices für die Nutzung des THINKING-Modus mit Claude 4.5

Wählen Sie das richtige Modell und Budget für die Aufgabe:

Nutzen Sie Sonnet 4.5 für Coding- und agentische Workflows, bei denen Sie den besten Kompromiss aus Geschwindigkeit, Kosten und starker Coding-Fähigkeit benötigen; verwenden Sie Opus 4.5 für die tiefsten Schlussfolgerungen und die größten Kontextfenster oder wenn Sie lange autonome Sessions planen. Beide unterstützen erweitertes Denken. Wählen Sie budget_tokens proportional zur Komplexität der Aufgabe (klein anfangen für Experimente; Budget nur erhöhen, wenn Sie merkliche Qualitätsverbesserungen beobachten).

Kosten & Latenz überwachen und steuern

Sie werden für die gesamten Denk-Tokens belastet, die Claude erzeugt — nicht für die zusammengefasste Ausgabe, die Sie sehen. Das bedeutet, lange interne Überlegungen erhöhen die Kosten, selbst wenn Sie nur eine kurze Zusammenfassung erhalten. Verfolgen Sie die Token-Nutzung und erwägen Sie eine schrittweise Feinabstimmung (zum Beispiel: 2k → 8k → 32k), wenn Sie von Exploration zu Produktion wechseln.

Denkblöcke nur bei Bedarf bewahren

Denkblöcke können kryptografisch signiert und für spätere Verifizierung sowie für verflochtene Tool-Nutzung bewahrt werden. Vermeiden Sie es, Denkblöcke in jeder nachfolgenden Anfrage zu spiegeln, es sei denn, Ihr Workflow erfordert, dass das Modell seine vorherigen internen Überlegungen behält (zum Beispiel, wenn ein Agent Schritte erneut ausführt und die bewahrten Begründungen benötigt). Das ständige Bewahren erhöht das Kontextvolumen und kann die Token-Abrechnung verkomplizieren.

Wann Denken an Nutzer streamen

Gestreamtes Denken eignet sich hervorragend für Entwickler-Tools und edukative UIs (zeigt „Work in Progress“, während das Modell überlegt). Streamen Sie kein rohes Denken in produktionsnahen Consumer-Apps, ohne Sicherheit und Schwärzung zu berücksichtigen: zusammengefasstes Denken existiert aus genau diesem Grund. Wenn Sie streamen, bieten Sie UI-Elemente, die internes Denken kennzeichnen (z. B. „Assistentenüberlegung — intern“) und steuern, ob der finale Nutzer die zusammengefasste oder vollständige Überlegung sieht.

Tool-Nutzung und Verflechtung

Wenn Sie Denken mit Tools kombinieren (Code-Ausführung, Web-Fetch, lokale Prozesse), nutzen Sie das Design des interleaved thinking, wenn das Modell Tools auswählen, ausführen und die Ergebnisse innerhalb desselben Turns auswerten soll. Verflechtung erhöht die Komplexität (und kann Feature-Flags erfordern), ist aber mächtig für agentische Automatisierung. Seien Sie explizit, welche Denk-Inhalte Sie bewahren, und testen Sie, wie das Modell Tools unter einem run mit aktiviertem Denken auswählt.

Praktische Problembehebung und Betriebshinweise

Häufige Fehler und ihre Bedeutung

Ungültiges Denken + erzwungene Tool-Wahl: Wenn Sie Denken anfordern, aber gleichzeitig bestimmte Tool-Nutzungsmodi erzwingen, die mit Denken inkompatibel sind, gibt die API einen Fehler zurück — mischen Sie tool_choice: {"type":"tool","name":"..."} nicht mit Denken.
Budget > max_tokens: Für Szenarien von verflochtenem Denken unterscheiden sich die effektiven Tokenregeln — die Plattform-Dokumente erklären, wann budget_tokens max_tokens überschreiten kann. Lesen Sie den Abschnitt „interleaved thinking“ sorgfältig, bevor Sie große Budgets testen.
Signaturvalidierung: Wenn Sie Denkblöcke für spätere Calls bewahren, fügen Sie die zurückgegebene signature bei, damit die API verifizieren kann, dass sie von Claude stammen; das verhindert Manipulation und hält die Kette verifizierbar.

Observability & Instrumentierung

Loggen Sie: (1) model-Auswahl, (2) thinking.budget_tokens, (3) tatsächlich verbrauchte Denk-Tokens (dafür werden Sie abgerechnet), (4) Streaming-Latenzen (Zeit bis zum ersten thinking_delta) und (5) finale Text-Tokens. Nutzen Sie diese Metriken, um Budgets und SLOs für nutzerorientierte Flows aufzubauen.

Progressiver Rollout & Human-in-the-Loop

Rollen Sie denkenaktivierte Modelle hinter Feature-Flags aus. Starten Sie mit einem Prozentsatz an Entwickler- oder internem Traffic, sammeln Sie Fehler oder Schwärzungen und iterieren Sie Prompts und Budgets. Für sensible Domains verlangen Sie eine menschliche Prüfung bei Ausgaben mit substanziellem internem Denken vor der Freigabe.

Debugging-Tipps

Klein anfangen: Aktivieren Sie niedrige budget_tokens und skalieren Sie hoch, um inkrementelle Verbesserungen zu verstehen.
Schalten Sie Streaming ein und loggen Sie content_block_delta-/Signatur-Events, um zu verstehen, wann das Modell Denkblöcke erzeugt.
Bei Verwendung von Claude Code: prüfen Sie /config und die Projekteinstellungen; konsultieren Sie das Claude Code Changelog, wenn das Verhalten nicht den erwarteten Defaults entspricht.

Fazit:

Claude 4.5, kombiniert mit der Kraft von Extended Thinking und der Claude Code CLI, stellt den bedeutendsten Sprung der Entwicklerproduktivität seit der Erfindung der IDE dar. Indem das Modell „seine Arbeit zeigt“ und komplexe Probleme überlegt, ist Anthropic über die „Chatbot“-Ära hinaus und in die „agentische“ Ära vorgestoßen.

Ob Sie die Messages API in ein eigenes Dev-Tool integrieren oder Claude Code nutzen, um Ihre täglichen PRs zu managen — den Denkmodus zu meistern ist essenziell. Er bietet die Transparenz, die Vertrauen schafft, und die Denktiefe, die exzellente Ergebnisse ermöglicht.

Entwickler können auf das Modell Claude 4.5 (Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5) über CometAPI zugreifen. Um zu beginnen, erkunden Sie die Modellfähigkeiten von CometAPI im Playground und konsultieren Sie den API-Guide für detaillierte Anleitungen. Bevor Sie zugreifen, stellen Sie sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. Com e tAPI bietet einen Preis, der weit unter dem offiziellen Preis liegt, um Ihnen die Integration zu erleichtern.

Bereit loszulegen? → Kostenlose Testversion von Claude 4.5!