Denkmodus in Claude 4.5: Alles, was Sie wissen müssen

Anthropics Claude‑4.5‑Familie (insbesondere Sonnet 4.5 und Opus 4.5) bringt erweitertes „Thinking“/Notizblock‑artiges internes Schlussfolgern in die Claude‑4‑Reihe. Die Messages‑API stellt diese Fähigkeit über ein thinking‑Objekt (Aktivieren/Deaktivieren + eine Zuteilung von budget_tokens), Streaming‑Optionen und eine spezielle Behandlung für „Thinking“-Inhaltsblöcke (einschließlich Signaturen und Schwärzung) bereit. Sonnet 4.5 richtet sich auf Coding‑ und agentische Aufgaben und profitiert stark von erweitertem Denken; Opus 4.5 ergänzt beibehaltene Thinking‑Blöcke und weitere Optimierungen.

Was ist Claude 4.5?

Claude 4.5 (veröffentlicht innerhalb der Anthropic‑Modellfamilie als die Sonnet 4.5‑ und Opus 4.5‑Varianten) ist die neueste Generation großsprachiger Modelle des Unternehmens, abgestimmt auf tiefere Schlussfolgerung, langreichweitigen Kontext und Coding-/agentische Workflows in Produktionsqualität. In der Ankündigung und auf den Produktseiten von Anthropic wird Sonnet 4.5 als ein großer Fortschritt für Coding, Agentenaufbau und „Computer benutzen“ (d. h. werkzeuggestützte Workflows und mehrstufige Automatisierung) beschrieben, mit messbaren Zugewinnen bei Reasoning, Mathematik und Langkontext‑Aufgaben.

Die 4.5‑Familie im Überblick

Claude Sonnet 4.5 (Veröffentlicht am 29. Sept. 2025): Das „Arbeitspferd“ der Familie. Es gilt derzeit als das weltweit beste Coding‑Modell und kann über 30 Stunden den Fokus auf autonome Aufgaben halten. Es balanciert Geschwindigkeit, Kosten und hochgradiges Reasoning und ist damit die Standardwahl für die meisten Enterprise‑Anwendungen.
Claude Haiku 4.5 (Veröffentlicht am 15. Okt. 2025): Das geschwindigkeitsoptimierte Modell. Überraschenderweise unterstützt es nun Extended Thinking und ist damit das erste „kleine“ Modell, das tiefe Reasoning‑Fähigkeiten bietet, die zuvor Frontier‑Modellen vorbehalten waren. Ideal für hochfrequente Aufgaben, bei denen Latenz zählt, aber Genauigkeit nicht geopfert werden darf.
Claude Opus 4.5 (Veröffentlicht am 24. Nov. 2025): Das Frontier‑Intelligence‑Modell. Opus 4.5 ist für die komplexesten, mehrdeutigen Aufgaben konzipiert—wie wissenschaftliche Forschung, neuartige Architekturentwürfe und Finanzanalysen mit hohen Einsätzen. Es hat die höchste „Thinking Budget“-Kapazität und glänzt bei Selbstkorrektur.

Zentrale Fähigkeiten auf einen Blick

Größere nutzbare Kontextfenster und verbessertes Verhalten in langlaufenden Aufgaben (Agent‑Workflows, schrittweises Debugging, Codebase‑Änderungen).
Bessere Performance auf Coding‑Benchmarks, beim Refactoring und bei mehrstufigen toolgestützten Aufgaben (Sonnet‑ und Opus‑Familie).
Erweiterte „Thinking“‑Funktionen (bei Anthropic als Extended Thinking / Thinking Mode bezeichnet), die optional einen Teil der schrittweisen internen Begründung offenlegen oder dem Modell erlauben, ein konfigurierbares „Budget“ an Tokens für das Denken zu verwenden, bevor die finale Antwort erzeugt wird.

Wo Sie Claude 4.5 ausführen können

Claude 4.5 (Sonnet/Opus) ist über die eigene API von Anthropic verfügbar und wurde in CometAPI integriert (API‑Preise sind derzeit im Angebot, etwa 20 % des Anthropic‑Preises), sodass Sie diese Modelle entweder über die Plattform von Anthropic oder über Drittanbieter‑Cloud‑Anbieter ausführen können, die das Modell hosten.

Was ist der neue THINKING‑Modus in Claude Code und Claude 4.5?

Anthropics extended thinking (auch „Thinking Mode“, „Thinking Blocks“ oder „Thinking Tokens“) ist eine Funktion, die dem Modell ermöglicht, zusätzliche interne Sampling‑Schritte auszuführen, um vor der finalen Antwort gründlicher zu schlussfolgern. Sie aktivieren sie, indem Sie eine thinking‑Konfiguration zu Ihrer Messages‑API‑Anfrage hinzufügen (zum Beispiel: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) oder die Anthropic‑SDK‑Hilfsfunktionen verwenden. Wenn aktiviert, liefert die API (je nach Modell) entweder eine zusammengefasste Version der internen Begründung oder die vollständige Begründung (vorbehaltlich Schwärzung aus Sicherheitsgründen).

Um zu verstehen, warum „Thinking Mode“ revolutionär ist, müssen wir betrachten, wie große Sprachmodelle (LLMs) traditionell arbeiten. Standardmodelle sind „probabilistische Textgeneratoren“—sie prognostizieren das nächste Token unmittelbar nach Erhalt einer Eingabe. Sie „halten nicht inne, um zu denken“; sie beginnen sofort zu sprechen (zu generieren).

Der Wechsel zu „Extended Thinking“

Thinking Mode verändert dieses Paradigma. Wenn aktiviert, erzeugt Claude 4.5 einen verborgenen Strom von „Thinking Tokens“, bevor ein einziges sichtbares Zeichen für den Nutzer ausgegeben wird.

Sichtbare Begründung (optional): In einigen Oberflächen wie Claude.ai sehen Sie ein „Thinking“-Dropdown, das den internen Monolog des Modells zeigt.

Verborgene Begründung (API): In der API sind dies separate thinking‑Blöcke. Das Modell nutzt diesen Raum, um:

Die Eingabe zu dekonstruieren: Komplexe Einschränkungen aufzuschlüsseln.
Eine Strategie zu planen: Schrittweise Logik zu skizzieren.
Entwurf und Kritik: Eine Lösung gedanklich zu erproben, einen Fehler zu finden und ihn zu korrigieren, bevor die Antwort präsentiert wird.

Interleaved Thinking

Eine große Innovation in Sonnet 4.5 ist Interleaved Thinking. In agentischen Workflows (bei denen die KI Werkzeuge wie einen Taschenrechner, einen Code‑Interpreter oder einen Webbrowser nutzt) würden Standardmodelle einfach ein Tool aufrufen, ein Ergebnis erhalten und sofort das nächste Tool aufrufen.

Mit Interleaved Thinking kann Claude 4.5:

Denken über die Nutzeranfrage.
Tool A aufrufen (z. B. das Web durchsuchen).
Denken über die Suchergebnisse („Dieses Ergebnis ist veraltet, ich sollte eine andere Query versuchen“).
Tool B aufrufen (z. B. erneut suchen).
Denken darüber, wie die Daten synthetisiert werden.
Finale Antwort.

Dieser „Think‑Act‑Think‑Act“-Zyklus reduziert Halluzinationen und Fehlerfortpflanzung in langen, mehrstufigen Coding‑Aufgaben drastisch.

Wie Claude Code „Thinking“ in Entwicklerwerkzeugen sichtbar macht

In Claude Code (CLI/Editor‑Erlebnis) hat Anthropic UI‑Bedienelemente hinzugefügt, um den Thinking‑Modus für interaktive Sitzungen umzuschalten (eine gängige UX ist das Drücken von Tab, um Thinking ein/aus zu schalten) und Indikatoren für das aktuelle Thinking‑Budget anzuzeigen. Einige ältere Trigger‑Schlüsselwörter (z. B. think, think hard) wurden historisch genutzt, um die Tiefe des Denkens zu steuern; moderne Versionen verwenden explizite Umschalter und Budgetparameter, wobei ultrathink in einigen Kontexten weiterhin verfügbar ist. Die Konfiguration kann global in ~/.claude/settings.json oder pro Anfrage überschrieben sein.

Wie implementieren Sie den Thinking‑Modus von Claude 4.5?

Für Entwickler erfordert der Übergang zu Claude 4.5 eine Änderung in der Struktur von API‑Anfragen. Sie senden nicht mehr nur einen Prompt; Sie verwalten ein „Thinking Budget“.

Das Thinking‑Budget festlegen

Der thinking‑Parameter ist nun ein First‑Class‑Citizen in der Anthropic‑API. Sie müssen ihn explizit aktivieren und einen budget_tokens‑Wert definieren. Dieser Wert repräsentiert die maximale Menge an Rechenaufwand, die das Modell für sein internes Denken aufwenden darf.

Python‑Implementierungsbeispiel

import anthropic

# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # We set a high max_tokens to accommodate both thinking and the final answer
    # The budget_tokens must be less than max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocating 12k tokens for 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extracting the two distinct parts of the response
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)

Wichtige technische Überlegungen

Gesamter Token‑Verbrauch: Ihr Gesamtverbrauch ist thinking_tokens + output_tokens. Wenn Sie ein Budget von 10.000 Tokens setzen und das Modell 8.000 für Thinking und 2.000 für die Antwort nutzt, werden Ihnen 10.000 Ausgabetokens berechnet.
Erzwungenes Thinking: Wenn die Aufgabe zu einfach ist, kann das Modell dennoch eine Mindestanzahl an Thinking‑Tokens verwenden, um die Einfachheit der Anfrage zu verifizieren.

Wie verbessert der Thinking‑Modus die Codegenerierung?

Einer der bedeutendsten Upgrades in Claude 4.5 ist seine Performance in der Claude Code‑CLI. Wenn Claude 4.5 über Code „nachdenkt“, führt es mehrere verborgene Aktionen aus, die Standardmodelle übersehen.

1. Dependency Mapping

Bevor eine einzige Zeile eines Fixes geschrieben wird, traversiert Claude 4.5 Ihr Repository, um zu verstehen, wie eine Änderung in utils/auth.ts eine Komponente in views/Profile.tsx beschädigen könnte.

2. Mentale Ausführung

Das Modell „führt“ den Code in seinem Thinking‑Block aus. Es simuliert den Logikfluss und identifiziert mögliche Race Conditions oder Off‑by‑One‑Fehler.

3. Verifikation von Constraints

Wenn Sie nach einer Lösung fragen, die „performant ist und keine externen Libraries verwendet“, fungiert der Thinking‑Modus als Gatekeeper. Wenn der erste Impuls des Modells darin besteht, ein NPM‑Paket vorzuschlagen, erkennt der Thinking‑Prozess diesen Verstoß und zwingt das Modell, eine Vanilla‑JavaScript‑Implementierung zu überdenken.

Wie unterscheidet sich der Thinking‑Modus von traditionellem Prompting?

Viele Nutzer sind mit „Chain of Thought“ (CoT)‑Prompting vertraut, bei dem Sie dem Modell sagen: „Denke Schritt für Schritt.“ Das ist zwar effektiv, entspricht aber nicht dem nativen Thinking‑Modus von Claude 4.5.

Feature	Chain of Thought (manuell)	Extended Thinking (nativ)
Mechanismus	Nutzer‑gesteuerte Anweisungen.	Eingebaute Modellarchitektur.
Token‑Raum	Belegt sichtbaren Ausgaberaum.	Nutzt einen dedizierten internen Block.
Selbstkorrektur	Begrenzte; das Modell „beharrt“ oft auf frühen Fehlern.	Hoch; das Modell kann einen gesamten Denkpfad verwerfen und neu starten.
Zuverlässigkeit	Variabel je nach Prompt‑Qualität.	Konsistent hoch in komplexen Domänen.
API‑Handling	Erfordert manuelles Parsen von Text.	Strukturierte JSON‑Blöcke für „thinking“ und „text“.

Wie funktioniert der Thinking‑Modus in Claude 4.5?

Interner Workflow (konzeptionell)

Nutzeranfrage: Ihre Anwendung sendet eine Messages‑API‑Anfrage mit Modell, Prompt, max_tokens und optional thinking: { type: "enabled", budget_tokens: N }.
Interne Begründung: Claude führt internes „Thinking“ bis zum Budget aus. Es zeichnet Begründungsausgaben als thinking‑Blöcke auf (die für den Nutzer zusammengefasst sein können).
Output‑Komposition: Die API gibt ein Array von Inhaltsblöcken zurück. Typischerweise ist die Reihenfolge thinking‑Block/Blöcke, dann text‑Block/Blöcke (finale Antwort). Bei Streaming erhalten Sie thinking_delta‑Events gefolgt von text_delta‑Events.
Kontext erhalten: Bei Verwendung von Tools oder Multi‑Turn‑Flows können Sie vorherige Thinking‑Blöcke (unverändert) erneut senden, damit Claude die Chain‑of‑Thought fortsetzen kann. Opus 4.5 führte ein Verhalten ein, Thinking‑Blöcke standardmäßig zur Cache‑/Effizienzsteigerung beizubehalten.

Technisch basiert der Thinking‑Modus auf einer spezifischen API‑Parameterkonfiguration, die ein „Budget“ an Tokens für die Begründung zuweist.

Das Konzept des Token‑Budgets

Wenn Sie eine Anfrage an Claude 4.5 stellen, müssen Sie einen budget_tokens‑Parameter angeben. Dies ist die maximale Anzahl von Tokens, die das Modell für seinen internen Monolog verwenden darf.

Niedriges Budget (<2.000 Tokens): Gut für schnelle Plausibilitätsprüfungen oder einfache Logikrätsel.
Hohes Budget (10.000+ Tokens): Erforderlich für komplexe Softwarearchitektur, mathematische Beweise oder das Verfassen umfassender juristischer Schriftsätze.

Das Modell ist darauf trainiert, dieses Budget zu „managen“. Wenn es merkt, dass das Budget knapp wird, versucht es, seine Begründung abzuschließen und die bestmögliche Antwort zu liefern.

Der Lifecycle des „Thinking“-Prozesses

Wenn ein Nutzer fragt: „Schreibe ein Python‑Script, um diese Website zu scrapen, achte aber darauf, dass robots.txt respektiert wird und dynamisches Laden behandelt wird.“

Ingestion: Claude liest den Prompt.
Thinking‑Phase (verborgen):
- Selbstkorrektur: „Ich muss Selenium oder Playwright für dynamisches Laden verwenden. requests wird nicht funktionieren.“
- Sicherheitscheck: „Ich muss überprüfen, ob der Nutzer die Berechtigung zum Scrapen hat. Ich werde einen Disclaimer hinzufügen.“
- Architektur: „Ich strukturiere den Code mit einem klassenbasierten Ansatz für Modularität.“
Output‑Phase (sichtbar): Claude generiert den Python‑Code.

Bei früheren Modellen hätte die KI möglicherweise sofort begonnen, requests‑Code zu schreiben, auf halber Strecke erkannt, dass das für dynamische Inhalte nicht funktioniert, und dann entweder eine Lösung halluziniert oder fehlerhaften Code geliefert. Der Thinking‑Modus verhindert dieses „in die Ecke gemalt“-Szenario.

Wann sollten Sie den Thinking‑Modus aktivieren—Use Cases und Heuristiken?

Use Cases mit größtem Nutzen

Komplexes Coding (architektonische Änderungen, Refactors über mehrere Dateien, lange Debugging‑Sessions). Sonnet 4.5 ist explizit als Coding‑ und agentischer Spitzenreiter positioniert, wenn Thinking genutzt wird.
Agentische Workflows, die wiederholt Tools verwenden und internen Kontext über viele Schritte hinweg bewahren müssen. Interleaved Thinking + Tool‑Nutzung ist ein primäres Szenario.
Tiefe Recherche oder Analyse (statistische Auswertung, Finanzstrukturierung, juristische Begründung), bei denen Zwischen‑Schritte der Begründung wertvoll sind, um sie zu inspizieren oder zu verifizieren.

Wann Sie es nicht aktivieren sollten

Kurzantwort‑Generierung oder High‑Throughput‑APIs mit minimaler Latenzanforderung (z. B. Chat‑UIs, die millisekunden‑levelige Antworten benötigen).
Aufgaben, bei denen die Tokenkosten pro Anfrage minimiert werden müssen und die Aufgabe einfach oder klar spezifiziert ist.

Praktische Heuristik

Beginnen Sie mit dem Minimal‑Thinking‑Budget (≈1.024 Tokens) und erhöhen Sie es schrittweise für Aufgaben, die mehr Tiefe benötigen; messen Sie End‑to‑End‑Genauigkeit versus Latenz und Tokens. Für mehrstufige Agent‑Aufgaben experimentieren Sie mit Interleaved Thinking und gecachten Prompt‑Breakpoints, um den Sweet Spot zu finden.

Fazit

Claude 4.5s Thinking‑Modus ist mehr als nur ein Feature; er ist eine neue Art der Interaktion mit künstlicher Intelligenz. Durch die Trennung des Prozesses des Denkens vom Produkt des Denkens hat Anthropic ein Werkzeug bereitgestellt, das zuverlässiger, transparenter und fähiger ist, die Komplexität moderner Enterprise‑Arbeit zu bewältigen.

Ob Sie die Claude Code‑CLI nutzen, um eine massive Migration zu managen, oder die API verwenden, um die nächste Generation autonomer Agenten zu bauen—das Beherrschen des „Thinking Budget“ ist der Schlüssel zum Erfolg.

Entwickler können auf das Claude‑4.5‑Modell über CometAPI zugreifen. Beginnen Sie damit, die Modellfähigkeiten von CometAPI im Playground zu erkunden und konsultieren Sie den API‑Guide für detaillierte Anweisungen. Bitte stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API‑Schlüssel erhalten haben. Com e tAPI bietet einen Preis, der weit unter dem offiziellen Preis liegt, um Ihnen die Integration zu erleichtern.

Bereit loszulegen?→ Kostenlose Testversion von Claude 4.5!