Anthropic’s Claude 4.5-familie (met name Sonnet 4.5 en Opus 4.5) brengt uitgebreid “denken” / interne redenering in scratchpad-stijl naar hun Claude 4-lijn. De Messages API stelt die mogelijkheid beschikbaar via een thinking-object (in-/uitschakelen + een toewijzing van budget_tokens), streamingopties en speciale verwerking voor thinking-contentblokken (inclusief handtekeningen en redactie). Sonnet 4.5 richt zich op programmeer- en agentische taken en profiteert sterk van uitgebreid denken; Opus 4.5 voegt behouden thinking-blokken en andere optimalisaties toe.
Wat is Claude 4.5?
Claude 4.5 (gepubliceerd in Anthropic’s Claude-modelfamilie als de varianten Sonnet 4.5 en Opus 4.5) is de nieuwste generatie grote taalmodellen van het bedrijf, afgestemd op diepere redenering, context over lange trajecten en productieklare programmeer- / agentische workflows. In Anthropic’s aankondiging en productpagina’s wordt Sonnet 4.5 omschreven als een grote stap vooruit voor programmeren, agentbouw en “computers gebruiken” (d.w.z. toolondersteunde workflows en meerstapsautomatisering), met meetbare verbeteringen op het gebied van redenering, wiskunde en lang-contexttaken.
De 4.5-familie-opstelling
- Claude Sonnet 4.5 (Uitgebracht op 29 sept. 2025): Het "werkpaard" van de familie. Het wordt momenteel beoordeeld als 's werelds beste programmeermodel, in staat om zich meer dan 30 uur op autonome taken te blijven concentreren. Het biedt een balans tussen snelheid, kosten en geavanceerde redenering, waardoor het de standaardkeuze is voor de meeste enterprise-toepassingen.
- Claude Haiku 4.5 (Uitgebracht op 15 okt. 2025): Het op snelheid geoptimaliseerde model. Verrassend genoeg ondersteunt het nu Extended Thinking, waardoor het het eerste "kleine" model is dat diepe redeneercapaciteiten biedt die eerder waren voorbehouden aan frontier-modellen. Het is ideaal voor taken met hoge frequentie waarbij latentie belangrijk is maar nauwkeurigheid niet mag worden opgeofferd.
- Claude Opus 4.5 (Uitgebracht op 24 nov. 2025): Het model voor frontier-intelligentie. Opus 4.5 is ontworpen voor de meest complexe, ambigue taken—zoals wetenschappelijk onderzoek, nieuw architectuurontwerp en financiële analyses met hoge inzet. Het heeft de hoogste capaciteit voor een "thinking budget" en blinkt uit in zelfcorrectie.
Belangrijkste mogelijkheden in één oogopslag
- Grotere bruikbare contextvensters en verbeterd gedrag in langlopende taken (agentworkflows, stapsgewijs debuggen, wijzigingen in codebases).
- Betere prestaties op coding-benchmarks, refactoring en meerstapstaken met toolgebruik (Sonnet- en Opus-familie).
- Geavanceerde “thinking”-functies (wat Anthropic extended thinking / thinking mode noemt) die—optioneel—een deel van de interne stapsgewijze redenering van het model aan de ontwikkelaar tonen of het model toestaan een configureerbaar “budget” aan tokens te besteden aan redenering voordat het een definitief antwoord geeft.
Waar je Claude 4.5 kunt draaien
Claude 4.5 (Sonnet/Opus) is beschikbaar via Anthropic’s eigen API en is geïntegreerd in CometAPI(de API-prijzen zijn momenteel in de aanbieding, ongeveer 20% van Anthropic’s prijs), zodat je deze modellen kunt uitvoeren via Anthropic’s platform of via externe cloudleveranciers die het model hosten.
Wat is de nieuwe THINKING-modus in Claude Code en Claude 4.5?
Anthropic’s extended thinking (ook wel “thinking mode”, “thinking blocks” of “thinking tokens”) is een functie waarmee het model extra interne samplingstappen kan uitvoeren om grondiger te redeneren voordat het een definitief antwoord produceert. Je schakelt dit in door een thinking-configuratie toe te voegen aan je Messages API-verzoek (bijvoorbeeld: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) of door Anthropic SDK-helpers te gebruiken. Wanneer dit is ingeschakeld, zal de API (afhankelijk van het model) óf een samengevatte versie van de interne redenering retourneren óf de volledige redenering teruggeven (onder voorbehoud van redactie om veiligheidsredenen).
Om te begrijpen waarom "Thinking Mode" revolutionair is, moeten we kijken naar hoe Large Language Models (LLM’s) traditioneel werken. Standaardmodellen zijn "probabilistische tekstgeneratoren"—ze voorspellen onmiddellijk het volgende token na ontvangst van een prompt. Ze "stoppen niet om na te denken"; ze beginnen direct te spreken (genereren).
De verschuiving naar "Extended Thinking"
Thinking Mode verandert dit paradigma. Wanneer deze is ingeschakeld, genereert Claude 4.5 een verborgen stroom van "thinking tokens" voordat het één zichtbaar teken aan de gebruiker toont.
Zichtbare redenering (optioneel): In sommige interfaces zoals Claude.ai kun je een vervolgkeuzelijst "Thinking" zien die de interne monoloog van het model toont.
Verborgen redenering (API): In de API zijn dit afzonderlijke thinking-blokken. Het model gebruikt deze ruimte om:
- De prompt te ontleden: Complexe beperkingen op te splitsen.
- Een strategie te plannen: Stapsgewijze logica uit te werken.
- Opstellen en bekritiseren: Mentaal een oplossing te proberen, een fout te vinden en die te corrigeren voordat het antwoord wordt gepresenteerd.
Interleaved Thinking
Een belangrijke innovatie in Sonnet 4.5 is Interleaved Thinking. In agentische workflows (waar de AI tools gebruikt zoals een rekenmachine, een code-interpreter of een webbrowser) zouden standaardmodellen gewoon een tool aanroepen, een resultaat krijgen en onmiddellijk de volgende tool aanroepen.
Met Interleaved Thinking kan Claude 4.5:
- Nadenken over het gebruikersverzoek.
- Tool A aanroepen (bijv. op het web zoeken).
- Nadenken over de zoekresultaten ("Dit resultaat is verouderd, ik moet een andere query proberen").
- Tool B aanroepen (bijv. opnieuw zoeken).
- Nadenken over hoe de gegevens te synthetiseren.
- Definitief antwoord.
Deze "Think-Act-Think-Act"-lus vermindert hallucinaties en foutvoortplanting drastisch in lange programmeertaken met meerdere stappen.
Hoe Claude Code thinking zichtbaar maakt in ontwikkelaarstools
In Claude Code (de CLI- / editorervaring) heeft Anthropic UI-mogelijkheden toegevoegd om de thinking-modus voor interactieve sessies in of uit te schakelen (een veelgebruikte UX is het indrukken van Tab om thinking aan/uit te zetten) en om indicatoren voor het huidige thinking budget te tonen. Sommige oudere triggerwoorden (bijv. think, think hard) werden historisch gebruikt om de diepte van het denken te regelen; moderne versies vertrouwen op expliciete schakelaars en budgetparameters, waarbij ultrathink in sommige contexten beschikbaar blijft. De configuratie kan globaal zijn in ~/.claude/settings.json of per verzoek worden overschreven.
Hoe implementeer je Claude 4.5 Thinking Mode?
Voor ontwikkelaars vereist de overstap naar Claude 4.5 een verandering in de manier waarop API-verzoeken worden gestructureerd. Je verstuurt niet langer alleen een prompt; je beheert een "Thinking Budget".
Het Thinking Budget instellen
De parameter thinking is nu een eersteklas onderdeel van de Anthropic API. Je moet deze expliciet inschakelen en een waarde voor budget_tokens definiëren. Deze waarde vertegenwoordigt de maximale hoeveelheid rekenwerk die het model mag besteden aan zijn interne redenering.
Voorbeeld van een Python-implementatie
De volgende code laat zien hoe je een Claude 4.5-sessie initialiseert met Extended Thinking ingeschakeld.
import anthropic
# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# We set a high max_tokens to accommodate both thinking and the final answer
# The budget_tokens must be less than max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # Allocating 12k tokens for 'thinking'
},
messages=[
{"role": "user", "content": user_query}
]
)
# Extracting the two distinct parts of the response
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)
Belangrijke technische aandachtspunten
- Totaal tokengebruik: Je totale gebruik is
thinking_tokens+output_tokens. Als je een budget van 10.000 tokens instelt en het model 8.000 gebruikt om te denken en 2.000 voor het antwoord, worden 10.000 outputtokens in rekening gebracht. - Geforceerd denken: Als de taak te eenvoudig is, kan het model toch een minimumaantal thinking tokens gebruiken om te verifiëren dat het verzoek inderdaad eenvoudig is.
Hoe verbetert Thinking Mode codegeneratie?
Een van de belangrijkste upgrades in Claude 4.5 is de prestatie in de Claude Code CLI. Wanneer Claude 4.5 over code "nadenkt", voert het verschillende verborgen acties uit die standaardmodellen over het hoofd zien.
1. Afhankelijkheidsmapping
Voordat er ook maar één regel van een oplossing wordt geschreven, doorloopt Claude 4.5 je repository om te begrijpen hoe een wijziging in utils/auth.ts een component in views/Profile.tsx kan breken.
2. Mentale uitvoering
Het model "voert" de code uit in zijn redeneerblok. Het simuleert de logische stroom en identificeert potentiële race conditions of off-by-one-fouten.
3. Verificatie van beperkingen
Als je om een oplossing vraagt die "performant is en geen externe bibliotheken gebruikt", fungeert de thinking-modus als een poortwachter. Als de eerste ingeving van het model is om een NPM-pakket voor te stellen, zal het denkproces die schending opmerken en het model dwingen een vanilla JavaScript-implementatie te heroverwegen.
Hoe verhoudt Thinking Mode zich tot traditionele prompting?
Veel gebruikers zijn bekend met "Chain of Thought" (CoT)-prompting, waarbij je het model zegt: "Denk stap voor stap." Hoewel effectief, is het niet hetzelfde als Claude 4.5’s native Thinking Mode.
| Feature | Chain of Thought (Manual) | Extended Thinking (Native) |
|---|---|---|
| Mechanism | User-prompted instructions. | Built-in model architecture. |
| Token Space | Occupies visible output space. | Occupies a dedicated internal block. |
| Self-Correction | Limited; the model often "doubles down" on early mistakes. | High; the model can discard an entire reasoning path and start over. |
| Reliability | Variable based on prompt quality. | Consistently high across complex domains. |
| API Handling | Requires manual parsing of text. | Structured JSON blocks for "thinking" and "text". |
Hoe werkt thinking mode in Claude 4.5?
Interne workflow (conceptueel)
- Gebruikersverzoek: Je applicatie verstuurt een Messages API-verzoek waarin model, prompt,
max_tokensen optioneelthinking: { type: "enabled", budget_tokens: N }worden gespecificeerd. - Interne redenering: Claude voert intern “thinking” uit tot aan het budget. Het registreert redeneringsoutput als
thinking-blokken (die voor de gebruiker kunnen worden samengevat). - Opbouw van de output: De API retourneert een array met contentblokken. Meestal is de volgorde
thinking-blok(ken) gevolgd doortext-blok(ken) (het definitieve antwoord). Bij streaming ontvang jethinking_delta-events gevolgd doortext_delta-events. - Context behouden: Bij gebruik van tools of multi-turn-flows kun je eerdere thinking-blokken (ongewijzigd) opnieuw versturen zodat Claude de chain-of-thought kan voortzetten. Opus 4.5 introduceerde gedrag om thinking-blokken standaard te behouden voor cache-/efficiëntiedoeleinden.
Technisch gezien is Thinking Mode gebaseerd op een specifieke API-parameterconfiguratie die een token-"budget" voor redenering toewijst.
Het concept van een tokenbudget
Wanneer je een verzoek doet aan Claude 4.5, moet je een parameter budget_tokens opgeven. Dit is het maximale aantal tokens dat het model mag gebruiken voor zijn interne monoloog.
- Laag budget (<2.000 tokens): Goed voor snelle sanity checks of eenvoudige logische puzzels.
- Hoog budget (10.000+ tokens): Vereist voor complexe softwarearchitectuur, wiskundige bewijzen of het schrijven van uitgebreide juridische stukken.
Het model is getraind om dit budget te "beheren". Als het merkt dat het budget bijna op is, zal het proberen zijn redenering af te ronden en het best mogelijke antwoord te geven.
De levenscyclus van het "Thinking Process"
Wanneer een gebruiker vraagt: "Write a Python script to scrape this website, but ensure it respects robots.txt and handles dynamic loading."
- Inname: Claude leest de prompt.
- Thinking-fase (verborgen):
- Zelfcorrectie: "Ik moet Selenium of Playwright gebruiken voor dynamisch laden.
requestswerkt niet." - Veiligheidscontrole: "Ik moet verifiëren dat de gebruiker toestemming heeft om te scrapen. Ik zal een disclaimer toevoegen."
- Architectuur: "Ik zal de code structureren met een klassegebaseerde aanpak voor modulariteit."
- Zelfcorrectie: "Ik moet Selenium of Playwright gebruiken voor dynamisch laden.
- Outputfase (zichtbaar): Claude genereert de Python-code.
Bij eerdere modellen had de AI mogelijk meteen requests-code geschreven, halverwege beseft dat dit niet zou werken voor dynamische content, en vervolgens ofwel een oplossing gehallucineerd of defecte code geleverd. Thinking mode voorkomt dit scenario waarin het model zich "in een hoek schildert".
Wanneer moet je thinking mode inschakelen — use-cases en heuristieken?
Use-cases die er het meest van profiteren
- Complex programmeren (architectuurwijzigingen, refactors over meerdere bestanden, lange debugsessies). Sonnet 4.5 wordt expliciet gepositioneerd als leider in programmeren en agentische taken wanneer thinking wordt gebruikt.
- Agentische workflows die herhaaldelijk tools gebruiken en interne context over veel stappen moeten behouden. Interleaved thinking + toolgebruik is een primair scenario.
- Diepgaand onderzoek of analyse (statistische analyse, financiële structurering, juridische redenering) waarbij tussenliggende redeneerstappen waardevol zijn om te inspecteren of te verifiëren.
Wanneer je het niet moet inschakelen
- Korte antwoordgeneratie of high-throughput API’s met lage latentie waarbij minimale latentie cruciaal is (bijv. chat-UI’s die reacties op millisecondenniveau vereisen).
- Taken waarbij de tokenkosten per verzoek zo laag mogelijk moeten blijven en de taak eenvoudig of goed gespecificeerd is.
Praktische heuristiek
Begin met het minimale thinking budget (≈1.024 tokens) en verhoog dit geleidelijk voor taken die meer diepgang vereisen; benchmark de end-to-end-taaknauwkeurigheid ten opzichte van latentie en tokens. Voor agenttaken met meerdere stappen kun je experimenteren met interleaved thinking en cached prompt breakpoints om een goed evenwicht te vinden.
Conclusie
Claude 4.5’s Thinking Mode is meer dan alleen een functie; het is een nieuwe manier om met kunstmatige intelligentie te werken. Door het proces van denken te scheiden van het product van denken, heeft Anthropic een hulpmiddel geleverd dat betrouwbaarder, transparanter en beter in staat is om de complexiteit van modern enterprise-werk aan te kunnen.
Of je nu de Claude Code CLI gebruikt om een grote migratie te beheren of de API inzet om de volgende generatie autonome agents te bouwen, het beheersen van het "Thinking Budget" is de sleutel tot succes.
Ontwikkelaars hebben via CometAPI toegang tot het Claude 4.5-model. Ga om te beginnen naar de modelmogelijkheden van CometAPI in de Playground en raadpleeg de API-handleiding voor gedetailleerde instructies. Zorg er vóór toegang voor dat je bent ingelogd bij CometAPI en de API-sleutel hebt verkregen. CometAPI biedt een veel lagere prijs dan de officiële prijs om integratie te vergemakkelijken.
Klaar om te starten?→ Gratis proefversie van Claude 4.5!
