Come utilizzare la modalità di ragionamento in Claude 4.5

“Modalità di pensiero” (nota anche come ragionamento esteso, pensiero o blocchi di pensiero) in Claude 4.5 è una modalità operativa esplicita e configurabile che istruisce il modello a spendere un numero separato e predefinito di token generando ragionamenti interni passo-passo (una “catena di ragionamento”) prima di emettere la risposta finale. È progettata per migliorare le prestazioni su ragionamento multi-step, coding complesso e flussi basati su agenti, oltre a compiti di ricerca, scambiando latenza e costo in token per una deliberazione interna più profonda. Claude 4.5 espone questa capacità a livello di Messages API con parametri espliciti (ad es., thinking / budget_tokens o un’intestazione effort/“interleaved-thinking”), preserva e opzionalmente cifra i blocchi di pensiero per verifiche successive o uso con strumenti, e introduce comportamenti di cache e di contabilizzazione dei token che devi gestire quando crei carichi di lavoro in produzione.

Che cos’è Claude 4.5? (E quali modelli mi interessano?)

Claude 4.5 è l’ultima serie di modelli Claude rilasciata come aggiornamenti incrementali “4.5” (ad esempio, Sonnet 4.5 e Opus 4.5). Sonnet 4.5 è posizionato come il miglior equilibrio tra intelligenza, coding e prestazioni agentiche per la maggior parte degli sviluppatori; Opus 4.5 si concentra su ragionamento a sforzo molto elevato e preserva i blocchi di pensiero per migliorare la continuità multi-turno. Entrambi i modelli supportano le capacità di ragionamento esteso di Claude, sebbene alcuni comportamenti (ad es., ragionamento riassunto vs completo) differiscano in base al modello.

I miglioramenti di performance in Claude 4.5, in particolare in Sonnet 4.5, sono più evidenti nel benchmark SWE-bench Verified, che misura la capacità di un’IA di risolvere problemi reali su GitHub.

Modello	Punteggio SWE-bench Verified	OSWorld (Uso del computer)
Claude 3.5 Sonnet	49,0%	42,2%
Claude 4.1 Opus	67,6%	55,0%
Claude 4.5 Sonnet (Thinking On)	77,2%	61,4%
GPT-5 (Medium Reasoning)	65,0%	52,0%

Questi numeri indicano che Claude 4.5 non è solo migliore nello scrivere snippet; è significativamente più capace di navigare interi file system ed eseguire compiti autonomi senza intervento umano.

Perché è importante

Coding & agenti: Sonnet 4.5 mostra grandi progressi su attività software reali e lavori di codifica a lungo orizzonte—rendendolo una scelta naturale per generazione/modifica di codice e flussi di agenti autonomi.
Ragionamento esteso & contesto: I modelli della famiglia Claude 4.5 sono costruiti per ragionare con spazi di lavoro interni molto ampi (decine di migliaia di token o più), abilitando un ragionamento multi-step più profondo. Questo cambia come progetti prompt, budget di token e interazioni con strumenti.

Che cos’è la Modalità di pensiero in Claude 4.5?

La Modalità di pensiero (ufficialmente “Extended Thinking”) è una capacità che consente al modello di “mostrare il proprio lavoro” a sé stesso prima di fornire un output finale. A differenza dei modelli standard che si impegnano subito su una risposta, Claude 4.5 utilizza uno spazio di ragionamento dedicato per esplorare ipotesi multiple, identificare potenziali errori nella logica e affinare la strategia.

Anatomia di una risposta

In un’interazione standard, il modello riceve un prompt e inizia a generare la risposta. In Modalità di pensiero, la risposta è suddivisa in due blocchi distinti:

Tipo di blocco	Visibilità	Scopo
Thinking Block	Nascosto (via API) o compresso (UI)	Monologo interno del modello, pianificazione e autocritica.
Text Block	Visibile	La risposta finale, raffinata, fornita all’utente.

Proprietà chiave della modalità di pensiero

Abilitazione su richiesta: passi un oggetto thinking nella chiamata API, ad esempio {"type":"enabled","budget_tokens":10000}, per attivarla e fornire al modello un budget interno di token per il ragionamento.
Budgeting: budget_tokens limita i token di ragionamento interni del modello. Più budget => potenziale di ragionamento più profondo ma costo e latenza più alti. Nei modelli Claude 4, i token di thinking vengono fatturati anche se ricevi solo una vista riassunta.
Riassunto & redazione: Per molti modelli Claude 4 l’utente vede una versione riassunta del contenuto di thinking; parte del ragionamento interno può essere redatta (crittografata) dai sistemi di sicurezza e restituita come redacted_thinking.
Firme & verifica: I blocchi di thinking includono una signature opaca usata per la verifica quando si restituiscono blocchi di thinking all’API (particolarmente necessario quando si usano strumenti). Dovresti trattare la firma come opaca—non tentare di analizzarla.
Thinking intercalato con strumenti: Claude 4 supporta l’intercalare blocchi di thinking con esecuzioni di strumenti (beta e basato su flag in alcuni casi). Questo è potente per lavori agentici (esegui strumento, pensa, esegui un altro strumento, ecc.).

Per esempi pratici e i parametri più aggiornati, la documentazione di Messages/Extended Thinking di Anthropic è il riferimento canonico.

Come la Messages API restituisce il contenuto di thinking

Thinking riassunto vs completo; crittografia & firme

Le diverse versioni dei modelli Claude gestiscono il thinking in modo diverso: i modelli Claude 4 più recenti (come Sonnet/Opus 4.5) spesso restituiscono una vista pubblica riassunta del ragionamento interno mentre l’intero spazio di lavoro può essere crittografato e reso disponibile solo tramite un campo signature (o blocchi redatti). Quando si usano strumenti (o necessiti di preservare lo stato interno tra chiamate agli strumenti), devi passare i blocchi di thinking all’API o usare il meccanismo di firma descritto nella documentazione. Questo meccanismo aiuta a proteggere il ragionamento interno sensibile consentendo una continuazione sicura del processo di pensiero quando necessario.

Schema pratico di gestione

Tool use / continuazione: se la tua richiesta successiva deve continuare lo stesso stato interno (ad es., strumenti eseguiti sulla base del thinking), includi il blocco di thinking restituito o la firma quando richiami l’API, in modo che il modello possa decrittare e continuare da dove si era fermato.

Richiesta: invia thinking: {type: "enabled", budget_tokens: N}.

Risposta: potresti ricevere (a) un output pubblico riassunto, (b) una signature crittografata o un blocco redacted_thinking, oppure (c) entrambi.

CometAPI offre la API di Claude 4.5 al 20% del prezzo ufficiale e può essere chiamata anche usando le Anthropic Messages. Dovrai ottenere una chiave API prima di iniziare.

Esempio 1 — semplice curl (non in streaming) per abilitare il thinking

curl https://api.cometapi.com/v1/messages \
  -H "x-api-key: $CometAPI_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
      "type": "enabled",
      "budget_tokens": 10000
    },
    "messages": [
      {"role": "user", "content": "Design a robust data validation strategy for CSV imports, show tests + code."}
    ]
  }'

La risposta conterrà blocchi content. Ispeziona ogni blocco e preferisci i blocchi text per l’output finale; i blocchi thinking contengono il riepilogo dell’analisi interna del modello.

Esempio 2 — Python: richiesta, parsing dei blocchi di thinking e di testo

import os, requests

API_KEY = os.environ["CometAPI_API_KEY"]
URL = "https://api.cometapi.com/v1/messages"
HEADERS = {
    "x-api-key": API_KEY,
    "anthropic-version": "2023-06-01",
    "content-type": "application/json"
}

payload = {
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {"type": "enabled", "budget_tokens": 8000},
    "messages": [{"role": "user", "content": "Explain how to do property-based testing in Python; include example code."}]
}

r = requests.post(URL, headers=HEADERS, json=payload)
r.raise_for_status()
resp = r.json()

# Parse blocks
for block in resp.get("content", []):
    if block.get("type") == "thinking":
        thinking_summary = block.get("thinking")
        print("=== THINKING (summary) ===")
        print(thinking_summary[:1000])  # truncate for logs
        print("signature:", block.get("signature")[:64], "...")
    elif block.get("type") == "text":
        print("=== FINAL TEXT ===")
        print(block.get("text"))

Questo codice estrae e stampa il thinking riassunto e la risposta finale. Se devi preservare la continuità in flussi di agenti multi-turno, includi i blocchi di thinking non modificati nella successiva richiesta nell’array messages (vedi esempio successivo).

Esempio 3 — riutilizzo dei blocchi di thinking in un flusso multi-turno (pseudo Python)

# After initial response (resp above):
# Add the assistant message including the thinking block back into the conversation
assistant_message = {
  "role": "assistant",
  "content": resp["content"]  # include raw content array (contains thinking + text blocks)
}

# Next user turn: ask follow-up and include previous assistant message
payload2 = {
  "model": "claude-opus-4-5",  # Opus preserves thinking blocks better across turns
  "max_tokens": 20000,
  "thinking": {"type": "enabled", "budget_tokens": 12000},
  "messages": [
    {"role": "user", "content": "Now adapt the validation logic for an avro pipeline."},
    assistant_message
  ]
}
r2 = requests.post(URL, headers=HEADERS, json=payload2)

Preservare esattamente i blocchi di thinking non modificati è fondamentale quando si eseguono flussi con strumenti integrati o agenti di lunga durata. Opus 4.5 ha impostazioni predefinite migliorate per la preservazione e la cache dei blocchi di thinking.

Come eseguire lo streaming degli output di thinking e mostrare l’avanzamento in una UI?

Best practice per lo streaming

Usa gli endpoint di streaming degli SDK (gli SDK Python/TypeScript hanno helper per lo stream). Per job di ragionamento lunghi o con budget elevati, lo streaming previene i timeout HTTP e ti fornisce testo parziale mentre il modello calcola. Il codice tipico utilizza un iteratore su text_stream (Python) o parsing di eventi (JS).
Aspettati talvolta stream in due fasi: il modello può prima produrre chunk di ragionamento visibile, poi finalizzare con la risposta. Progetta la UI per gestire contenuti a chunk e mostrare stati “pensando…” vs risposta finale.
Se l’API restituisce un signature_delta o content_block_delta durante lo streaming, catturalo e allegalo alle chiamate successive come richiesto dalla specifica.

Se devi mostrare l’avanzamento del ragionamento intermedio in una UI, esegui lo streaming della risposta. Il server emetterà eventi thinking_delta seguiti da eventi text_delta.

curl https://api.cometapi.com/v1/messages \
  --header "x-api-key: $CometAPI_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": { "type": "enabled", "budget_tokens": 8000 },
    "messages": [ { "role": "user", "content": "Walk me through debugging this failing unit test and propose fixes." } ]
  }'

Quando esegui lo streaming, gestisci gli eventi content_block_start, content_block_delta (che includono thinking_delta e text_delta) e content_block_stop in ordine. In questo modo puoi mostrare il ragionamento passo-passo del modello mentre accade.

Come interagisce Claude Code con la modalità di pensiero? (terminale + VS Code)

Claude Code è il terminale di coding interattivo e agentico che integra la Messages API e i runner di strumenti. L’esperienza CLI/IDE espone il thinking in due modi:

Impostazioni globali / per sessione: Claude Code espone un pannello /config per regolare il comportamento (come l’agente chiede permessi, se preservare i blocchi di thinking, ecc.). Usa quella UI anziché riscrivere JSON raw se vuoi modifiche di comportamento persistenti.
Selezione del modello & comandi CLI: Puoi scegliere claude-sonnet-4-5 o claude-opus-4-5 come modello attivo nel REPL; gli strumenti e il comportamento di thinking seguono poi le semantiche della Messages API. Il CHANGELOG e le note di rilascio indicano che il thinking ora è abilitato di default per alcune distribuzioni di Opus 4.5 e che la configurazione del thinking è esposta tramite /config.

Flusso pratico in Claude Code:

Avvia un progetto nel REPL.
Usa /config per ispezionare i flag relativi al thinking (preservazione, verbosità, ecc.).
Chiedi all’agente di eseguire un’attività lunga — produrrà contenuti di thinking e, se necessario, chiederà permesso per eseguire determinati passaggi bash. Preserva i blocchi di thinking quando devi verificare o rieseguire decisioni in seguito.

Installazione e configurazione

Claude Code richiede Node.js e può essere installato globalmente.

# Install Claude Code CLI
npm install -g @anthropic/claude-code

# Authenticate
claude-code --init

Attivare il thinking nel terminale

Claude Code supporta vari flag e trigger in linguaggio naturale per controllare la profondità del ragionamento.

Comando/Trigger	Descrizione
claude-code --think	Avvia una sessione con il ragionamento esteso abilitato di default.
claude-code --model sonnet-4.5	Specifica l’ultimo modello di frontiera.
/think	Un comando slash all’interno della CLI per invocare un task specifico ad alto contenuto di thinking.
"ultrathink"	Una keyword in linguaggio naturale che istruisce Claude a usare il massimo budget di ragionamento possibile.

Suggerimenti:

Usa think/think harder quando vuoi che l’agente esplori implementazioni alternative.
Quando Claude Code esegue chiamate a strumenti (run test, operazioni git), preserva eventuali blocchi thinking se CLI/agente li restituisce; altrimenti l’agente può perdere contesto tra i passaggi.

Benefici del Thinking intercalato e della preservazione dei blocchi

Per flussi agentici avanzati, Claude 4.5 introduce due funzionalità beta che migliorano significativamente le interazioni multi-turno e l’uso di strumenti: Thinking intercalato e Preservazione dei blocchi di thinking.

Thinking intercalato (Beta)

Il ragionamento standard avviene una sola volta prima dell’output. Il Thinking intercalato (abilitato tramite l’intestazione interleaved-thinking-2025-05-14) consente a Claude di “pensare” tra le chiamate agli strumenti.

Immagina che Claude stia facendo debug di un server:

Pensare: "Dovrei controllare prima i log."
Chiamata strumento: read_file(logs.txt)
Pensare: "I log mostrano un timeout del database. Ora devo controllare le impostazioni del pool di connessioni."
Chiamata strumento: read_file(db_config.yml)

Questa “riflessione continua” garantisce che il modello adatti la sua strategia in base ai dati ricevuti dagli strumenti, anziché seguire un piano rigido predefinito.

Preservazione dei blocchi di thinking

Nelle conversazioni multi-turno, specialmente quelle che coinvolgono l’uso di strumenti, è fondamentale passare i precedenti blocchi thinking all’API.

Continuità del ragionamento: Ricevendo i propri pensieri precedenti, Claude mantiene il contesto logico del suo percorso.
Ottimizzazione Opus 4.5: In Claude Opus 4.5, questo comportamento è automatizzato. Il modello preserva di default tutti i blocchi di thinking precedenti nel suo contesto, garantendo che anche in sessioni di 30+ ore il modello non “dimentichi” perché ha preso determinate decisioni architetturali dieci turni prima.

Best practice per usare la Modalità di pensiero con Claude 4.5

Scegli il modello e il budget giusti per il compito:

Usa Sonnet 4.5 per coding e flussi basati su agenti in cui ti serve il miglior compromesso tra velocità, costo e forti capacità di coding; usa Opus 4.5 per il ragionamento più profondo e le finestre di contesto più grandi o quando prevedi di eseguire lunghe sessioni autonome. Entrambi supportano il ragionamento esteso. Scegli budget_tokens proporzionalmente alla complessità del compito (inizia basso negli esperimenti; alza il budget solo se osservi miglioramenti qualitativi concreti).

Monitora e controlla costo & latenza

Vieni addebitato per tutti i token di thinking prodotti da Claude, non per il solo output riassunto che ricevi. Ciò significa che lunghe deliberazioni interne aumentano il costo anche se vedi solo un breve riassunto. Traccia l’uso dei token e considera una messa a punto graduale (per esempio: 2k → 8k → 32k) quando passi dall’esplorazione alla produzione.

Preserva i blocchi di thinking solo quando necessario

I blocchi di thinking possono essere firmati crittograficamente e preservati per verifica successiva e per uso intercalato con strumenti. Evita di riecheggiare i blocchi di thinking in ogni richiesta successiva a meno che il tuo flusso non richieda che il modello mantenga le deliberazioni interne precedenti (per esempio, quando un agente rieseguirà passaggi e avrà bisogno delle motivazioni preservate). Preservare sempre il thinking aumenta il volume di contesto e può complicare la contabilizzazione dei token.

Quando fare lo streaming del thinking agli utenti

Il thinking in streaming è eccellente per tool per sviluppatori e UI educative (mostrando “lavoro in corso” mentre il modello delibera). Non fare lo streaming del thinking grezzo agli utenti finali di app consumer di produzione senza considerare sicurezza e redazione: il thinking riassunto esiste proprio per questo. Se esegui lo streaming, fornisci elementi UI che etichettino il ragionamento interno (ad es., “Ragionamento dell’assistente — interno”) e controlla se l’utente finale vede il thinking riassunto o quello completo.

Uso di strumenti e intercalazione

Quando combini thinking con strumenti (esecuzione di codice, fetch web, processi locali), usa il design di thinking intercalato quando ti serve che il modello selezioni strumenti, li esegua e ragioni sui risultati all’interno dello stesso turno. L’intercalazione aumenta la complessità (e può richiedere flag di funzionalità) ma è potente per l’automazione agentica. Sii esplicito su quale thinking preservi e testa come il modello seleziona gli strumenti in una run con thinking abilitato.

Note pratiche di troubleshooting e operative

Errori comuni e cosa significano

Thinking non valido + scelta forzata dello strumento: Se richiedi thinking ma forzi anche modalità di uso degli strumenti incompatibili con il thinking, l’API restituirà un errore — non combinare la forzatura di tool_choice: {"type":"tool","name":"..."} con il thinking.
Budget > max_tokens: Per scenari di thinking intercalato le regole effettive sui token differiscono — la piattaforma spiega quando budget_tokens può superare max_tokens. Leggi attentamente la sezione “interleaved thinking” prima di testare budget elevati.
Validazione della firma: Se preservi blocchi di thinking per chiamate successive, includi la signature restituita in modo che l’API possa verificare che provengano da Claude; ciò previene manomissioni e mantiene la catena verificabile.

Osservabilità & strumentazione

Logga: (1) selezione del model, (2) thinking.budget_tokens, (3) consumo reale di token di thinking (vieni fatturato per questo), (4) latenze di streaming (tempo al primo thinking_delta), e (5) token di testo finali. Usa queste metriche per costruire budget e SLO per flussi rivolti agli utenti.

Rollout progressivo & human-in-the-loop

Rilascia i modelli con thinking abilitato dietro flag di funzionalità. Inizia con una percentuale di traffico per sviluppatori o interno, raccogli errori o redazioni e itera su prompt e budget. Per domini sensibili, richiedi revisione umana sugli output che includono ragionamento interno sostanziale prima della pubblicazione.

Suggerimenti di debug

Inizia in piccolo: abilita budget_tokens bassi e scala per comprendere i miglioramenti incrementali.
Attiva lo streaming e logga eventi content_block_delta / di firma per capire quando il modello produce blocchi di thinking.
Se usi Claude Code: controlla /config e le impostazioni a livello di progetto; consulta il changelog di Claude Code se il comportamento non corrisponde alle preimpostazioni attese.

Conclusione:

Claude 4.5, combinato con la potenza del Ragionamento Esteso e della CLI Claude Code, rappresenta il salto più significativo nella produttività degli sviluppatori dai tempi dell’invenzione dell’IDE. Consentendo al modello di “mostrare il proprio lavoro” e deliberare su problemi complessi, Anthropic è andata oltre l’era dei “chatbot” entrando nell’era “agentica”.

Che tu stia integrando la Messages API in un dev-tool personalizzato o usando Claude Code per gestire le tue PR quotidiane, padroneggiare la Modalità di pensiero è essenziale. Fornisce la trasparenza necessaria per la fiducia e la profondità di ragionamento necessaria per l’eccellenza.

Gli sviluppatori possono accedere ai modelli Claude 4.5 (Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5) tramite CometAPI. Per iniziare, esplora le funzionalità dei modelli di CometAPI nel Playground e consulta la guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore rispetto al prezzo ufficiale per aiutarti nell’integrazione.

Pronto a partire?→ Prova gratuita di Claude 4.5!