La modalità di ragionamento in Claude 4.5: tutto quello che devi sapere

La famiglia Claude 4.5 di Anthropic (in particolare Sonnet 4.5 e Opus 4.5) introduce un “pensiero” esteso / ragionamento interno in stile scratchpad nella linea Claude 4. La Messages API espone questa capacità tramite un oggetto thinking (abilita/disabilita + una quota budget_tokens), opzioni di streaming e gestione speciale per i blocchi di contenuto di “pensiero” (incluse firme e oscuramento). Sonnet 4.5 è mirato a compiti di coding e agentici e beneficia molto del pensiero esteso; Opus 4.5 aggiunge blocchi di pensiero preservati e altre ottimizzazioni.

Che cos’è Claude 4.5?

Claude 4.5 (pubblicato nella famiglia di modelli Claude nelle varianti Sonnet 4.5 e Opus 4.5) è l’ultima generazione di modelli linguistici di grandi dimensioni di Anthropic, ottimizzati per ragionamento più profondo, contesto di lungo periodo e coding/flux di lavoro agentici di qualità produttiva. Negli annunci e nelle pagine prodotto di Anthropic, Sonnet 4.5 è descritto come un grande passo avanti per il coding, la costruzione di agenti e “l’uso dei computer” (ovvero workflow assistiti da strumenti e automazione multi-step), con miglioramenti misurabili su ragionamento, matematica e compiti a lungo contesto.

La lineup della famiglia 4.5

Claude Sonnet 4.5 (Rilasciato il 29 settembre 2025): Il “mulo da lavoro” della famiglia. Attualmente è valutato come il miglior modello di coding al mondo, capace di mantenere il focus su compiti autonomi per oltre 30 ore. Bilancia velocità, costo e ragionamento di alto livello, diventando la scelta predefinita per la maggior parte delle applicazioni enterprise.
Claude Haiku 4.5 (Rilasciato il 15 ottobre 2025): Il modello ottimizzato per la velocità. Sorprendentemente, ora supporta il Pensiero Esteso, diventando il primo modello “piccolo” a offrire capacità di ragionamento profondo prima riservate ai modelli d’avanguardia. È ideale per attività ad alta frequenza in cui la latenza conta ma l’accuratezza non può essere sacrificata.
Claude Opus 4.5 (Rilasciato il 24 novembre 2025): Il modello di intelligenza d’avanguardia. Opus 4.5 è progettato per i compiti più complessi e ambigui—come la ricerca scientifica, la progettazione di nuove architetture e l’analisi finanziaria ad alto rischio. Ha la più alta capacità di “budget di pensiero” ed eccelle nell’auto-correzione.

Capacità principali in sintesi

Finestre di contesto utilizzabili più ampie e comportamento migliorato in attività di lunga durata (workflow agentici, debug passo-passo, modifiche a codebase).
Prestazioni migliori nei benchmark di coding, refactoring e compiti multi-step con uso di strumenti (famiglia Sonnet e Opus).
Funzionalità di “pensiero” avanzate (ciò che Anthropic chiama pensiero esteso / modalità di pensiero) che espongono—opzionalmente—una parte del ragionamento interno passo-passo del modello allo sviluppatore o consentono al modello di spendere un “budget” configurabile di token per ragionare prima di produrre la risposta finale.

Dove puoi eseguire Claude 4.5

Claude 4.5 (Sonnet/Opus) è disponibile tramite l’API di Anthropic ed è stato integrato in CometAPI(I prezzi dell’API sono attualmente in offerta, circa il 20% del prezzo di Anthropic.), quindi puoi eseguire questi modelli tramite la piattaforma di Anthropic o tramite provider cloud di terze parti che ospitano il modello.

Che cos’è la nuova modalità THINKING in Claude Code e Claude 4.5?

Il pensiero esteso di Anthropic (alias “modalità di pensiero”, “blocchi di pensiero” o “token di pensiero”) è una funzione che consente al modello di eseguire passaggi di campionamento interni aggiuntivi per ragionare più a fondo prima di produrre la risposta finale. La si abilita aggiungendo una configurazione thinking alla richiesta della Messages API (ad esempio: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) o usando gli helper dell’SDK di Anthropic. Quando abilitata, l’API (a seconda del modello) restituirà una versione riassunta del ragionamento interno oppure l’intero ragionamento (soggetto a oscuramento per motivi di sicurezza).

Per capire perché la “Modalità di pensiero” è rivoluzionaria, dobbiamo guardare a come operano tradizionalmente i Large Language Models (LLM). I modelli standard sono “generatori di testo probabilistici”—predicono il token successivo immediatamente dopo aver ricevuto un prompt. Non “si fermano a pensare”; iniziano a parlare (generare) istantaneamente.

Il passaggio al “Pensiero Esteso”

La Modalità di pensiero cambia questo paradigma. Quando abilitata, Claude 4.5 genera un flusso nascosto di “token di pensiero” prima di emettere un singolo carattere visibile all’utente.

Ragionamento visibile (opzionale): In alcune interfacce come Claude.ai, puoi vedere un menu a discesa “Thinking” che mostra il monologo interno del modello.

Ragionamento nascosto (API): Nell’API, questi sono blocchi thinking distinti. Il modello usa questo spazio per:

Decomporre il prompt: Scomporre vincoli complessi.
Pianificare una strategia: Delineare la logica passo-passo.
Redigere e criticare: Provare mentalmente una soluzione, trovare un difetto e correggerlo prima di presentare la risposta.

Pensiero intercalato

Una grande innovazione di Sonnet 4.5 è il Pensiero intercalato. Nei workflow agentici (in cui l’AI usa strumenti come una calcolatrice, un interprete di codice o un browser web), i modelli standard chiamano uno strumento, ottengono un risultato e chiamano immediatamente lo strumento successivo.

Con il Pensiero intercalato, Claude 4.5 può:

Pensare alla richiesta dell’utente.
Chiamare lo Strumento A (ad es., cercare sul web).
Pensare ai risultati della ricerca (“Questo risultato è obsoleto, dovrei provare una query diversa”).
Chiamare lo Strumento B (ad es., cercare di nuovo).
Pensare a come sintetizzare i dati.
Risposta finale.

Questo ciclo “Pensare-Agire-Pensare-Agire” riduce drasticamente le allucinazioni e la propagazione degli errori in lunghi compiti di coding multi-step.

Come Claude Code rende visibile il pensiero negli strumenti per sviluppatori

In Claude Code (l’esperienza da CLI/editor), Anthropic ha aggiunto elementi UI per attivare/disattivare la modalità di pensiero nelle sessioni interattive (una UX comune è premere Tab per attivare/disattivare) e per mostrare indicatori per il budget di pensiero corrente. Alcune vecchie parole chiave di attivazione (ad es., think, think hard) erano usate storicamente per controllare la profondità del pensiero; le versioni moderne si basano su toggle espliciti e parametri di budget, con ultrathink che rimane disponibile in alcuni contesti. La configurazione può essere globale in ~/.claude/settings.json o sovrascritta per richiesta.

Come implementi la Modalità di pensiero di Claude 4.5?

Per gli sviluppatori, il passaggio a Claude 4.5 richiede un cambiamento nel modo in cui sono strutturate le richieste API. Non stai più solo inviando un prompt; stai gestendo un “Budget di pensiero”.

Impostazione del Budget di pensiero

Il parametro thinking è ora un elemento di prima classe nell’API di Anthropic. Devi abilitarlo esplicitamente e definire un valore budget_tokens. Questo valore rappresenta la quantità massima di calcolo che il modello può spendere per il suo ragionamento interno.

Esempio di implementazione in Python

Il seguente codice mostra come inizializzare una sessione Claude 4.5 con Pensiero Esteso abilitato.

import anthropic

# Inizializza la prospettiva Gemini Enterprise sull'integrazione con Claude 4.5
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # Impostiamo un max_tokens alto per ospitare sia il pensiero sia la risposta finale
    # I budget_tokens devono essere minori di max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocazione di 12k token per il 'pensiero'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Estrazione delle due parti distinte della risposta
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Esempio di query complessa
query = "Progetta un sistema di prove a conoscenza zero per un'app di voto decentralizzata usando Circom."
thoughts, answer = get_reasoned_response(query)

print("--- RAGIONAMENTO INTERNO DI CLAUDE ---")
print(thoughts)
print("\n--- ARCHITETTURA TECNICA FINALE ---")
print(answer)

Considerazioni tecniche chiave

Utilizzo totale di token: Il tuo uso totale è thinking_tokens + output_tokens. Se imposti un budget di 10.000 token e il modello ne usa 8.000 per il pensiero e 2.000 per la risposta, ti vengono addebitati 10.000 token di output.
Pensiero forzato: Se il compito è troppo semplice, il modello potrebbe comunque usare un numero minimo di token di pensiero per verificare la semplicità della richiesta.

In che modo la Modalità di pensiero migliora la generazione di codice?

Uno degli aggiornamenti più significativi in Claude 4.5 è la sua performance nella CLI di Claude Code. Quando Claude 4.5 “pensa” al codice, esegue diverse azioni nascoste che i modelli standard trascurano.

1. Mappatura delle dipendenze

Prima di scrivere una singola riga di una correzione, Claude 4.5 traversa il tuo repository per capire come una modifica in utils/auth.ts potrebbe rompere un componente in views/Profile.tsx.

2. Esecuzione mentale

Il modello “esegue” il codice nel suo blocco di ragionamento. Simula il flusso logico e identifica potenziali condizioni di gara o errori off-by-one.

3. Verifica dei vincoli

Se chiedi una soluzione che sia “performante e non usi librerie esterne”, la modalità di pensiero agisce come gatekeeper. Se il primo istinto del modello è suggerire un pacchetto NPM, il processo di pensiero intercetterà quella violazione e costringerà il modello a ripensare una implementazione in JavaScript puro.

Come si confronta la Modalità di pensiero con il prompting tradizionale?

Molti utenti conoscono il prompting “Chain of Thought” (CoT), in cui dici al modello: “Pensa passo-passo”. Sebbene efficace, non è la stessa cosa della Modalità di pensiero nativa di Claude 4.5.

Caratteristica	Chain of Thought (manuale)	Pensiero Esteso (nativo)
Meccanismo	Istruzioni sollecitate dall’utente.	Architettura del modello integrata.
Spazio di token	Occupa lo spazio dell’output visibile.	Occupa un blocco interno dedicato.
Autocorrezione	Limitata; il modello spesso “insiste” sugli errori iniziali.	Elevata; il modello può scartare un intero percorso di ragionamento e ricominciare.
Affidabilità	Variabile in base alla qualità del prompt.	Costantemente alta in domini complessi.
Gestione via API	Richiede il parsing manuale del testo.	Blocchi JSON strutturati per “thinking” e “text”.

Come funziona la modalità di pensiero in Claude 4.5?

Flusso interno (concettuale)

Richiesta utente: La tua applicazione invia una richiesta Messages API specificando modello, prompt, max_tokens e opzionalmente thinking: { type: "enabled", budget_tokens: N }.
Ragionamento interno: Claude esegue il “pensiero” interno fino al budget. Registra l’output di ragionamento come blocchi thinking (che possono essere riassunti per l’utente).
Composizione dell’output: L’API restituisce un array di blocchi di contenuto. Tipicamente l’ordine è blocco/i di thinking poi blocco/i di text (risposta finale). Se in streaming, ricevi eventi thinking_delta seguiti da eventi text_delta.
Preservazione del contesto: Quando usi strumenti o flussi multi-turno puoi reinviare i blocchi di pensiero precedenti (non modificati) così che Claude possa continuare la catena di pensiero. Opus 4.5 ha introdotto un comportamento per preservare i blocchi di pensiero di default per cache/efficienza.

Tecnicamente, la Modalità di pensiero si basa su una specifica configurazione di parametri API che alloca un “Budget” di token per il ragionamento.

Il concetto di Budget di token

Quando effettui una richiesta a Claude 4.5, devi specificare un parametro budget_tokens. Questo è il numero massimo di token che il modello può utilizzare per il suo monologo interno.

Budget basso (<2.000 token): Utile per rapidi sanity check o semplici rompicapi logici.
Budget alto (10.000+ token): Richiesto per architetture software complesse, dimostrazioni matematiche o la redazione di pareri legali completi.

Il modello è addestrato a “gestire” questo budget. Se percepisce che sta esaurendo il budget, tenterà di concludere il ragionamento e fornire la migliore risposta possibile.

Il ciclo del “Processo di pensiero”

Quando un utente chiede: "Scrivi uno script Python per effettuare scraping di questo sito, assicurandoti però di rispettare robots.txt e gestire il caricamento dinamico."

Acquisizione: Claude legge il prompt.
Fase di pensiero (nascosta):
- Auto-correzione: “Devo usare Selenium o Playwright per il caricamento dinamico. requests non funzionerà.”
- Controllo di sicurezza: “Devo verificare che l’utente abbia il permesso per fare scraping. Aggiungerò un disclaimer.”
- Architettura: “Strutturerò il codice con un approccio basato su classi per la modularità.”
Fase di output (visibile): Claude genera il codice Python.

Nei modelli precedenti, l’AI avrebbe potuto iniziare subito a scrivere codice con requests, rendersi conto a metà che non funziona per contenuti dinamici e poi o inventare una soluzione o fornire codice non funzionante. La modalità di pensiero evita questo scenario da “vicolo cieco”.

Quando dovresti abilitare la modalità di pensiero — casi d’uso ed euristiche?

Casi d’uso che ne traggono maggior beneficio

Coding complesso (cambiamenti architetturali, refactoring multi-file, lunghe sessioni di debug). Sonnet 4.5 è esplicitamente posizionato come leader nel coding e nei compiti agentici quando il pensiero è abilitato.
Workflow agentici che usano strumenti ripetutamente e devono preservare il contesto interno attraverso molti passaggi. Il pensiero intercalato + uso di strumenti è uno scenario primario.
Ricerca o analisi approfondita (analisi statistiche, strutturazione finanziaria, ragionamento legale) in cui è utile ispezionare o verificare i passaggi intermedi di ragionamento.

Quando non abilitarla

Generazione di risposte brevi o API ad alta produttività e bassa latenza dove la latenza minima è critica (ad es., interfacce chat che richiedono risposte in millisecondi).
Attività in cui il costo in token per richiesta deve essere minimizzato e il compito è semplice o ben specificato.

Euristica pratica

Inizia con il budget di pensiero minimo (≈1.024 token) e aumentalo progressivamente per i compiti che necessitano di maggiore profondità; valuta con benchmark l’accuratezza end-to-end rispetto a latenza e token. Per attività agentiche multi-step, sperimenta con pensiero intercalato e breakpoint del prompt in cache per trovare il giusto equilibrio.

Conclusioni

La Modalità di pensiero di Claude 4.5 è più di una semplice funzione; è un nuovo modo di interagire con l’intelligenza artificiale. Separando il processo di pensiero dal prodotto del pensiero, Anthropic ha fornito uno strumento più affidabile, più trasparente e più capace di gestire le complessità del lavoro enterprise moderno.

Che tu stia usando la CLI di Claude Code per gestire una migrazione massiva o l’API per costruire la prossima generazione di agenti autonomi, padroneggiare il “Budget di pensiero” è la chiave del successo.

Gli sviluppatori possono accedere al modello Claude 4.5 tramite CometAPI. Per iniziare, esplora le capacità del modello di CometAPI nel Playground e consulta la guida all’API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo di gran lunga inferiore a quello ufficiale per aiutarti nell’integrazione.

Pronto a iniziare?→ Prova gratuita di Claude 4.5!