Modalità di ragionamento in Claude 4.5: tutto ciò che c'è da sapere

CometAPI
AnnaDec 30, 2025
Modalità di ragionamento in Claude 4.5: tutto ciò che c'è da sapere

La famiglia Claude 4.5 di Anthropic (in particolare Sonnet 4.5 e Opus 4.5) introduce un “pensiero” esteso/ragionamento interno in stile scratchpad nella linea Claude 4. La Messages API espone tale capacità tramite un oggetto thinking (abilita/disabilita + una quota budget_tokens), opzioni di streaming e gestione speciale per i blocchi di contenuto di “pensiero” (incluse firme e oscuramento). Sonnet 4.5 è orientato a coding e attività agentiche e trae grande beneficio dal pensiero esteso; Opus 4.5 aggiunge il mantenimento dei blocchi di pensiero e altre ottimizzazioni.

Che cos’è Claude 4.5?

Claude 4.5 (pubblicato nella famiglia di modelli Claude come varianti Sonnet 4.5 e Opus 4.5) è l’ultima generazione di large language model dell’azienda, ottimizzati per un ragionamento più profondo, contesti di lungo orizzonte e coding/flow agentici di qualità produttiva. Negli annunci e nelle pagine prodotto di Anthropic, Sonnet 4.5 è descritto come un grande passo avanti per il coding, la costruzione di agenti e “l’uso del computer” (ovvero workflow assistiti da strumenti e automazioni multi-step), con miglioramenti misurabili in ragionamento, matematica e compiti a lungo contesto.

La gamma 4.5

  • Claude Sonnet 4.5 (Rilasciato il 29 set 2025): Il “mulo da lavoro” della famiglia. Attualmente è valutato come il miglior modello di coding al mondo, capace di mantenere la concentrazione su attività autonome per oltre 30 ore. Bilancia velocità, costo e ragionamento di alto livello, rendendolo la scelta predefinita per la maggior parte delle applicazioni enterprise.
  • Claude Haiku 4.5 (Rilasciato il 15 ott 2025): Il modello ottimizzato per la velocità. Sorprendentemente, ora supporta il Pensiero Esteso, diventando il primo modello “piccolo” a offrire capacità di ragionamento profondo prima riservate ai modelli all’avanguardia. Ideale per attività ad alta frequenza in cui la latenza conta ma non si può sacrificare l’accuratezza.
  • Claude Opus 4.5 (Rilasciato il 24 nov 2025): Il modello di intelligenza di frontiera. Opus 4.5 è progettato per i compiti più complessi e ambigui—come ricerca scientifica, progettazione di nuove architetture e analisi finanziaria ad alto rischio. Ha la capacità di “budget di pensiero” più elevata ed eccelle nell’autocorrezione.

Capacità chiave in sintesi

  • Finestre di contesto utilizzabili più ampie e comportamento migliorato in attività di lunga durata (workflow di agenti, debug passo-passo, modifiche a codebase).
  • Prestazioni migliori in benchmark di coding, refactoring e compiti multi-step con uso di strumenti (famiglie Sonnet e Opus).
  • Funzionalità avanzate di “pensiero” (ciò che Anthropic chiama pensiero esteso/modalità di pensiero) che espongono—facoltativamente—parte del ragionamento interno passo-passo dello stesso modello allo sviluppatore o consentono al modello di spendere un “budget” configurabile di token per ragionare prima di produrre la risposta finale.

Dove puoi eseguire Claude 4.5

Claude 4.5 (Sonnet/Opus) è disponibile tramite l’API di Anthropic ed è stato integrato in CometAPI(Il pricing API è attualmente in offerta, circa il 20% del prezzo di Anthropic. ), quindi puoi eseguire questi modelli sulla piattaforma Anthropic o tramite vendor cloud di terze parti che ospitano il modello.

Che cos’è la nuova modalità THINKING in Claude Code e Claude 4.5?

Il “pensiero esteso” di Anthropic (alias “modalità di pensiero”, “blocchi di pensiero” o “thinking tokens”) è una funzionalità che consente al modello di eseguire ulteriori passaggi di campionamento interni per ragionare in modo più approfondito prima di produrre la risposta finale. La abiliti aggiungendo una configurazione thinking alla tua richiesta Messages API (per esempio: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) o usando helper dell’SDK di Anthropic. Quando abilitata, l’API (a seconda del modello) restituirà una versione riassunta del ragionamento interno oppure il ragionamento completo (soggetto a oscuramento per motivi di sicurezza).

Per capire perché la “Modalità di pensiero” è rivoluzionaria, dobbiamo guardare a come operano tradizionalmente i Large Language Model (LLM). I modelli standard sono “generatori di testo probabilistici”—predicono il token successivo subito dopo aver ricevuto un prompt. Non “si fermano a pensare”; iniziano a parlare (generare) istantaneamente.

Il passaggio al “Pensiero Esteso”

La Modalità di pensiero cambia questo paradigma. Quando abilitata, Claude 4.5 genera un flusso nascosto di “thinking tokens” prima di emettere un singolo carattere visibile all’utente.

Ragionamento visibile (opzionale): In alcune interfacce come Claude.ai, puoi vedere un menu a discesa “Thinking” che mostra il monologo interno del modello.

Ragionamento nascosto (API): Nell’API, questi sono blocchi thinking distinti. Il modello usa questo spazio per:

  • Decomporre il prompt: Scomporre vincoli complessi.
  • Pianificare una strategia: Delineare la logica passo-passo.
  • Abbozzare e criticare: Provare mentalmente una soluzione, trovare un difetto e correggerla prima di presentare la risposta.

Pensiero intercalato

Una grande innovazione in Sonnet 4.5 è il Pensiero intercalato. Nei workflow agentici (dove l’AI usa strumenti come una calcolatrice, un interprete di codice o un browser), i modelli standard chiamerebbero uno strumento, otterrebbero un risultato e chiamerebbero immediatamente lo strumento successivo.

Con il Pensiero intercalato, Claude 4.5 può:

  1. Pensare alla richiesta dell’utente.
  2. Chiamare lo Strumento A (es. Cercare sul web).
  3. Pensare ai risultati della ricerca (“Questo risultato è obsoleto, dovrei provare una query diversa”).
  4. Chiamare lo Strumento B (es. Cercare di nuovo).
  5. Pensare a come sintetizzare i dati.
  6. Risposta finale.

Questo ciclo “Pensa-Agisci-Pensa-Agisci” riduce drasticamente le allucinazioni e la propagazione degli errori in lunghi compiti di coding multi-step.

Come Claude Code rende visibile il pensiero negli strumenti per sviluppatori

In Claude Code (l’esperienza CLI/editor), Anthropic ha aggiunto elementi UI per attivare la modalità di pensiero nelle sessioni interattive (una UX comune è premere Tab per attivare/disattivare il pensiero) e per mostrare indicatori del budget di pensiero corrente. Alcune vecchie parole chiave di attivazione (ad esempio, think, think hard) erano usate storicamente per controllare la profondità del pensiero; le versioni moderne si basano su toggle espliciti e parametri di budget, con ultrathink ancora disponibile in alcuni contesti. La configurazione può essere globale in ~/.claude/settings.json o sovrascritta per richiesta.

Come implementi la Modalità di pensiero di Claude 4.5?

Per gli sviluppatori, il passaggio a Claude 4.5 richiede un cambiamento nel modo in cui sono strutturate le richieste API. Non stai più inviando solo un prompt; stai gestendo un “Budget di pensiero”.

Impostazione del Budget di pensiero

Il parametro thinking è ora un elemento di prima classe nell’API Anthropic. Devi abilitarlo esplicitamente e definire un valore budget_tokens. Questo valore rappresenta la quantità massima di compute che il modello può spendere per il suo ragionamento interno.

Esempio di implementazione in Python

Il seguente codice mostra come inizializzare una sessione Claude 4.5 con il Pensiero Esteso abilitato.

import anthropic

# Inizializza la prospettiva di integrazione di Gemini Enterprise su Claude 4.5
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # Impostiamo un max_tokens alto per accogliere sia il pensiero sia la risposta finale
    # budget_tokens deve essere inferiore a max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocazione di 12k token per il 'pensiero'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Estrazione delle due parti distinte della risposta
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Esempio di query complessa
query = "Progetta un sistema di prove a conoscenza zero per un'app di voto decentralizzata usando Circom."
thoughts, answer = get_reasoned_response(query)

print("--- RAGIONAMENTO INTERNO DI CLAUDE ---")
print(thoughts)
print("\n--- ARCHITETTURA TECNICA FINALE ---")
print(answer)

Considerazioni tecniche chiave

  • Utilizzo totale di token: Il tuo utilizzo totale è thinking_tokens + output_tokens. Se imposti un budget di 10,000 token e il modello ne usa 8,000 per il pensiero e 2,000 per la risposta, ti verranno addebitati 10,000 token di output.
  • Pensiero forzato: Se il compito è troppo semplice, il modello potrebbe comunque usare un numero minimo di token di pensiero per verificare la semplicità della richiesta.

In che modo la Modalità di pensiero migliora la generazione di codice?

Uno degli aggiornamenti più significativi in Claude 4.5 è la sua performance nella CLI di Claude Code. Quando Claude 4.5 “pensa” al codice, esegue diverse azioni nascoste che i modelli standard trascurano.

1. Mappatura delle dipendenze

Prima di scrivere una sola riga di correzione, Claude 4.5 attraversa il tuo repository per capire come una modifica in utils/auth.ts potrebbe rompere un componente in views/Profile.tsx.

2. Esecuzione mentale

Il modello “esegue” il codice nel suo blocco di ragionamento. Simula il flusso logico e identifica potenziali condizioni di race o errori di off-by-one.

3. Verifica dei vincoli

Se chiedi una soluzione “performante e senza librerie esterne”, la modalità di pensiero funge da guardiano. Se il primo istinto del modello è suggerire un pacchetto NPM, il processo di pensiero rileverà la violazione e costringerà il modello a ripensare un’implementazione in vanilla JavaScript.

Come si confronta la Modalità di pensiero con il prompting tradizionale?

Molti utenti conoscono il “Chain of Thought” (CoT), in cui dici al modello: “Pensa passo-passo.” Pur efficace, non è lo stesso della Modalità di pensiero nativa di Claude 4.5.

FeatureChain of Thought (Manuale)Pensiero esteso (Nativo)
MeccanismoIstruzioni fornite dall’utente.Architettura integrata nel modello.
Spazio di tokenOccupa lo spazio di output visibile.Occupa un blocco interno dedicato.
AutocorrezioneLimitata; il modello spesso “insiste” sugli errori iniziali.Elevata; il modello può scartare un intero percorso e ricominciare.
AffidabilitàVariabile in base alla qualità del prompt.Costantemente alta in domini complessi.
Gestione APIRichiede parsing manuale del testo.Blocchi JSON strutturati per “thinking” e “text”.

Come funziona la modalità di pensiero in Claude 4.5?

Flusso di lavoro interno (concettuale)

  1. Richiesta dell’utente: La tua applicazione invia una richiesta Messages API specificando modello, prompt, max_tokens e facoltativamente thinking: { type: "enabled", budget_tokens: N }.
  2. Ragionamento interno: Claude esegue il “pensiero” interno fino al budget. Registra l’output del ragionamento come blocchi thinking (che possono essere riassunti per l’utente).
  3. Composizione dell’output: L’API restituisce un array di blocchi di contenuto. Tipicamente l’ordine è blocco/i di thinking quindi blocco/i di text (risposta finale). Se in streaming, ricevi eventi thinking_delta seguiti da eventi text_delta.
  4. Conservazione del contesto: Quando usi strumenti o flussi multi-turn puoi rinviare i blocchi di pensiero precedenti (immutati) così che Claude possa continuare la catena di pensiero. Opus 4.5 ha introdotto un comportamento per preservare i blocchi di pensiero per impostazione predefinita per cache/efficienza.

Tecnicamente, la Modalità di pensiero si basa su una configurazione di parametri API specifica che assegna un “Budget” di token per il ragionamento.

Il concetto di Budget di token

Quando effettui una richiesta a Claude 4.5, devi specificare un parametro budget_tokens. Questo è il numero massimo di token che il modello può usare per il suo monologo interno.

  • Budget basso (<2,000 token): Buono per controlli rapidi o semplici rompicapo logici.
  • Budget alto (10,000+ token): Necessario per architetture software complesse, dimostrazioni matematiche o la redazione di pareri legali completi.

Il modello è addestrato a “gestire” questo budget. Se percepisce che sta esaurendo il budget, cercherà di concludere il ragionamento e fornire la migliore risposta possibile.

Il ciclo del “Processo di pensiero”

Quando un utente chiede: “Scrivi uno script Python per effettuare lo scraping di questo sito, assicurandoti di rispettare robots.txt e gestire il caricamento dinamico.”

  1. Ingestione: Claude legge il prompt.
  2. Fase di pensiero (nascosta):
    • Autocorrezione: “Devo usare Selenium o Playwright per il caricamento dinamico. requests non funzionerà.”
    • Controllo di sicurezza: “Devo verificare che l’utente abbia il permesso di fare scraping. Aggiungerò un disclaimer.”
    • Architettura: “Strutturerò il codice con un approccio basato su classi per la modularità.”
  3. Fase di output (visibile): Claude genera il codice Python.

Nei modelli precedenti, l’AI avrebbe potuto iniziare subito a scrivere codice con requests, rendersi conto a metà che non avrebbe funzionato per contenuti dinamici e poi o allucinare una soluzione o produrre codice rotto. La modalità di pensiero previene questo scenario da “vicolo cieco”.

Quando dovresti abilitare la Modalità di pensiero — casi d’uso ed euristiche?

Casi d’uso che traggono maggior beneficio

  • Coding complesso (cambi architetturali, refactor multi-file, lunghe sessioni di debug). Sonnet 4.5 è esplicitamente posizionato come leader in coding e agenti quando il pensiero è attivo.
  • Workflow agentici che usano strumenti ripetutamente e devono preservare il contesto interno su molti passaggi. Pensiero intercalato + uso di strumenti è lo scenario primario.
  • Ricerca o analisi approfondite (analisi statistiche, strutturazione finanziaria, ragionamento legale) in cui i passaggi intermedi di ragionamento sono utili da ispezionare o verificare.

Quando non abilitarla

  • Generazione di risposte brevi o API ad alto throughput e bassa latenza dove la latenza minima è critica (ad es., interfacce chat che richiedono risposte in millisecondi).
  • Attività in cui il costo in token per richiesta deve essere minimizzato e il compito è semplice o ben specificato.

Euristica pratica

Inizia con il budget di pensiero minimo (≈1,024 token) e aumentalo progressivamente per i compiti che richiedono maggiore profondità; misura l’accuratezza end-to-end rispetto a latenza e token. Per i task agentici multi-step, sperimenta con pensiero intercalato e breakpoint di prompt in cache per trovare il punto di equilibrio.

Conclusione

La Modalità di pensiero di Claude 4.5 è più di una semplice funzionalità; è un nuovo modo di interagire con l’intelligenza artificiale. Separando il processo di pensiero dal prodotto del pensiero, Anthropic ha fornito uno strumento più affidabile, più trasparente e più capace di gestire le complessità del lavoro enterprise moderno.

Che tu stia usando la CLI di Claude Code per gestire una migrazione massiva o stia utilizzando l’API per costruire la prossima generazione di agenti autonomi, padroneggiare il “Budget di pensiero” è la chiave del successo.

Gli sviluppatori possono accedere al modello Claude 4.5 tramite CometAPI. Per iniziare, esplora le capacità del modello di CometAPI nel Playground e consulta la guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e ottenuto la chiave API. CometAPI offre un prezzo molto inferiore al prezzo ufficiale per aiutarti nell’integrazione.

Pronti a iniziare?→ Prova gratuita di Claude 4.5!

Leggi di più

500+ Modelli in Una API

Fino al 20% di sconto