Modo de raciocínio no Claude 4.5: tudo o que você precisa saber

A família Claude 4.5 da Anthropic (notavelmente Sonnet 4.5 e Opus 4.5) traz “thinking” estendido / raciocínio interno em estilo scratchpad para a linha Claude 4. A API de Messages expõe essa capacidade por meio de um objeto thinking (habilitar/desabilitar + uma cota de budget_tokens), opções de streaming e tratamento especial para blocos de conteúdo de “thinking” (incluindo assinaturas e redação). O Sonnet 4.5 é voltado para tarefas de programação e agentic workflows e se beneficia fortemente do thinking estendido; o Opus 4.5 adiciona blocos de thinking preservados e outras otimizações.

O que é o Claude 4.5?

Claude 4.5 (publicado na família de modelos Claude da Anthropic nas variantes Sonnet 4.5 e Opus 4.5) é a mais recente geração de grandes modelos de linguagem da empresa, ajustada para raciocínio mais profundo, contexto de longo prazo e workflows de programação / agentes com qualidade de produção. Nos anúncios e páginas de produto da Anthropic, o Sonnet 4.5 é descrito como um grande avanço para programação, construção de agentes e “uso de computadores” (isto é, workflows assistidos por ferramentas e automação em múltiplas etapas), com ganhos mensuráveis em raciocínio, matemática e tarefas de contexto longo.

A linha da família 4.5

Claude Sonnet 4.5 (Lançado em 29 de setembro de 2025): O "carro-chefe" da família. Atualmente é classificado como o melhor modelo de programação do mundo, capaz de manter o foco em tarefas autônomas por mais de 30 horas. Equilibra velocidade, custo e raciocínio de alto nível, tornando-se a escolha padrão para a maioria das aplicações empresariais.
Claude Haiku 4.5 (Lançado em 15 de outubro de 2025): O modelo otimizado para velocidade. Surpreendentemente, agora ele suporta Extended Thinking, tornando-se o primeiro modelo "pequeno" a oferecer capacidades de raciocínio profundo antes reservadas a modelos de fronteira. É ideal para tarefas de alta frequência em que a latência importa, mas a precisão não pode ser sacrificada.
Claude Opus 4.5 (Lançado em 24 de novembro de 2025): O modelo de inteligência de fronteira. O Opus 4.5 foi projetado para as tarefas mais complexas e ambíguas — como pesquisa científica, design de arquitetura inédita e análise financeira de alto risco. Possui a maior capacidade de "thinking budget" e se destaca em autocorreção.

Principais capacidades em resumo

Janelas de contexto utilizáveis maiores e comportamento aprimorado em tarefas de longa duração (workflows de agentes, depuração passo a passo, edições em codebases).
Melhor desempenho em benchmarks de programação, refatoração e tarefas com múltiplas etapas usando ferramentas (famílias Sonnet e Opus).
Recursos avançados de “thinking” (o que a Anthropic chama de extended thinking / thinking mode) que expõem — opcionalmente — parte do raciocínio interno passo a passo do modelo ao desenvolvedor ou permitem que o modelo gaste um “budget” configurável de tokens raciocinando antes de produzir uma resposta final.

Onde você pode executar o Claude 4.5

Claude 4.5 (Sonnet/Opus) está disponível pela própria API da Anthropic e foi integrado ao CometAPI(o preço da API está atualmente em promoção, aproximadamente 20% do preço da Anthropic), portanto você pode executar esses modelos pela plataforma da Anthropic ou por fornecedores de nuvem terceirizados que hospedam o modelo.

O que há de novo no modo THINKING no Claude Code e no Claude 4.5?

O extended thinking da Anthropic (também conhecido como “thinking mode”, “thinking blocks” ou “thinking tokens”) é um recurso que permite ao modelo realizar etapas adicionais de amostragem interna para raciocinar com mais profundidade antes de produzir uma resposta final. Você o habilita adicionando uma configuração thinking à sua requisição da API de Messages (por exemplo: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) ou usando helpers do SDK da Anthropic. Quando habilitado, a API irá (dependendo do modelo) retornar uma versão resumida do raciocínio interno ou o raciocínio completo (sujeito a redação por segurança).

Para entender por que o "Thinking Mode" é revolucionário, precisamos observar como os Large Language Models (LLMs) tradicionalmente operam. Modelos padrão são "geradores probabilísticos de texto" — eles preveem o próximo token imediatamente após receber um prompt. Eles não "param para pensar"; começam a falar (gerar) instantaneamente.

A mudança para "Extended Thinking"

Thinking Mode muda esse paradigma. Quando habilitado, o Claude 4.5 gera um fluxo oculto de "thinking tokens" antes de emitir um único caractere visível ao usuário.

Raciocínio visível (opcional): Em algumas interfaces como Claude.ai, você pode ver um menu suspenso "Thinking" que mostra o monólogo interno do modelo.

Raciocínio oculto (API): Na API, esses são blocos thinking distintos. O modelo usa esse espaço para:

Decompor o prompt: Dividir restrições complexas.
Planejar uma estratégia: Estruturar uma lógica passo a passo.
Rascunhar e criticar: Testar mentalmente uma solução, encontrar uma falha e corrigi-la antes de apresentar a resposta.

Interleaved Thinking

Uma grande inovação no Sonnet 4.5 é o Interleaved Thinking. Em agentic workflows (nos quais a IA usa ferramentas como uma calculadora, um interpretador de código ou um navegador web), modelos padrão simplesmente chamariam uma ferramenta, obteriam um resultado e imediatamente chamariam a próxima ferramenta.

Com Interleaved Thinking, o Claude 4.5 pode:

Pensar sobre a solicitação do usuário.
Chamar a Ferramenta A (por exemplo, pesquisar na web).
Pensar sobre os resultados da pesquisa ("Este resultado está desatualizado, devo tentar uma consulta diferente").
Chamar a Ferramenta B (por exemplo, pesquisar novamente).
Pensar sobre como sintetizar os dados.
Resposta final.

Esse loop "Think-Act-Think-Act" reduz drasticamente alucinações e propagação de erros em tarefas longas de programação em múltiplas etapas.

Como o Claude Code apresenta o thinking nas ferramentas de desenvolvedor

No Claude Code (a experiência de CLI / editor), a Anthropic adicionou elementos de interface para alternar o thinking mode em sessões interativas (uma UX comum é pressionar Tab para ativar/desativar o thinking) e mostrar indicadores do thinking budget atual. Algumas palavras-chave de ativação mais antigas (por exemplo, think, think hard) foram historicamente usadas para controlar a profundidade do thinking; versões modernas dependem de alternâncias explícitas e parâmetros de budget, com ultrathink ainda disponível em alguns contextos. A configuração pode ser global em ~/.claude/settings.json ou sobrescrita por requisição.

Como implementar o Thinking Mode do Claude 4.5?

Para desenvolvedores, a transição para o Claude 4.5 exige uma mudança na forma como as requisições da API são estruturadas. Você não está mais apenas enviando um prompt; está gerenciando um "Thinking Budget".

Definindo o Thinking Budget

O parâmetro thinking agora é um elemento de primeira classe na API da Anthropic. Você deve habilitá-lo explicitamente e definir um valor para budget_tokens. Esse valor representa a quantidade máxima de computação que o modelo pode gastar com seu raciocínio interno.

Exemplo de implementação em Python

O código a seguir demonstra como inicializar uma sessão do Claude 4.5 com Extended Thinking habilitado.

import anthropic

# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # We set a high max_tokens to accommodate both thinking and the final answer
    # The budget_tokens must be less than max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocating 12k tokens for 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extracting the two distinct parts of the response
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)

Principais considerações técnicas

Uso total de tokens: Seu uso total é thinking_tokens + output_tokens. Se você definir um budget de 10.000 tokens e o modelo usar 8.000 para thinking e 2.000 para a resposta, você será cobrado por 10.000 tokens de saída.
Thinking forçado: Se a tarefa for simples demais, o modelo ainda pode usar um número mínimo de thinking tokens para verificar a simplicidade da solicitação.

Como o Thinking Mode melhora a geração de código?

Uma das atualizações mais significativas no Claude 4.5 é seu desempenho na CLI Claude Code. Quando o Claude 4.5 "pensa" sobre código, ele executa várias ações ocultas que modelos padrão deixam passar.

1. Mapeamento de dependências

Antes de escrever uma única linha de correção, o Claude 4.5 percorre seu repositório para entender como uma mudança em utils/auth.ts pode quebrar um componente em views/Profile.tsx.

2. Execução mental

O modelo "executa" o código em seu bloco de raciocínio. Ele simula o fluxo lógico e identifica possíveis condições de corrida ou erros de off-by-one.

3. Verificação de restrições

Se você pedir uma solução que seja "performática e não use bibliotecas externas", o thinking mode atua como um guardião. Se o primeiro instinto do modelo for sugerir um pacote NPM, o processo de thinking captará essa violação e forçará o modelo a reconsiderar uma implementação em JavaScript puro.

Como o Thinking Mode se compara ao prompting tradicional?

Muitos usuários estão familiarizados com o prompting "Chain of Thought" (CoT), em que você diz ao modelo: "Pense passo a passo." Embora eficaz, isso não é o mesmo que o Thinking Mode nativo do Claude 4.5.

Recurso	Chain of Thought (Manual)	Extended Thinking (Nativo)
Mecanismo	Instruções dadas pelo usuário.	Arquitetura embutida do modelo.
Espaço de tokens	Ocupa espaço visível da saída.	Ocupa um bloco interno dedicado.
Autocorreção	Limitada; o modelo frequentemente "insiste" em erros iniciais.	Alta; o modelo pode descartar um caminho inteiro de raciocínio e recomeçar.
Confiabilidade	Variável com base na qualidade do prompt.	Consistentemente alta em domínios complexos.
Tratamento na API	Requer parsing manual do texto.	Blocos JSON estruturados para "thinking" e "text".

Como o thinking mode funciona no Claude 4.5?

Workflow interno (conceitual)

Solicitação do usuário: Sua aplicação envia uma requisição à API de Messages especificando modelo, prompt, max_tokens e, opcionalmente, thinking: { type: "enabled", budget_tokens: N }.
Raciocínio interno: Claude realiza o “thinking” interno até o budget. Ele registra a saída do raciocínio como blocos thinking (que podem ser resumidos para o usuário).
Composição da saída: A API retorna um array de blocos de conteúdo. Normalmente, a ordem é bloco(s) thinking seguido(s) por bloco(s) text (resposta final). Se houver streaming, você recebe eventos thinking_delta seguidos por eventos text_delta.
Preservação de contexto: Ao usar ferramentas ou fluxos multi-turn, você pode reenviar blocos de thinking anteriores (sem modificações) para que Claude continue a cadeia de raciocínio. O Opus 4.5 introduziu um comportamento para preservar blocos de thinking por padrão para cache/eficiência.

Tecnicamente, o Thinking Mode depende de uma configuração específica de parâmetros da API que aloca um "Budget" de tokens para raciocínio.

O conceito de budget de tokens

Quando você faz uma requisição ao Claude 4.5, deve especificar um parâmetro budget_tokens. Esse é o número máximo de tokens que o modelo tem permissão para usar em seu monólogo interno.

Budget baixo (<2.000 tokens): Bom para verificações rápidas de sanidade ou quebra-cabeças lógicos simples.
Budget alto (10.000+ tokens): Necessário para arquitetura de software complexa, provas matemáticas ou redação de pareceres jurídicos abrangentes.

O modelo é treinado para "gerenciar" esse budget. Se perceber que está ficando sem budget, tentará encerrar seu raciocínio e fornecer a melhor resposta possível.

O ciclo de vida do "Thinking Process"

Quando um usuário pergunta: "Escreva um script Python para extrair dados deste site, mas garanta que ele respeite robots.txt e lide com carregamento dinâmico."

Ingestão: Claude lê o prompt.
Fase de thinking (oculta):
- Autocorreção: "Preciso usar Selenium ou Playwright para carregamento dinâmico. requests não vai funcionar."
- Verificação de segurança: "Preciso verificar se o usuário tem permissão para extrair dados. Vou adicionar um aviso."
- Arquitetura: "Vou estruturar o código com uma abordagem baseada em classes para modularidade."
Fase de saída (visível): Claude gera o código Python.

Em modelos anteriores, a IA poderia ter começado a escrever o código com requests imediatamente, perceber no meio do caminho que isso não funcionaria para conteúdo dinâmico e então alucinar uma solução ou fornecer código quebrado. O thinking mode evita esse cenário de "encurralamento".

Quando você deve habilitar o thinking mode — casos de uso e heurísticas?

Casos de uso que mais se beneficiam

Programação complexa (mudanças arquiteturais, refatorações multiarquivo, longas sessões de depuração). O Sonnet 4.5 é explicitamente posicionado como líder em programação e workflows agentic quando o thinking é usado.
Agentic workflows que usam ferramentas repetidamente e precisam preservar contexto interno ao longo de muitas etapas. Interleaved thinking + uso de ferramentas é um cenário principal.
Pesquisa ou análise profunda (análise estatística, estruturação financeira, raciocínio jurídico) em que etapas intermediárias de raciocínio sejam valiosas para inspeção ou verificação.

Quando não habilitá-lo

Geração de respostas curtas ou APIs de alto throughput e baixa latência, em que latência mínima é crítica (por exemplo, UIs de chat que exigem respostas em nível de milissegundos).
Tarefas em que o custo de tokens por requisição deve ser minimizado e a tarefa é simples ou bem especificada.

Heurística prática

Comece com o budget mínimo de thinking (≈1.024 tokens) e aumente progressivamente para tarefas que precisem de mais profundidade; compare a precisão da tarefa de ponta a ponta com latência e número de tokens. Para tarefas de agentes em múltiplas etapas, experimente interleaved thinking e breakpoints de prompt em cache para encontrar um ponto ideal.

Conclusão

O Thinking Mode do Claude 4.5 é mais do que apenas um recurso; é uma nova forma de interagir com a inteligência artificial. Ao separar o processo de pensamento do produto do pensamento, a Anthropic forneceu uma ferramenta mais confiável, mais transparente e mais capaz de lidar com as complexidades do trabalho empresarial moderno.

Seja usando a CLI Claude Code para gerenciar uma grande migração ou utilizando a API para construir a próxima geração de agentes autônomos, dominar o "Thinking Budget" é a chave para o sucesso.

Desenvolvedores podem acessar o modelo Claude 4.5 por meio da CometAPI. Para começar, explore os recursos do modelo da CometAPI no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave de API. A CometAPI oferece um preço muito inferior ao preço oficial para ajudar você na integração.

Pronto para começar?→ Teste gratuito do Claude 4.5!