Modo de raciocínio no Claude 4.5: Tudo o que você precisa saber

CometAPI
AnnaDec 30, 2025
Modo de raciocínio no Claude 4.5: Tudo o que você precisa saber

A família Claude 4.5 da Anthropic (notadamente Sonnet 4.5 e Opus 4.5) traz “pensamento” estendido / raciocínio interno em estilo bloco de notas para a linha Claude 4. A Messages API expõe esse recurso por meio de um objeto thinking (habilitar/desabilitar + uma alocação de budget_tokens), opções de streaming e tratamento especial para blocos de conteúdo de “pensamento” (incluindo assinaturas e redação). O Sonnet 4.5 tem como alvo tarefas de codificação e de agentes e se beneficia fortemente do pensamento estendido; o Opus 4.5 adiciona blocos de pensamento preservados e outras otimizações.

O que é o Claude 4.5?

Claude 4.5 (publicado na família de modelos Claude como as variantes Sonnet 4.5 e Opus 4.5) é a geração mais recente de modelos de linguagem de grande porte da empresa, ajustada para raciocínio mais profundo, contexto de longo prazo e fluxos de trabalho de codificação/agentes com qualidade de produção. Nos anúncios e páginas de produto da Anthropic, o Sonnet 4.5 é descrito como um grande avanço para codificação, construção de agentes e “usar computadores” (isto é, fluxos de trabalho assistidos por ferramentas e automação em múltiplas etapas), com ganhos mensuráveis em raciocínio, matemática e tarefas de longo contexto.

A linha 4.5

  • Claude Sonnet 4.5 (Lançado em 29 de setembro de 2025): O “carro-chefe” da família. Atualmente é classificado como o melhor modelo de codificação do mundo, capaz de manter o foco em tarefas autônomas por mais de 30 horas. Equilibra velocidade, custo e raciocínio de alto nível, tornando-se a escolha padrão para a maioria das aplicações empresariais.
  • Claude Haiku 4.5 (Lançado em 15 de outubro de 2025): O modelo otimizado para velocidade. Surpreendentemente, agora suporta Extended Thinking, tornando-se o primeiro modelo “pequeno” a oferecer capacidades de raciocínio profundo antes reservadas a modelos de fronteira. É ideal para tarefas de alta frequência em que a latência importa, mas a precisão não pode ser sacrificada.
  • Claude Opus 4.5 (Lançado em 24 de novembro de 2025): O modelo de inteligência de fronteira. O Opus 4.5 é projetado para as tarefas mais complexas e ambíguas — como pesquisa científica, design de arquiteturas inéditas e análise financeira de alto risco. Ele tem a maior capacidade de “orçamento de pensamento” e se destaca em autocorreção.

Principais capacidades em resumo

  • Janelas de contexto utilizáveis maiores e comportamento aprimorado em tarefas de longa duração (fluxos de agentes, depuração passo a passo, edições em bases de código).
  • Melhor desempenho em benchmarks de codificação, refatoração e tarefas de uso de ferramentas em múltiplas etapas (famílias Sonnet e Opus).
  • Recursos avançados de “pensamento” (o que a Anthropic chama de extended thinking / thinking mode) que expõem — opcionalmente — parte do raciocínio passo a passo interno do modelo ao desenvolvedor ou permitem que o modelo gaste um “orçamento” configurável de tokens raciocinando antes de produzir uma resposta final.

Onde você pode executar o Claude 4.5

Claude 4.5 (Sonnet/Opus) está disponível via a própria API da Anthropic e foi integrado ao CometAPI(API pricing is currently on sale, approximately 20% of the Anthropic’s price. ), para que você possa executar esses modelos pela plataforma da Anthropic ou por fornecedores de nuvem de terceiros que hospedam o modelo.

O que há de novo no THINKING mode no Claude Code e no Claude 4.5?

O pensamento estendido da Anthropic (também chamado de “thinking mode”, “thinking blocks” ou “thinking tokens”) é um recurso que permite ao modelo realizar etapas adicionais de amostragem interna para raciocinar mais profundamente antes de produzir uma resposta final. Você o habilita adicionando uma configuração thinking à sua solicitação da Messages API (por exemplo: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) ou usando utilitários do SDK da Anthropic. Quando habilitado, a API (dependendo do modelo) retornará uma versão resumida do raciocínio interno ou retornará o raciocínio completo (sujeito a redação por segurança).

Para entender por que o "Thinking Mode" é revolucionário, precisamos observar como os Modelos de Linguagem de Grande Porte (LLMs) operam tradicionalmente. Modelos padrão são “geradores de texto probabilísticos” — eles preveem o próximo token imediatamente após receberem um prompt. Eles não “param para pensar”; eles começam a falar (gerar) instantaneamente.

A mudança para o “pensamento estendido”

O Thinking Mode muda esse paradigma. Quando habilitado, o Claude 4.5 gera um fluxo oculto de “thinking tokens” antes de emitir um único caractere visível para o usuário.

Raciocínio visível (opcional): Em algumas interfaces como o Claude.ai, você pode ver um menu “Thinking” que mostra o monólogo interno do modelo.

Raciocínio oculto (API): Na API, esses são blocos thinking distintos. O modelo usa esse espaço para:

  • Deconstruir o prompt: Quebrar restrições complexas.
  • Planejar uma estratégia: Esboçar lógica passo a passo.
  • Rascunhar e criticar: Testar mentalmente uma solução, encontrar uma falha e corrigi-la antes de apresentar a resposta.

Pensamento intercalado

Uma grande inovação no Sonnet 4.5 é o pensamento intercalado. Em fluxos de trabalho de agentes (onde a IA usa ferramentas como uma calculadora, um interpretador de código ou um navegador), modelos padrão simplesmente chamariam uma ferramenta, obteriam um resultado e imediatamente chamariam a próxima ferramenta.

Com pensamento intercalado, o Claude 4.5 pode:

  1. Pensar sobre a solicitação do usuário.
  2. Chamar a Ferramenta A (por exemplo, pesquisar na web).
  3. Pensar sobre os resultados da pesquisa (“Este resultado está desatualizado, devo tentar uma consulta diferente”).
  4. Chamar a Ferramenta B (por exemplo, pesquisar novamente).
  5. Pensar sobre como sintetizar os dados.
  6. Resposta final.

Esse loop “Pensar-Agir-Pensar-Agir” reduz drasticamente alucinações e propagação de erros em tarefas de codificação longas e em múltiplas etapas.

Como o Claude Code expõe o pensamento nas ferramentas de desenvolvedor

No Claude Code (a experiência de CLI/editor), a Anthropic adicionou elementos de UI para alternar o thinking mode em sessões interativas (um UX comum é pressionar Tab para alternar o pensamento ligado/desligado) e mostrar indicadores para o orçamento de pensamento atual. Algumas palavras-chave de gatilho mais antigas (por exemplo, think, think hard) eram usadas historicamente para controlar a profundidade do pensamento; versões modernas dependem de toggles explícitos e parâmetros de orçamento, com ultrathink permanecendo disponível em alguns contextos. A configuração pode ser global em ~/.claude/settings.json ou sobrescrita por solicitação.

Como implementar o Thinking Mode do Claude 4.5?

Para desenvolvedores, a transição para o Claude 4.5 exige uma mudança na forma como as solicitações à API são estruturadas. Você não está mais apenas enviando um prompt; você está gerenciando um “orçamento de pensamento”.

Definindo o orçamento de pensamento

O parâmetro thinking agora é um cidadão de primeira classe na API da Anthropic. Você deve habilitá-lo explicitamente e definir um valor de budget_tokens. Esse valor representa a quantidade máxima de computação que o modelo pode gastar em seu raciocínio interno.

Exemplo de implementação em Python

O código a seguir demonstra como inicializar uma sessão do Claude 4.5 com o Thinking Mode habilitado.

import anthropic

# Inicializa a perspectiva do Gemini Enterprise sobre a integração do Claude 4.5
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # Definimos um max_tokens alto para acomodar tanto o pensamento quanto a resposta final
    # O budget_tokens deve ser menor que max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Alocando 12k tokens para 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extraindo as duas partes distintas da resposta
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Exemplo de consulta complexa
query = "Projete um sistema de prova de conhecimento zero para um app de votação descentralizado usando Circom."
thoughts, answer = get_reasoned_response(query)

print("--- RACIOCÍNIO INTERNO DO CLAUDE ---")
print(thoughts)
print("\n--- ARQUITETURA TÉCNICA FINAL ---")
print(answer)

Considerações técnicas essenciais

  • Uso total de tokens: Seu uso total é thinking_tokens + output_tokens. Se você definir um orçamento de 10.000 tokens e o modelo usar 8.000 para pensar e 2.000 para a resposta, você será cobrado por 10.000 tokens de saída.
  • Pensamento forçado: Se a tarefa for muito simples, o modelo ainda pode usar um número mínimo de tokens de pensamento para verificar a simplicidade da solicitação.

Como o Thinking Mode melhora a geração de código?

Uma das atualizações mais significativas no Claude 4.5 é seu desempenho no CLI do Claude Code. Quando o Claude 4.5 “pensa” sobre código, ele realiza várias ações ocultas que modelos padrão ignoram.

1. Mapeamento de dependências

Antes de escrever uma única linha de correção, o Claude 4.5 percorre seu repositório para entender como uma mudança em utils/auth.ts pode quebrar um componente em views/Profile.tsx.

2. Execução mental

O modelo “roda” o código no bloco de raciocínio. Ele simula o fluxo lógico e identifica potenciais condições de corrida ou erros de off-by-one.

3. Verificação de restrições

Se você pedir uma solução que seja “performática e não use bibliotecas externas”, o thinking mode atua como um guardião. Se o primeiro instinto do modelo for sugerir um pacote NPM, o processo de pensamento detectará essa violação e forçará o modelo a reformular uma implementação em JavaScript puro.

Como o Thinking Mode se compara ao prompting tradicional?

Muitos usuários estão familiarizados com o prompting “Chain of Thought” (CoT), em que você diz ao modelo: “Pense passo a passo”. Embora eficaz, não é o mesmo que o Thinking Mode nativo do Claude 4.5.

RecursoCadeia de raciocínio (manual)Pensamento estendido (nativo)
MecanismoInstruções acionadas pelo usuário.Arquitetura embutida no modelo.
Espaço de tokensOcupa o espaço de saída visível.Ocupa um bloco interno dedicado.
AutocorreçãoLimitada; o modelo frequentemente “insiste” em erros iniciais.Alta; o modelo pode descartar um caminho inteiro de raciocínio e recomeçar.
ConfiabilidadeVariável conforme a qualidade do prompt.Consistentemente alta em domínios complexos.
Tratamento na APIExige parsing manual do texto.Blocos JSON estruturados para "thinking" e "text".

Como o thinking mode funciona no Claude 4.5?

Fluxo interno (conceitual)

  1. Solicitação do usuário: Seu aplicativo envia uma requisição à Messages API especificando modelo, prompt, max_tokens e, opcionalmente, thinking: { type: "enabled", budget_tokens: N }.
  2. Raciocínio interno: O Claude realiza “pensamento” interno até o orçamento. Ele registra a saída do raciocínio como blocos thinking (que podem ser resumidos para o usuário).
  3. Composição da saída: A API retorna um array de blocos de conteúdo. Tipicamente, a ordem é bloco(s) de thinking e então bloco(s) de text (resposta final). Em streaming, você recebe eventos thinking_delta seguidos de eventos text_delta.
  4. Preservando contexto: Ao usar ferramentas ou fluxos multi-turn, você pode reenviar blocos de pensamento anteriores (sem modificações) para que o Claude possa continuar a cadeia de raciocínio. O Opus 4.5 introduziu comportamento para preservar blocos de pensamento por padrão para cache/eficiência.

Tecnicamente, o Thinking Mode depende de uma configuração de parâmetro específico na API que aloca um “orçamento” de tokens para raciocínio.

O conceito de orçamento de tokens

Ao fazer uma solicitação ao Claude 4.5, você deve especificar um parâmetro budget_tokens. Este é o número máximo de tokens que o modelo pode usar para seu monólogo interno.

  • Orçamento baixo (<2,000 tokens): Bom para verificações rápidas de sanidade ou puzzles lógicos simples.
  • Orçamento alto (10,000+ tokens): Necessário para arquitetura de software complexa, provas matemáticas ou redação de pareceres jurídicos abrangentes.

O modelo é treinado para “gerenciar” esse orçamento. Se perceber que o orçamento está acabando, tentará concluir seu raciocínio e fornecer a melhor resposta possível.

O ciclo do “processo de pensamento”

Quando um usuário pergunta: “Escreva um script Python para fazer scraping deste site, garantindo respeito ao robots.txt e lidando com carregamento dinâmico.”

  1. Ingestão: O Claude lê o prompt.
  2. Fase de pensamento (oculta):
    • Autocorreção: “Preciso usar Selenium ou Playwright para carregamento dinâmico. requests não funcionará.”
    • Verificação de segurança: “Devo verificar se o usuário tem permissão para fazer scraping. Vou adicionar um aviso.”
    • Arquitetura: “Vou estruturar o código com abordagem baseada em classes para modularidade.”
  3. Fase de saída (visível): O Claude gera o código Python.

Em modelos anteriores, a IA poderia começar a escrever código com requests imediatamente, perceber no meio que não funcionaria para conteúdo dinâmico e então ou alucinar uma solução ou fornecer código quebrado. O thinking mode evita esse cenário de “ficar encurralado”.

Quando você deve habilitar o thinking mode — casos de uso e heurísticas?

Casos de uso que mais se beneficiam

  • Codificação complexa (mudanças arquiteturais, refatorações multi-arquivo, sessões longas de depuração). O Sonnet 4.5 é explicitamente posicionado como líder em codificação e agentes quando o pensamento é utilizado.
  • Fluxos de trabalho de agentes que usam ferramentas repetidamente e devem preservar o contexto interno ao longo de muitas etapas. Pensamento intercalado + uso de ferramentas é um cenário primário.
  • Pesquisa ou análise profunda (análise estatística, estruturação financeira, raciocínio jurídico) em que etapas intermediárias de raciocínio são valiosas para inspeção ou verificação.

Quando não habilitar

  • Geração de respostas curtas ou APIs de alto throughput e baixa latência onde a latência mínima é crítica (por exemplo, UIs de chat que exigem respostas em milissegundos).
  • Tarefas em que o custo de tokens por requisição deve ser minimizado e a tarefa é simples ou bem especificada.

Heurística prática

Comece com o orçamento mínimo de pensamento (≈1.024 tokens) e aumente progressivamente para tarefas que precisam de mais profundidade; faça benchmark da precisão da tarefa de ponta a ponta versus latência e tokens. Para tarefas de agentes em múltiplas etapas, experimente pensamento intercalado e pontos de interrupção com prompt em cache para encontrar um ponto ideal.

Conclusão

O Thinking Mode do Claude 4.5 é mais do que um recurso; é uma nova forma de interagir com inteligência artificial. Ao separar o processo do pensamento do produto do pensamento, a Anthropic forneceu uma ferramenta mais confiável, mais transparente e mais capaz de lidar com as complexidades do trabalho empresarial moderno.

Quer você esteja usando o Claude Code CLI para gerenciar uma migração massiva ou utilizando a API para construir a próxima geração de agentes autônomos, dominar o “orçamento de pensamento” é a chave para o sucesso.

Desenvolvedores podem acessar o modelo Claude 4.5 por meio do CometAPI. Para começar, explore as capacidades do modelo do CometAPI no Playground e consulte o guia de API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave de API. CometAPI oferecem um preço muito abaixo do preço oficial para ajudar na sua integração.

Pronto para começar?→ Teste gratuito do Claude 4.5!

Leia Mais

500+ Modelos em Uma API

Até 20% de Desconto