A família Claude 4.5 da Anthropic (notavelmente Sonnet 4.5 e Opus 4.5) traz “thinking” estendido / raciocínio interno em estilo scratchpad para a linha Claude 4. A API de Messages expõe essa capacidade por meio de um objeto thinking (habilitar/desabilitar + uma cota de budget_tokens), opções de streaming e tratamento especial para blocos de conteúdo de “thinking” (incluindo assinaturas e redação). O Sonnet 4.5 é voltado para tarefas de programação e agentic workflows e se beneficia fortemente do thinking estendido; o Opus 4.5 adiciona blocos de thinking preservados e outras otimizações.
O que é o Claude 4.5?
Claude 4.5 (publicado na família de modelos Claude da Anthropic nas variantes Sonnet 4.5 e Opus 4.5) é a mais recente geração de grandes modelos de linguagem da empresa, ajustada para raciocínio mais profundo, contexto de longo prazo e workflows de programação / agentes com qualidade de produção. Nos anúncios e páginas de produto da Anthropic, o Sonnet 4.5 é descrito como um grande avanço para programação, construção de agentes e “uso de computadores” (isto é, workflows assistidos por ferramentas e automação em múltiplas etapas), com ganhos mensuráveis em raciocínio, matemática e tarefas de contexto longo.
A linha da família 4.5
- Claude Sonnet 4.5 (Lançado em 29 de setembro de 2025): O "carro-chefe" da família. Atualmente é classificado como o melhor modelo de programação do mundo, capaz de manter o foco em tarefas autônomas por mais de 30 horas. Equilibra velocidade, custo e raciocínio de alto nível, tornando-se a escolha padrão para a maioria das aplicações empresariais.
- Claude Haiku 4.5 (Lançado em 15 de outubro de 2025): O modelo otimizado para velocidade. Surpreendentemente, agora ele suporta Extended Thinking, tornando-se o primeiro modelo "pequeno" a oferecer capacidades de raciocínio profundo antes reservadas a modelos de fronteira. É ideal para tarefas de alta frequência em que a latência importa, mas a precisão não pode ser sacrificada.
- Claude Opus 4.5 (Lançado em 24 de novembro de 2025): O modelo de inteligência de fronteira. O Opus 4.5 foi projetado para as tarefas mais complexas e ambíguas — como pesquisa científica, design de arquitetura inédita e análise financeira de alto risco. Possui a maior capacidade de "thinking budget" e se destaca em autocorreção.
Principais capacidades em resumo
- Janelas de contexto utilizáveis maiores e comportamento aprimorado em tarefas de longa duração (workflows de agentes, depuração passo a passo, edições em codebases).
- Melhor desempenho em benchmarks de programação, refatoração e tarefas com múltiplas etapas usando ferramentas (famílias Sonnet e Opus).
- Recursos avançados de “thinking” (o que a Anthropic chama de extended thinking / thinking mode) que expõem — opcionalmente — parte do raciocínio interno passo a passo do modelo ao desenvolvedor ou permitem que o modelo gaste um “budget” configurável de tokens raciocinando antes de produzir uma resposta final.
Onde você pode executar o Claude 4.5
Claude 4.5 (Sonnet/Opus) está disponível pela própria API da Anthropic e foi integrado ao CometAPI(o preço da API está atualmente em promoção, aproximadamente 20% do preço da Anthropic), portanto você pode executar esses modelos pela plataforma da Anthropic ou por fornecedores de nuvem terceirizados que hospedam o modelo.
O que há de novo no modo THINKING no Claude Code e no Claude 4.5?
O extended thinking da Anthropic (também conhecido como “thinking mode”, “thinking blocks” ou “thinking tokens”) é um recurso que permite ao modelo realizar etapas adicionais de amostragem interna para raciocinar com mais profundidade antes de produzir uma resposta final. Você o habilita adicionando uma configuração thinking à sua requisição da API de Messages (por exemplo: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) ou usando helpers do SDK da Anthropic. Quando habilitado, a API irá (dependendo do modelo) retornar uma versão resumida do raciocínio interno ou o raciocínio completo (sujeito a redação por segurança).
Para entender por que o "Thinking Mode" é revolucionário, precisamos observar como os Large Language Models (LLMs) tradicionalmente operam. Modelos padrão são "geradores probabilísticos de texto" — eles preveem o próximo token imediatamente após receber um prompt. Eles não "param para pensar"; começam a falar (gerar) instantaneamente.
A mudança para "Extended Thinking"
Thinking Mode muda esse paradigma. Quando habilitado, o Claude 4.5 gera um fluxo oculto de "thinking tokens" antes de emitir um único caractere visível ao usuário.
Raciocínio visível (opcional): Em algumas interfaces como Claude.ai, você pode ver um menu suspenso "Thinking" que mostra o monólogo interno do modelo.
Raciocínio oculto (API): Na API, esses são blocos thinking distintos. O modelo usa esse espaço para:
- Decompor o prompt: Dividir restrições complexas.
- Planejar uma estratégia: Estruturar uma lógica passo a passo.
- Rascunhar e criticar: Testar mentalmente uma solução, encontrar uma falha e corrigi-la antes de apresentar a resposta.
Interleaved Thinking
Uma grande inovação no Sonnet 4.5 é o Interleaved Thinking. Em agentic workflows (nos quais a IA usa ferramentas como uma calculadora, um interpretador de código ou um navegador web), modelos padrão simplesmente chamariam uma ferramenta, obteriam um resultado e imediatamente chamariam a próxima ferramenta.
Com Interleaved Thinking, o Claude 4.5 pode:
- Pensar sobre a solicitação do usuário.
- Chamar a Ferramenta A (por exemplo, pesquisar na web).
- Pensar sobre os resultados da pesquisa ("Este resultado está desatualizado, devo tentar uma consulta diferente").
- Chamar a Ferramenta B (por exemplo, pesquisar novamente).
- Pensar sobre como sintetizar os dados.
- Resposta final.
Esse loop "Think-Act-Think-Act" reduz drasticamente alucinações e propagação de erros em tarefas longas de programação em múltiplas etapas.
Como o Claude Code apresenta o thinking nas ferramentas de desenvolvedor
No Claude Code (a experiência de CLI / editor), a Anthropic adicionou elementos de interface para alternar o thinking mode em sessões interativas (uma UX comum é pressionar Tab para ativar/desativar o thinking) e mostrar indicadores do thinking budget atual. Algumas palavras-chave de ativação mais antigas (por exemplo, think, think hard) foram historicamente usadas para controlar a profundidade do thinking; versões modernas dependem de alternâncias explícitas e parâmetros de budget, com ultrathink ainda disponível em alguns contextos. A configuração pode ser global em ~/.claude/settings.json ou sobrescrita por requisição.
Como implementar o Thinking Mode do Claude 4.5?
Para desenvolvedores, a transição para o Claude 4.5 exige uma mudança na forma como as requisições da API são estruturadas. Você não está mais apenas enviando um prompt; está gerenciando um "Thinking Budget".
Definindo o Thinking Budget
O parâmetro thinking agora é um elemento de primeira classe na API da Anthropic. Você deve habilitá-lo explicitamente e definir um valor para budget_tokens. Esse valor representa a quantidade máxima de computação que o modelo pode gastar com seu raciocínio interno.
Exemplo de implementação em Python
O código a seguir demonstra como inicializar uma sessão do Claude 4.5 com Extended Thinking habilitado.
import anthropic
# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# We set a high max_tokens to accommodate both thinking and the final answer
# The budget_tokens must be less than max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # Allocating 12k tokens for 'thinking'
},
messages=[
{"role": "user", "content": user_query}
]
)
# Extracting the two distinct parts of the response
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)
Principais considerações técnicas
- Uso total de tokens: Seu uso total é
thinking_tokens+output_tokens. Se você definir um budget de 10.000 tokens e o modelo usar 8.000 para thinking e 2.000 para a resposta, você será cobrado por 10.000 tokens de saída. - Thinking forçado: Se a tarefa for simples demais, o modelo ainda pode usar um número mínimo de thinking tokens para verificar a simplicidade da solicitação.
Como o Thinking Mode melhora a geração de código?
Uma das atualizações mais significativas no Claude 4.5 é seu desempenho na CLI Claude Code. Quando o Claude 4.5 "pensa" sobre código, ele executa várias ações ocultas que modelos padrão deixam passar.
1. Mapeamento de dependências
Antes de escrever uma única linha de correção, o Claude 4.5 percorre seu repositório para entender como uma mudança em utils/auth.ts pode quebrar um componente em views/Profile.tsx.
2. Execução mental
O modelo "executa" o código em seu bloco de raciocínio. Ele simula o fluxo lógico e identifica possíveis condições de corrida ou erros de off-by-one.
3. Verificação de restrições
Se você pedir uma solução que seja "performática e não use bibliotecas externas", o thinking mode atua como um guardião. Se o primeiro instinto do modelo for sugerir um pacote NPM, o processo de thinking captará essa violação e forçará o modelo a reconsiderar uma implementação em JavaScript puro.
Como o Thinking Mode se compara ao prompting tradicional?
Muitos usuários estão familiarizados com o prompting "Chain of Thought" (CoT), em que você diz ao modelo: "Pense passo a passo." Embora eficaz, isso não é o mesmo que o Thinking Mode nativo do Claude 4.5.
| Recurso | Chain of Thought (Manual) | Extended Thinking (Nativo) |
|---|---|---|
| Mecanismo | Instruções dadas pelo usuário. | Arquitetura embutida do modelo. |
| Espaço de tokens | Ocupa espaço visível da saída. | Ocupa um bloco interno dedicado. |
| Autocorreção | Limitada; o modelo frequentemente "insiste" em erros iniciais. | Alta; o modelo pode descartar um caminho inteiro de raciocínio e recomeçar. |
| Confiabilidade | Variável com base na qualidade do prompt. | Consistentemente alta em domínios complexos. |
| Tratamento na API | Requer parsing manual do texto. | Blocos JSON estruturados para "thinking" e "text". |
Como o thinking mode funciona no Claude 4.5?
Workflow interno (conceitual)
- Solicitação do usuário: Sua aplicação envia uma requisição à API de Messages especificando modelo, prompt,
max_tokense, opcionalmente,thinking: { type: "enabled", budget_tokens: N }. - Raciocínio interno: Claude realiza o “thinking” interno até o budget. Ele registra a saída do raciocínio como blocos
thinking(que podem ser resumidos para o usuário). - Composição da saída: A API retorna um array de blocos de conteúdo. Normalmente, a ordem é bloco(s)
thinkingseguido(s) por bloco(s)text(resposta final). Se houver streaming, você recebe eventosthinking_deltaseguidos por eventostext_delta. - Preservação de contexto: Ao usar ferramentas ou fluxos multi-turn, você pode reenviar blocos de thinking anteriores (sem modificações) para que Claude continue a cadeia de raciocínio. O Opus 4.5 introduziu um comportamento para preservar blocos de thinking por padrão para cache/eficiência.
Tecnicamente, o Thinking Mode depende de uma configuração específica de parâmetros da API que aloca um "Budget" de tokens para raciocínio.
O conceito de budget de tokens
Quando você faz uma requisição ao Claude 4.5, deve especificar um parâmetro budget_tokens. Esse é o número máximo de tokens que o modelo tem permissão para usar em seu monólogo interno.
- Budget baixo (<2.000 tokens): Bom para verificações rápidas de sanidade ou quebra-cabeças lógicos simples.
- Budget alto (10.000+ tokens): Necessário para arquitetura de software complexa, provas matemáticas ou redação de pareceres jurídicos abrangentes.
O modelo é treinado para "gerenciar" esse budget. Se perceber que está ficando sem budget, tentará encerrar seu raciocínio e fornecer a melhor resposta possível.
O ciclo de vida do "Thinking Process"
Quando um usuário pergunta: "Escreva um script Python para extrair dados deste site, mas garanta que ele respeite robots.txt e lide com carregamento dinâmico."
- Ingestão: Claude lê o prompt.
- Fase de thinking (oculta):
- Autocorreção: "Preciso usar Selenium ou Playwright para carregamento dinâmico.
requestsnão vai funcionar." - Verificação de segurança: "Preciso verificar se o usuário tem permissão para extrair dados. Vou adicionar um aviso."
- Arquitetura: "Vou estruturar o código com uma abordagem baseada em classes para modularidade."
- Autocorreção: "Preciso usar Selenium ou Playwright para carregamento dinâmico.
- Fase de saída (visível): Claude gera o código Python.
Em modelos anteriores, a IA poderia ter começado a escrever o código com requests imediatamente, perceber no meio do caminho que isso não funcionaria para conteúdo dinâmico e então alucinar uma solução ou fornecer código quebrado. O thinking mode evita esse cenário de "encurralamento".
Quando você deve habilitar o thinking mode — casos de uso e heurísticas?
Casos de uso que mais se beneficiam
- Programação complexa (mudanças arquiteturais, refatorações multiarquivo, longas sessões de depuração). O Sonnet 4.5 é explicitamente posicionado como líder em programação e workflows agentic quando o thinking é usado.
- Agentic workflows que usam ferramentas repetidamente e precisam preservar contexto interno ao longo de muitas etapas. Interleaved thinking + uso de ferramentas é um cenário principal.
- Pesquisa ou análise profunda (análise estatística, estruturação financeira, raciocínio jurídico) em que etapas intermediárias de raciocínio sejam valiosas para inspeção ou verificação.
Quando não habilitá-lo
- Geração de respostas curtas ou APIs de alto throughput e baixa latência, em que latência mínima é crítica (por exemplo, UIs de chat que exigem respostas em nível de milissegundos).
- Tarefas em que o custo de tokens por requisição deve ser minimizado e a tarefa é simples ou bem especificada.
Heurística prática
Comece com o budget mínimo de thinking (≈1.024 tokens) e aumente progressivamente para tarefas que precisem de mais profundidade; compare a precisão da tarefa de ponta a ponta com latência e número de tokens. Para tarefas de agentes em múltiplas etapas, experimente interleaved thinking e breakpoints de prompt em cache para encontrar um ponto ideal.
Conclusão
O Thinking Mode do Claude 4.5 é mais do que apenas um recurso; é uma nova forma de interagir com a inteligência artificial. Ao separar o processo de pensamento do produto do pensamento, a Anthropic forneceu uma ferramenta mais confiável, mais transparente e mais capaz de lidar com as complexidades do trabalho empresarial moderno.
Seja usando a CLI Claude Code para gerenciar uma grande migração ou utilizando a API para construir a próxima geração de agentes autônomos, dominar o "Thinking Budget" é a chave para o sucesso.
Desenvolvedores podem acessar o modelo Claude 4.5 por meio da CometAPI. Para começar, explore os recursos do modelo da CometAPI no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de ter feito login na CometAPI e obtido a chave de API. A CometAPI oferece um preço muito inferior ao preço oficial para ajudar você na integração.
Pronto para começar?→ Teste gratuito do Claude 4.5!
