Cómo usar el modo de razonamiento en Claude 4.5

CometAPI
AnnaJan 3, 2026
Cómo usar el modo de razonamiento en Claude 4.5

“Modo de pensamiento” (también llamado pensamiento extendido, pensamiento o bloques de pensamiento) en Claude 4.5 es un modo de operación explícito y configurable que instruye al modelo a dedicar un número de tokens con presupuesto separado a generar razonamiento interno paso a paso (una “cadena de pensamiento”) antes de emitir la respuesta final. Está diseñado para mejorar el rendimiento en razonamiento multietapa, codificación compleja y flujos agénticos, y tareas de investigación, intercambiando latencia y coste de tokens por una deliberación interna más profunda. Claude 4.5 expone esta capacidad a nivel de la Messages API con parámetros explícitos (por ejemplo, thinking / budget_tokens o un encabezado de esfuerzo/“interleaved-thinking”), preserva y opcionalmente cifra los bloques de pensamiento para su verificación posterior o uso con herramientas, e introduce comportamientos de caché y contabilidad de tokens que debes gestionar al crear cargas de trabajo en producción.

¿Qué es Claude 4.5? (¿Y qué modelos deberían interesarme?)

Claude 4.5 es el conjunto más reciente de modelos Claude de Anthropic, lanzado como actualizaciones incrementales “4.5” (por ejemplo, Sonnet 4.5 y Opus 4.5). Sonnet 4.5 está posicionado como el mejor equilibrio de inteligencia, codificación y rendimiento agéntico para la mayoría de los desarrolladores; Opus 4.5 se centra en el razonamiento de muy alto esfuerzo y preserva los bloques de pensamiento para mejorar la continuidad en múltiples turnos. Ambos modelos admiten las capacidades de pensamiento extendido de Claude, aunque algunos comportamientos (p. ej., pensamiento resumido frente a completo) difieren según el modelo.

Las mejoras de rendimiento en Claude 4.5, especialmente en Sonnet 4.5, son más visibles en el benchmark SWE-bench Verified, que mide la capacidad de una IA para resolver incidencias reales de GitHub.

ModeloPuntuación en SWE-bench VerifiedOSWorld (Uso de ordenador)
Claude 3.5 Sonnet49.0%42.2%
Claude 4.1 Opus67.6%55.0%
Claude 4.5 Sonnet (Thinking On)77.2%61.4%
GPT-5 (Medium Reasoning)65.0%52.0%

Estas cifras indican que Claude 4.5 no solo es mejor escribiendo fragmentos; es significativamente más capaz de navegar por sistemas de archivos completos y ejecutar tareas autónomas sin intervención humana.

Por qué esto importa

  • Codificación y agentes: Sonnet 4.5 muestra mejoras sólidas en tareas de software del mundo real y trabajo de codificación de largo alcance, lo que lo convierte en una opción natural para generación de código, edición de código y flujos de agentes autónomos.
  • Pensamiento extendido y contexto: Los modelos de la familia Claude 4.5 están construidos para razonar con cuadernos internos muy grandes (decenas de miles de tokens o más), lo que permite un razonamiento multietapa más profundo. Eso cambia cómo diseñas prompts, presupuestos de tokens e interacciones con herramientas.

¿Qué es el Modo de pensamiento en Claude 4.5?

El Modo de pensamiento (denominado oficialmente "Extended Thinking") es una capacidad que permite al modelo “mostrar su trabajo” para sí mismo antes de entregar un resultado final. A diferencia de los modelos estándar que se comprometen con una respuesta de inmediato, Claude 4.5 utiliza un espacio de razonamiento dedicado para explorar múltiples hipótesis, identificar posibles errores en su lógica y perfeccionar su estrategia.

Anatomía de una respuesta

En una interacción estándar, el modelo recibe un prompt y comienza a generar la respuesta. En el Modo de pensamiento, la respuesta se divide en dos bloques distintos:

Tipo de bloqueVisibilidadPropósito
Bloque de pensamientoOculto (vía API) o contraído (UI)El monólogo interno del modelo, planificación y autocrítica.
Bloque de textoVisibleLa respuesta final y refinada proporcionada al usuario.

Propiedades clave del modo de pensamiento

  • Se habilita bajo petición: Pasas un objeto thinking en la llamada a la API, como {"type":"enabled","budget_tokens":10000}, para activarlo y darle al modelo un presupuesto interno de tokens para el razonamiento.
  • Presupuestación: budget_tokens limita los tokens internos de razonamiento del modelo. Más presupuesto => mayor potencial de razonamiento profundo pero mayor coste y latencia. En los modelos Claude 4, los tokens de pensamiento se facturan incluso si solo recibes una vista resumida.
  • Resumen y redacción: En muchos modelos Claude 4 el usuario ve una versión resumida del contenido de pensamiento; parte del razonamiento interno puede estar redactado (cifrado) por los sistemas de seguridad y devolverse como redacted_thinking.
  • Firmas y verificación: Los bloques de pensamiento incluyen una signature opaca utilizada para la verificación al devolver bloques de pensamiento a la API (especialmente necesario al usar herramientas). Debes tratar la firma como opaca — no intentes analizarla.
  • Pensamiento intercalado con herramientas: Claude 4 admite intercalar bloques de pensamiento con ejecuciones de herramientas (beta y con flags en algunos casos). Esto es potente para trabajo agéntico (ejecutar herramienta, pensar, ejecutar otra herramienta, etc.).

Para ejemplos prácticos y los parámetros más actualizados, la documentación de Anthropic sobre Messages/Extended Thinking es la referencia canónica.

Cómo devuelve la Messages API el contenido de pensamiento

Pensamiento resumido vs completo; cifrado y firmas

Diferentes versiones de los modelos Claude gestionan el pensamiento de forma distinta: los modelos Claude 4 más recientes (como Sonnet/Opus 4.5) a menudo devuelven una vista pública resumida del razonamiento interno mientras que el bloc completo puede estar cifrado y disponible solo mediante un campo signature (o bloques redactados). Cuando se usan herramientas (o necesitas preservar el estado interno a través de llamadas de herramientas), debes pasar los bloques de pensamiento de vuelta a la API o usar el mecanismo de firma que describe la documentación. Este mecanismo ayuda a proteger el razonamiento interno sensible al tiempo que permite continuar de forma segura con el proceso de pensamiento cuando sea necesario.

Patrón práctico de manejo

Uso de herramientas / continuación: si tu siguiente solicitud debe continuar el mismo estado interno (p. ej., se ejecutaron herramientas basadas en el pensamiento), incluye el bloque de pensamiento devuelto o la firma cuando llames a la API nuevamente para que el modelo pueda descifrar y continuar donde lo dejó.

Solicitud: envía thinking: {type: "enabled", budget_tokens: N}.

Respuesta: puede que recibas (a) una salida pública resumida, (b) una signature cifrada o redacted_thinking, o (c) ambas.

CometAPI ofrece la API de Claude 4.5 al 20% del precio oficial de la API, y también puede llamarse utilizando Anthropic Messages. Necesitarás obtener una clave de API antes de comenzar.

Ejemplo 1 — curl simple (no streaming) habilitando el pensamiento

curl https://api.cometapi.com/v1/messages \
  -H "x-api-key: $CometAPI_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
      "type": "enabled",
      "budget_tokens": 10000
    },
    "messages": [
      {"role": "user", "content": "Design a robust data validation strategy for CSV imports, show tests + code."}
    ]
  }'

La respuesta contendrá bloques content. Inspecciona cada bloque y da preferencia a los bloques text para la salida final; los bloques thinking contienen el resumen del análisis interno del modelo.

Ejemplo 2 — Python: solicitud, parseo de bloques de pensamiento y texto

import os, requests

API_KEY = os.environ["CometAPI_API_KEY"]
URL = "https://api.cometapi.com/v1/messages"
HEADERS = {
    "x-api-key": API_KEY,
    "anthropic-version": "2023-06-01",
    "content-type": "application/json"
}

payload = {
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {"type": "enabled", "budget_tokens": 8000},
    "messages": [{"role": "user", "content": "Explain how to do property-based testing in Python; include example code."}]
}

r = requests.post(URL, headers=HEADERS, json=payload)
r.raise_for_status()
resp = r.json()

# Parse blocks
for block in resp.get("content", []):
    if block.get("type") == "thinking":
        thinking_summary = block.get("thinking")
        print("=== THINKING (summary) ===")
        print(thinking_summary[:1000])  # truncate for logs
        print("signature:", block.get("signature")[:64], "...")
    elif block.get("type") == "text":
        print("=== FINAL TEXT ===")
        print(block.get("text"))

Este código extrae e imprime el pensamiento resumido y la respuesta final. Si necesitas preservar la continuidad en flujos de agentes de múltiples turnos, incluye los bloques de pensamiento sin modificar en el arreglo messages de la siguiente solicitud (ver ejemplo siguiente).

Ejemplo 3 — reutilizar bloques de pensamiento en un flujo de múltiples turnos (pseudo Python)

# After initial response (resp above):
# Add the assistant message including the thinking block back into the conversation
assistant_message = {
  "role": "assistant",
  "content": resp["content"]  # include raw content array (contains thinking + text blocks)
}

# Next user turn: ask follow-up and include previous assistant message
payload2 = {
  "model": "claude-opus-4-5",  # Opus preserves thinking blocks better across turns
  "max_tokens": 20000,
  "thinking": {"type": "enabled", "budget_tokens": 12000},
  "messages": [
    {"role": "user", "content": "Now adapt the validation logic for an avro pipeline."},
    assistant_message
  ]
}
r2 = requests.post(URL, headers=HEADERS, json=payload2)

Preservar exactamente los bloques de pensamiento sin modificar es crítico cuando se integran herramientas o en flujos de agentes largos. Opus 4.5 tiene valores predeterminados mejorados para la preservación de bloques de pensamiento y el almacenamiento en caché.

¿Cómo transmito salidas de pensamiento y muestro el progreso en una UI?

Mejores prácticas de streaming

  • Usa los endpoints de streaming de los SDK (los SDK de Python/TypeScript tienen ayudas de stream). Para trabajos de razonamiento de larga ejecución o de alto presupuesto, el streaming evita timeouts HTTP y te da texto parcial mientras el modelo calcula. El código típico usa un iterador sobre text_stream (Python) o análisis de eventos (JS).
  • Espera streams en dos fases a veces: el modelo puede producir primero fragmentos de razonamiento visibles y luego finalizar con la respuesta. Construye tu UI para manejar contenido fragmentado y para mostrar estados de “pensando…” frente a respuesta final.
  • Si la API devuelve un signature_delta o content_block_delta durante el streaming, captúralo y adjúntalo a llamadas posteriores según lo requiera la especificación.

Si necesitas mostrar el progreso intermedio del razonamiento en una UI, transmite la respuesta. El servidor emitirá eventos thinking_delta seguidos de text_delta.

curl https://api.cometapi.com/v1/messages \
  --header "x-api-key: $CometAPI_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": { "type": "enabled", "budget_tokens": 8000 },
    "messages": [ { "role": "user", "content": "Walk me through debugging this failing unit test and propose fixes." } ]
  }'

Al hacer streaming, maneja los eventos content_block_start, content_block_delta (que incluye thinking_delta y text_delta) y content_block_stop en orden. Así es como puedes mostrar el razonamiento paso a paso del modelo a medida que ocurre.

¿Cómo interactúa Claude Code con el modo de pensamiento? (terminal + VS Code)

Claude Code es la terminal de codificación interactiva y agéntica que integra la Messages API y ejecutores de herramientas. La experiencia CLI/IDE expone el pensamiento de dos maneras:

  • Configuración global / por sesión: Claude Code expone un panel de ajustes /config para ajustar el comportamiento (cómo el agente pide permisos, si preservar bloques de pensamiento, etc.). Usa esa UI en lugar de volver a escribir JSON bruto si quieres un cambio de comportamiento persistente.
  • Selección de modelo y comandos CLI: Puedes elegir claude-sonnet-4-5 o claude-opus-4-5 como el modelo activo en el REPL; las herramientas y el comportamiento de pensamiento siguen la semántica de la Messages API. El CHANGELOG y las notas de lanzamiento indican que el pensamiento ahora está habilitado por defecto para algunos despliegues de Opus 4.5 y que la configuración de pensamiento se muestra mediante /config.

Flujo práctico en Claude Code:

  1. Inicia un proyecto en el REPL.
  2. Usa /config para inspeccionar flags relacionadas con el pensamiento (preservación, verbosidad, etc.).
  3. Pide al agente que ejecute una tarea larga — producirá contenido de pensamiento y, si es necesario, pedirá permiso para ejecutar ciertos pasos de bash. Preserva los bloques de pensamiento cuando necesites verificar o volver a ejecutar decisiones más tarde.

Instalación y configuración

Claude Code requiere Node.js y puede instalarse globalmente.

# Install Claude Code CLI
npm install -g @anthropic/claude-code

# Authenticate
claude-code --init

Activar el pensamiento en la terminal

Claude Code admite varias flags y disparadores de lenguaje natural para controlar la profundidad de su razonamiento.

Comando/DisparadorDescripción
claude-code --thinkComienza una sesión con el pensamiento extendido habilitado por defecto.
claude-code --model sonnet-4.5Especifica el modelo de frontera más reciente.
/think <task>Un comando con barra dentro de la CLI para invocar una tarea específica que requiere mucho pensamiento.
"ultrathink"Una palabra clave de lenguaje natural que instruye a Claude a usar el máximo presupuesto de razonamiento posible.

Consejos:

  • Usa think/think harder cuando quieras que el agente explore implementaciones alternativas.
  • Cuando Claude Code realiza llamadas de herramientas (ejecutar pruebas, operaciones git), preserva cualquier bloque thinking si el CLI/agente los devuelve; de lo contrario, el agente puede perder contexto entre pasos.

Beneficios del pensamiento intercalado y la preservación de bloques

Pensamiento intercalado (Beta)

El razonamiento estándar ocurre una vez antes de la salida. El pensamiento intercalado (habilitado mediante el encabezado interleaved-thinking-2025-05-14) permite a Claude “pensar” entre llamadas de herramientas.

Imagina que Claude está depurando un servidor:

  1. Pensar: “Debería revisar primero los registros.”
  2. Llamada de herramienta: read_file(logs.txt)
  3. Pensar: “Los registros muestran un timeout de la base de datos. Ahora necesito revisar la configuración del pool de conexiones.”
  4. Llamada de herramienta: read_file(db_config.yml)

Esta “reflexión continua” garantiza que el modelo adapte su estrategia en función de los datos que recibe de las herramientas, en lugar de seguir un plan rígido y predefinido.

Preservación de bloques de pensamiento

En conversaciones de múltiples turnos, especialmente aquellas que incluyen uso de herramientas, es crítico pasar los bloques thinking anteriores de vuelta a la API.

  • Continuidad del razonamiento: Al recibir sus pensamientos previos, Claude mantiene el contexto lógico de su trayectoria.
  • Optimización en Opus 4.5: En Claude Opus 4.5, este comportamiento está automatizado. El modelo preserva por defecto todos los bloques de pensamiento previos en su contexto, asegurando que incluso en sesiones de más de 30 horas, el modelo no “olvide” por qué tomó ciertas decisiones arquitectónicas diez turnos atrás.

Mejores prácticas para usar el modo THINKING con Claude 4.5

Elige el modelo y presupuesto adecuados para la tarea:

Usa Sonnet 4.5 para flujos de codificación y agénticos donde necesitas la mejor relación entre velocidad, coste y fuertes capacidades de codificación; usa Opus 4.5 para el razonamiento más profundo y las ventanas de contexto más grandes o cuando planeas ejecutar sesiones autónomas largas. Ambos admiten pensamiento extendido. Elige budget_tokens proporcionalmente a la complejidad de la tarea (comienza pequeño para experimentos; incrementa el presupuesto solo si observas mejoras materiales de calidad).

Supervisa y controla coste y latencia

Se te cobra por todos los tokens de pensamiento que produce Claude, no por la vista resumida que recibes. Eso significa que las deliberaciones internas largas aumentan el coste incluso si solo ves un resumen corto. Rastrea el uso de tokens y considera una sintonización gradual (por ejemplo: 2k → 8k → 32k) al pasar de la exploración a producción.

Preserva los bloques de pensamiento solo cuando sea necesario

Los bloques de pensamiento pueden firmarse criptográficamente y preservarse para verificación posterior y uso intercalado con herramientas. Evita repetir bloques de pensamiento en cada solicitud subsiguiente a menos que tu flujo requiera que el modelo retenga sus deliberaciones internas previas (por ejemplo, cuando un agente volverá a ejecutar pasos y necesita las razones preservadas). Preservar el pensamiento todo el tiempo aumenta el volumen de contexto y puede complicar la contabilidad de tokens.

Cuándo transmitir pensamiento a los usuarios

El pensamiento transmitido es excelente para herramientas de desarrollador y UIs educativas (mostrar “trabajo en progreso” mientras el modelo delibera). No transmitas pensamiento bruto a usuarios finales de apps de consumo en producción sin considerar la seguridad y la redacción: el pensamiento resumido existe precisamente por esta razón. Si haces streaming, proporciona mecanismos de UI que etiqueten el razonamiento interno (p. ej., “Razonamiento del asistente — interno”), y controla si el usuario final ve el razonamiento resumido o el completo.

Uso de herramientas e intercalado

Al combinar pensamiento con herramientas (ejecución de código, obtención web, procesos locales), usa el diseño de pensamiento intercalado cuando necesites que el modelo seleccione herramientas, las ejecute y razone sobre los resultados dentro del mismo turno. El intercalado aumenta la complejidad (y puede requerir flags de características) pero es potente para la automatización agéntica. Sé explícito sobre qué pensamiento preservas y prueba cómo el modelo selecciona herramientas bajo una ejecución con pensamiento habilitado.

Solución práctica de problemas y notas operativas

Errores comunes y qué significan

  • Pensamiento inválido + elección forzada de herramienta: Si solicitas pensamiento pero también fuerzas modos de uso de herramientas incompatibles con el pensamiento, la API devolverá un error — no mezcles forzar tool_choice: {"type":"tool","name":"..."} con pensamiento.
  • Budget > max_tokens: Para escenarios de pensamiento intercalado las reglas efectivas de tokens difieren — la plataforma explica cuándo budget_tokens puede exceder max_tokens. Lee cuidadosamente la sección de “pensamiento intercalado” antes de probar presupuestos grandes.
  • Validación de firma: Si preservas bloques de pensamiento para llamadas posteriores, incluye la signature devuelta para que la API pueda verificar que provienen de Claude; esto evita la manipulación y mantiene verificable la cadena.

Observabilidad e instrumentación

Registra: (1) la selección de model, (2) thinking.budget_tokens, (3) el consumo real de tokens de pensamiento (se te factura por ello), (4) latencias de streaming (tiempo hasta el primer thinking_delta), y (5) tokens de texto finales. Usa estas métricas para construir presupuestos y SLOs para flujos de cara al usuario.

Despliegue progresivo y humano en el bucle

Despliega modelos con pensamiento habilitado detrás de flags de características. Comienza con un porcentaje del tráfico de desarrollador o interno, recopila fallos o redacciones y itera en prompts y presupuestos. Para dominios sensibles, requiere revisión humana de salidas que incluyan razonamiento interno sustancial antes de su publicación.

Consejos de depuración

  • Empieza pequeño: habilita budget_tokens bajos y escala para comprender mejoras incrementales.
  • Activa el streaming y registra eventos content_block_delta / de firma para entender cuándo el modelo produce bloques de pensamiento.
  • Si usas Claude Code: revisa /config y la configuración a nivel de proyecto; consulta el changelog de Claude Code si el comportamiento no coincide con los valores por defecto esperados.

Conclusión:

Claude 4.5, combinado con el poder del Pensamiento Extendido y el CLI de Claude Code, representa el avance más significativo en productividad del desarrollador desde la invención del IDE. Al permitir que el modelo “muestre su trabajo” y delibere sobre problemas complejos, Anthropic ha pasado más allá de la era del “chatbot” hacia la era “agéntica”.

Ya sea que estés integrando la Messages API en una herramienta de desarrollo personalizada o usando Claude Code para gestionar tus PR diarios, dominar el Modo de pensamiento es esencial. Proporciona la transparencia necesaria para la confianza y la profundidad de razonamiento necesaria para la excelencia.

Los desarrolladores pueden acceder al modelo Claude 4.5 (Claude Sonnet 4.5 , Claude Haiku 4.5, Claude Opus 4.5) a través de CometAPI. Para empezar, explora las capacidades del modelo de CometAPI en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. CometAPI ofrece un precio muy inferior al precio oficial para ayudarte a integrar.

¿Listo para empezar?→ Prueba gratuita de Claude 4.5!

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento