Cómo utilizar la API de GPT-5.4: guía de parámetros y uso de herramientas

Del 5 al 7 de marzo de 2026, OpenAI lanzó públicamente GPT-5.4, un modelo de vanguardia ajustado explícitamente para flujos de trabajo profesionales, con gran carga documental y agentivos. La versión destaca tres avances convergentes: (1) ventanas de contexto sustancialmente más grandes (≈1,050,000 tokens), (2) una nueva capacidad de “razonamiento” que permite a los desarrolladores controlar el esfuerzo de razonamiento interno, y (3) uso de computadora / orquestación de herramientas de primera clase y comprensión multimodal mejorada (texto + imágenes + capturas de pantalla). Estas funciones hacen que GPT-5.4 sea especialmente adecuado para tareas como modelado en hojas de cálculo, revisión de contratos, generación de diapositivas, flujos de trabajo agentivos de múltiples pasos y escribir código que opera sistemas en vivo.

Puedes probar GPT-5.4 en CometAPI. Una variante de mayor cómputo — GPT-5.4 Pro — está disponible para las cargas de trabajo más difíciles de razonamiento y de múltiples turnos.

Qué es GPT-5.4 (incluidas las variantes Thinking y Pro)

La familia del modelo, de un vistazo

GPT-5.4 se posiciona como el modelo “de frontera” de GPT-5 para trabajo profesional complejo: documentos extensos, código, razonamiento de múltiples pasos y flujos de trabajo agentivos. La versión reúne capacidades que antes estaban divididas entre Codex (programación) y la línea GPT, de modo que obtienes un único modelo que puede programar, razonar, usar herramientas y gestionar contextos largos. La guía oficial del modelo indica gpt-5.4 como el predeterminado para la mayoría del trabajo y gpt-5.4-pro para los problemas más difíciles.

Especificaciones clave (oficiales):

Ventana de contexto: ~1,050,000 tokens (≈ 700–800k palabras en inglés), lo que permite entradas muy grandes como borradores de libros completos, bases de código multiarchivo o documentos legales extensos.
Máximo de tokens de salida: se informa que admite salidas muy grandes (p. ej., hasta 128,000 tokens en algunas configuraciones Pro).
Variantes: gpt-5.4 (predeterminado), gpt-5.4-pro (más cómputo, mayor “pensamiento”), y modelos ligeros/mini para usos sensibles al costo.

“Thinking” y “Pro” explicados

GPT-5.4 Thinking: un modo ajustado para el razonamiento interactivo. Enfatiza flujos de trabajo de “planificar primero”: el modelo puede presentar un plan por adelantado (“upfront plan”) antes de generar resultados completos, lo que permite dirigir la generación en medio del proceso y reduce el gasto de tokens en direcciones equivocadas. Este modo mejora la visibilidad sobre los pasos previstos por el modelo y hace que las tareas largas sean más seguras y controlables.
GPT-5.4 Pro: el hermano de alto cómputo para los problemas más difíciles: cadena de pensamiento más profunda, mayores presupuestos de cómputo interno y resultados más deterministas/estables en benchmarks complejos. Se expone en la Responses API y está pensado para tareas de razonamiento pesado y múltiples turnos (espera mayor latencia y costo).

Mejoras clave y nuevas funciones en GPT-5.4

Ventanas de contexto masivas (≈1,050,000 tokens)

Esta es una de las mejoras principales: un modelo que puede consumir y razonar sobre libros enteros, bases de código multiarchivo o conjuntos de documentos empresariales sin transmitirlos por partes. En la práctica, eso simplifica tareas como la revisión de contratos de extremo a extremo, la resumen de documentos completos y la extracción de preguntas y respuestas multidocumento. Casos de uso: due diligence legal, auditorías técnicas y registros de agentes.

Nota práctica: la ventana de contexto más grande cambia el diseño del sistema: en lugar de fragmentar agresivamente, ahora puedes mantener más estado “global” en el contexto, pero aún debes usar compactación (consulta Control de parámetros) para mantener los costos razonables.

Uso nativo de computadora e integraciones de herramientas

GPT-5.4 es el primer modelo de propósito general con capacidades nativas de uso de computadora: genera secuencias de acciones de navegador o SO (scripts de Playwright, eventos de teclado/ratón), lee capturas de pantalla, interactúa con interfaces web y orquesta flujos de trabajo con múltiples herramientas. Este es un paso importante hacia la construcción de agentes autónomos que realizan tareas reales de extremo a extremo.

GPT-5.4 incluye uso de computadora integrado: el modelo puede interactuar con agentes de software locales/remotos, llamar conectores, manipular hojas de cálculo, tomar capturas de pantalla y automatizar flujos de trabajo de varios pasos cuando se le permita. Eso reduce el “código pegamento”: en lugar de construir envoltorios de instrucciones frágiles, el modelo puede operar en un ciclo de construir-ejecutar-verificar-corregir (comportamiento agentivo) usando APIs de herramientas documentadas. Este es un gran paso hacia agentes autónomos seguros y prácticos.

Modos de razonamiento y `reasoning.effort`

Un parámetro ajustable reasoning.effort te permite controlar cuánto cómputo interno invierte el modelo en la cadena de razonamiento y la búsqueda de soluciones (opciones: none, low, medium, high, xhigh). Un mayor esfuerzo produce mejores respuestas para problemas complejos, pero cuesta más y aumenta la latencia — ideal para gpt-5.4-pro.

Planificación anticipada / planes interactivos

Los “upfront plans” permiten que el modelo emita un breve plan antes de ejecutar una generación larga. Ese plan puede ser inspeccionado y modificado por el desarrollador o usuario, minimizando salidas desperdiciadas y habilitando correcciones de curso a mitad de tarea (excelente para creación de documentos largos o análisis de múltiples pasos).

Mejores habilidades multimodales y con documentos

Los benchmarks y evaluaciones internas publicadas con el modelo muestran grandes avances en tareas de hojas de cálculo (ejemplo de evaluación interna de hoja de cálculo: media de GPT-5.4 87.3% vs GPT-5.2 68.4%) y preferencia humana por las presentaciones generadas (presentaciones de GPT-5.4 preferidas 68% frente a GPT-5.2 en pruebas con personas). La compañía también informa reducciones en errores fácticos (tasa de falsedad de afirmaciones individuales ~33% menos, tasa de error de respuesta completa ~18% menos frente a GPT-5.2).

Cómo usar la API de GPT-5.4 (Responses API / Chat API)

GPT-5.4 pro solo admite acceso por responses. GPT-5.4 (thinking) admite chat y responses. CometAPI (una plataforma de agregación integral de APIs de grandes modelos con descuentos) ofrece la Serie GPT-5.4, dos métodos de acceso y unos playgrounds compatibles y útiles.

Nota: la Responses API es la integración recomendada para los modelos GPT-5.x porque admite directamente parámetros de razonamiento, registro de herramientas y tamaños de contexto más grandes.

Python — Responses API (ilustrativo)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

Notas: reasoning es un objeto que controla el esfuerzo interno; tools registra interfaces de herramientas disponibles para que el modelo las llame; response_format impone salida estructurada. Los valores disponibles de reasoning.effort van desde none (más rápido) hasta xhigh (máximo esfuerzo interno), según la compatibilidad del SDK y el proveedor. Usa un esfuerzo bajo para resúmenes simples; súbelo para tareas complejas y de múltiples pasos.

Crul— Chat API (ilustrativo)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

Uso de herramientas con GPT-5.4 (uso de computadora, conectores y agentes)

El salto más práctico de GPT-5.4 es su comportamiento agentivo y consciente de herramientas: puede descubrir y llamar la herramienta correcta, operar sobre hojas de cálculo e interfaces cuando está autorizado y razonar sobre las acciones que tomará.

GPT-5.4 está diseñado para trabajar con herramientas. Hay tres clases principales de herramientas a considerar:

Herramientas alojadas (p. ej., web_search, file_search) — el modelo puede llamarlas como parte del ciclo de respuesta. Excelente para recuperar información actualizada o búsquedas en bases vectoriales.
Herramientas personalizadas / function calling — tus propios endpoints de servidor o esquemas de funciones. Declara funciones (esquemas) para que el modelo devuelva salidas estructuradas que tu código ejecute.
Uso de computadora — el modelo emite acciones de GUI y espera un arnés que las ejecute (clics, escritura, capturas de pantalla). Esto es potente pero de alto riesgo.

Cuando tengas decenas/centenas de herramientas, pasa tool_search y deja que el modelo descubra esquemas de herramientas relevantes en tiempo de ejecución. Esto reduce el uso de tokens y mejora el rendimiento de caché en despliegues.

Cómo funciona la integración de herramientas (conceptual)

Descubrimiento de herramientas: el modelo encuentra conectores disponibles (p. ej., Google Sheets, Salesforce, DB interna) según un catálogo.
Plan y permiso: el modelo emite un plan anticipado describiendo qué herramientas llamará y por qué; este plan se revisa y aprueba.
Llamar y verificar: el modelo llama herramientas (vía conectores o APIs de acción), lee resultados y ejecuta verificaciones (o solicita confirmación humana).
Bucle de corrección: ante fallos, el modelo intenta reparaciones o pide guía.

Este patrón reduce la orquestación personalizada frágil y centraliza la lógica en el modelo, pero requiere controles de acceso estrictos y registros de auditoría.

Llamadas con tools (web_search / file_search / uso de computadora)

La Responses API admite pasar un arreglo tools. El modelo puede elegir herramientas (herramientas alojadas como web_search, file_search), o puedes predeclarar y restringir herramientas. Ejemplo: pide al modelo usar búsqueda web.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

Si pasas muchas definiciones de herramientas, tool_search permite a GPT-5.4 posponer la carga de la mayoría y cargar solo las relevantes — crucial para ecosistemas con muchas herramientas.

Guía de compatibilidad y control de parámetros de GPT-5.4

Parámetro reasoning.effort: Los siguientes parámetros están totalmente soportados y recomendados al llamar a GPT-5.4. Controla cuánto razonamiento interno realiza el modelo antes de generar la salida final.

Valores admitidos:

nonelowmediumhighxhigh

Ejemplo:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

Efectos:

Valor	Comportamiento
none	Respuesta más rápida
low	Razonamiento liviano
medium	Equilibrio predeterminado
high	Razonamiento fuerte
xhigh	Máxima profundidad de razonamiento

Un mayor esfuerzo de razonamiento generalmente aumenta:

la exactitud de la respuesta
los tokens de razonamiento
la latencia
el costo

El nivel predeterminado suele ser medium.

Tools

Define las herramientas que el modelo puede llamar. tools + tool_search

tool_search difiere la carga de definiciones de herramientas para mayor eficiencia; actívalo para conjuntos de herramientas grandes.
tools declara definiciones de herramientas (web_search, file_search, RPCs personalizados).

Herramientas integradas admitidas incluyen:

búsqueda web
búsqueda de archivos
intérprete de código
generación de imágenes

Ejemplo:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

Parámetros de muestreo (control de aleatoriedad)

Regla de compatibilidad importante: cuando reasoning.effort ≠ none, algunos parámetros de muestreo pueden no estar soportados. Si reasoning.effort es high, la solicitud puede fallar o ignorar temperature.

Los modelos GPT-5.4 deshabilitan parámetros como:

temperature
top_p
logprobs

porque los modelos con razonamiento controlan internamente el muestreo.

temperature controla la aleatoriedad en el muestreo de tokens.

Valor	Efecto
0.0	determinista
0.2–0.4	estable
0.7	equilibrado
1.0	altamente creativo

Ejemplo:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

Si reasoning.effort es high, la solicitud puede fallar o ignorar temperature.

top_p: parámetro de muestreo por núcleo.

Valor	Significado
0.9	considera el 90% superior de prob.
0.5	generación conservadora
1.0	distribución completa

stop: detiene la generación al encontrar tokens específicos.

Útil para:

generación de código
pipelines de herramientas
delimitadores de chat

Verbosity: controla la longitud de la respuesta.

Varios nuevos parámetros aparecieron a partir de los modelos GPT-5, incluido GPT-5.4.

Valores:

lowmediumhigh

Ejemplo:

verbosity="high"

Casos de uso:

Valor	Comportamiento
low	respuestas concisas
medium	equilibrado
high	explicaciones largas

Este parámetro ayuda a controlar la longitud de la salida sin manipular los límites de tokens.

Diferencias de parámetros de GPT-5.4

A continuación, una tabla de compatibilidad simplificada.

Parameter	reasoning:none	reasoning:low+
temperature	✓	✗ / ignorado
top_p	✓	✗
logprobs	✓	✗
max_output_tokens	✓	✓
tools	✓	✓
tool_choice	✓	✓
verbosity	✓	✓
reasoning.effort	✓	✓

Comparación de parámetros y capacidades entre GPT-5.4 y GPT-5.4-Pro

Función	GPT-5.4	GPT-5.4-Pro
Flexibilidad de razonamiento	Rango completo de none → xhigh	Solo medium → xhigh
Latencia	Menor	Mayor (tareas complejas pueden tardar minutos)
Costo	Menor	Mayor por cómputo adicional
Ejecución en segundo plano	Opcional	Recomendada para tareas largas
Niveles de razonamiento soportados	none, low, medium, high, xhigh	medium, high, xhigh

Mejores prácticas para adoptar GPT-5.4 en producción

1) Empieza pequeño y aumenta el razonamiento

Comienza con reasoning.effort=none/low + text.verbosity=low para endpoints sensibles a la latencia.
Para flujos complejos, avanza a medium y luego high solo tras probar A/B costo vs exactitud.

2) Prefiere salidas estructuradas para tareas programáticas

Usa esquemas de funciones o esquemas JSON/Pydantic para que el modelo devuelva salidas analizables por máquina; reduce errores de parseo posteriores.

3) Mantén a las personas en el ciclo para decisiones de alto impacto

Cualquier flujo que implique dinero, resultados legales o datos personales debe requerir aprobación humana antes de efectos externos.

4) Limita las capacidades expuestas

Usa listas allowed_tools (denegar por defecto) y permisos granulares de herramientas. Para uso de computadora, aplica una lista blanca estricta de acciones.

5) Presupuesto de costos y tokens

Usa max_output_tokens y text.verbosity para costos predecibles. Para contextos muy grandes, pagina o comprime contenido cuando corresponda — incluso con 1M de tokens, las estrategias de compactación/selección ayudan a reducir costos.

Notas finales — migración y pasos siguientes

GPT-5.4 representa un paso significativo hacia la construcción de sistemas de IA que pueden pensar más, trabajar a través de software y manejar contextos muy grandes. Para la mayoría de equipos, la ruta de migración recomendada es:

Prototipa con un subconjunto pequeño de flujos (p. ej., revisión de contratos, generación de diapositivas) usando el alias gpt-5.4 en un entorno sandbox.
Mide la exactitud de la tarea, uso de tokens, latencia y costo frente a modelos previos.
Endurece añadiendo salidas estructuradas, protecciones de herramientas y aprobaciones humanas para flujos de riesgo.
Los descuentos de la API de CometAPI pueden ayudar si los requisitos de costo o latencia te empujan a esa elección.

Los desarrolladores pueden acceder a GPT-5.4, GPT-5.4-pro y la API a través de CometAPI ahora. Para comenzar, explora las capacidades del modelo en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y haber obtenido la clave API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

¿Listo para comenzar?→ Regístrate en GPT-5.4 hoy !

Si quieres conocer más consejos, guías y noticias sobre IA, ¡síguenos en VK, X y Discord!

Qué es GPT-5.4 (incluidas las variantes Thinking y Pro)

La familia del modelo, de un vistazo

“Thinking” y “Pro” explicados

Mejoras clave y nuevas funciones en GPT-5.4

Ventanas de contexto masivas (≈1,050,000 tokens)

Uso nativo de computadora e integraciones de herramientas

Modos de razonamiento y `reasoning.effort`

Planificación anticipada / planes interactivos

Mejores habilidades multimodales y con documentos

Cómo usar la API de GPT-5.4 (Responses API / Chat API)

Python — Responses API (ilustrativo)

Crul— Chat API (ilustrativo)

Uso de herramientas con GPT-5.4 (uso de computadora, conectores y agentes)

Cómo funciona la integración de herramientas (conceptual)

Llamadas con tools (web_search / file_search / uso de computadora)

Guía de compatibilidad y control de parámetros de GPT-5.4

Tools

Parámetros de muestreo (control de aleatoriedad)

Verbosity: controla la longitud de la respuesta.

Diferencias de parámetros de GPT-5.4

Comparación de parámetros y capacidades entre GPT-5.4 y GPT-5.4-Pro

Mejores prácticas para adoptar GPT-5.4 en producción

1) Empieza pequeño y aumenta el razonamiento

2) Prefiere salidas estructuradas para tareas programáticas

3) Mantén a las personas en el ciclo para decisiones de alto impacto

4) Limita las capacidades expuestas

5) Presupuesto de costos y tokens

Notas finales — migración y pasos siguientes

Accede a Modelos de Primera Calidad a Bajo Costo

Leer Más

Cómo utilizar la API de GPT-5.4: guía de parámetros y uso de herramientas

Qué es GPT-5.4 (incluidas las variantes Thinking y Pro)

La familia del modelo, de un vistazo

“Thinking” y “Pro” explicados

Mejoras clave y nuevas funciones en GPT-5.4

Ventanas de contexto masivas (≈1,050,000 tokens)

Uso nativo de computadora e integraciones de herramientas

Modos de razonamiento y reasoning.effort

Planificación anticipada / planes interactivos

Mejores habilidades multimodales y con documentos

Cómo usar la API de GPT-5.4 (Responses API / Chat API)

Python — Responses API (ilustrativo)

Crul— Chat API (ilustrativo)

Uso de herramientas con GPT-5.4 (uso de computadora, conectores y agentes)

Cómo funciona la integración de herramientas (conceptual)

Llamadas con tools (web_search / file_search / uso de computadora)

Guía de compatibilidad y control de parámetros de GPT-5.4

Tools

Parámetros de muestreo (control de aleatoriedad)

Verbosity: controla la longitud de la respuesta.

Diferencias de parámetros de GPT-5.4

Comparación de parámetros y capacidades entre GPT-5.4 y GPT-5.4-Pro

Mejores prácticas para adoptar GPT-5.4 en producción

1) Empieza pequeño y aumenta el razonamiento

2) Prefiere salidas estructuradas para tareas programáticas

3) Mantén a las personas en el ciclo para decisiones de alto impacto

4) Limita las capacidades expuestas

5) Presupuesto de costos y tokens

Notas finales — migración y pasos siguientes

Accede a Modelos de Primera Calidad a Bajo Costo

Leer Más

Modos de razonamiento y `reasoning.effort`