Cómo utilizar la API de GPT-5.4: guía de parámetros y uso de herramientas

CometAPI
AnnaMar 7, 2026
Cómo utilizar la API de GPT-5.4: guía de parámetros y uso de herramientas

Del 5 al 7 de marzo de 2026, OpenAI lanzó públicamente GPT-5.4, un modelo de vanguardia ajustado explícitamente para flujos de trabajo profesionales, con gran carga documental y agentivos. La versión destaca tres avances convergentes: (1) ventanas de contexto sustancialmente más grandes (≈1,050,000 tokens), (2) una nueva capacidad de “razonamiento” que permite a los desarrolladores controlar el esfuerzo de razonamiento interno, y (3) uso de computadora / orquestación de herramientas de primera clase y comprensión multimodal mejorada (texto + imágenes + capturas de pantalla). Estas funciones hacen que GPT-5.4 sea especialmente adecuado para tareas como modelado en hojas de cálculo, revisión de contratos, generación de diapositivas, flujos de trabajo agentivos de múltiples pasos y escribir código que opera sistemas en vivo.

Puedes probar GPT-5.4 en CometAPI. Una variante de mayor cómputo — GPT-5.4 Pro — está disponible para las cargas de trabajo más difíciles de razonamiento y de múltiples turnos.

Qué es GPT-5.4 (incluidas las variantes Thinking y Pro)

La familia del modelo, de un vistazo

GPT-5.4 se posiciona como el modelo “de frontera” de GPT-5 para trabajo profesional complejo: documentos extensos, código, razonamiento de múltiples pasos y flujos de trabajo agentivos. La versión reúne capacidades que antes estaban divididas entre Codex (programación) y la línea GPT, de modo que obtienes un único modelo que puede programar, razonar, usar herramientas y gestionar contextos largos. La guía oficial del modelo indica gpt-5.4 como el predeterminado para la mayoría del trabajo y gpt-5.4-pro para los problemas más difíciles.

Especificaciones clave (oficiales):

  • Ventana de contexto: ~1,050,000 tokens (≈ 700–800k palabras en inglés), lo que permite entradas muy grandes como borradores de libros completos, bases de código multiarchivo o documentos legales extensos.
  • Máximo de tokens de salida: se informa que admite salidas muy grandes (p. ej., hasta 128,000 tokens en algunas configuraciones Pro).
  • Variantes: gpt-5.4 (predeterminado), gpt-5.4-pro (más cómputo, mayor “pensamiento”), y modelos ligeros/mini para usos sensibles al costo.

“Thinking” y “Pro” explicados

  • GPT-5.4 Thinking: un modo ajustado para el razonamiento interactivo. Enfatiza flujos de trabajo de “planificar primero”: el modelo puede presentar un plan por adelantado (“upfront plan”) antes de generar resultados completos, lo que permite dirigir la generación en medio del proceso y reduce el gasto de tokens en direcciones equivocadas. Este modo mejora la visibilidad sobre los pasos previstos por el modelo y hace que las tareas largas sean más seguras y controlables.
  • GPT-5.4 Pro: el hermano de alto cómputo para los problemas más difíciles: cadena de pensamiento más profunda, mayores presupuestos de cómputo interno y resultados más deterministas/estables en benchmarks complejos. Se expone en la Responses API y está pensado para tareas de razonamiento pesado y múltiples turnos (espera mayor latencia y costo).

Mejoras clave y nuevas funciones en GPT-5.4

Ventanas de contexto masivas (≈1,050,000 tokens)

Esta es una de las mejoras principales: un modelo que puede consumir y razonar sobre libros enteros, bases de código multiarchivo o conjuntos de documentos empresariales sin transmitirlos por partes. En la práctica, eso simplifica tareas como la revisión de contratos de extremo a extremo, la resumen de documentos completos y la extracción de preguntas y respuestas multidocumento. Casos de uso: due diligence legal, auditorías técnicas y registros de agentes.

Nota práctica: la ventana de contexto más grande cambia el diseño del sistema: en lugar de fragmentar agresivamente, ahora puedes mantener más estado “global” en el contexto, pero aún debes usar compactación (consulta Control de parámetros) para mantener los costos razonables.

Uso nativo de computadora e integraciones de herramientas

GPT-5.4 es el primer modelo de propósito general con capacidades nativas de uso de computadora: genera secuencias de acciones de navegador o SO (scripts de Playwright, eventos de teclado/ratón), lee capturas de pantalla, interactúa con interfaces web y orquesta flujos de trabajo con múltiples herramientas. Este es un paso importante hacia la construcción de agentes autónomos que realizan tareas reales de extremo a extremo.

GPT-5.4 incluye uso de computadora integrado: el modelo puede interactuar con agentes de software locales/remotos, llamar conectores, manipular hojas de cálculo, tomar capturas de pantalla y automatizar flujos de trabajo de varios pasos cuando se le permita. Eso reduce el “código pegamento”: en lugar de construir envoltorios de instrucciones frágiles, el modelo puede operar en un ciclo de construir-ejecutar-verificar-corregir (comportamiento agentivo) usando APIs de herramientas documentadas. Este es un gran paso hacia agentes autónomos seguros y prácticos.

Modos de razonamiento y reasoning.effort

Un parámetro ajustable reasoning.effort te permite controlar cuánto cómputo interno invierte el modelo en la cadena de razonamiento y la búsqueda de soluciones (opciones: none, low, medium, high, xhigh). Un mayor esfuerzo produce mejores respuestas para problemas complejos, pero cuesta más y aumenta la latencia — ideal para gpt-5.4-pro.

Planificación anticipada / planes interactivos

Los “upfront plans” permiten que el modelo emita un breve plan antes de ejecutar una generación larga. Ese plan puede ser inspeccionado y modificado por el desarrollador o usuario, minimizando salidas desperdiciadas y habilitando correcciones de curso a mitad de tarea (excelente para creación de documentos largos o análisis de múltiples pasos).

Mejores habilidades multimodales y con documentos

Los benchmarks y evaluaciones internas publicadas con el modelo muestran grandes avances en tareas de hojas de cálculo (ejemplo de evaluación interna de hoja de cálculo: media de GPT-5.4 87.3% vs GPT-5.2 68.4%) y preferencia humana por las presentaciones generadas (presentaciones de GPT-5.4 preferidas 68% frente a GPT-5.2 en pruebas con personas). La compañía también informa reducciones en errores fácticos (tasa de falsedad de afirmaciones individuales ~33% menos, tasa de error de respuesta completa ~18% menos frente a GPT-5.2).

Cómo usar la API de GPT-5.4 (Responses API / Chat API)

GPT-5.4 pro solo admite acceso por responses. GPT-5.4 (thinking) admite chat y responses. CometAPI (una plataforma de agregación integral de APIs de grandes modelos con descuentos) ofrece la Serie GPT-5.4, dos métodos de acceso y unos playgrounds compatibles y útiles.

Nota: la Responses API es la integración recomendada para los modelos GPT-5.x porque admite directamente parámetros de razonamiento, registro de herramientas y tamaños de contexto más grandes.

Python — Responses API (ilustrativo)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

Notas: reasoning es un objeto que controla el esfuerzo interno; tools registra interfaces de herramientas disponibles para que el modelo las llame; response_format impone salida estructurada. Los valores disponibles de reasoning.effort van desde none (más rápido) hasta xhigh (máximo esfuerzo interno), según la compatibilidad del SDK y el proveedor. Usa un esfuerzo bajo para resúmenes simples; súbelo para tareas complejas y de múltiples pasos.

Crul— Chat API (ilustrativo)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

Uso de herramientas con GPT-5.4 (uso de computadora, conectores y agentes)

El salto más práctico de GPT-5.4 es su comportamiento agentivo y consciente de herramientas: puede descubrir y llamar la herramienta correcta, operar sobre hojas de cálculo e interfaces cuando está autorizado y razonar sobre las acciones que tomará.

GPT-5.4 está diseñado para trabajar con herramientas. Hay tres clases principales de herramientas a considerar:

  1. Herramientas alojadas (p. ej., web_search, file_search) — el modelo puede llamarlas como parte del ciclo de respuesta. Excelente para recuperar información actualizada o búsquedas en bases vectoriales.
  2. Herramientas personalizadas / function calling — tus propios endpoints de servidor o esquemas de funciones. Declara funciones (esquemas) para que el modelo devuelva salidas estructuradas que tu código ejecute.
  3. Uso de computadora — el modelo emite acciones de GUI y espera un arnés que las ejecute (clics, escritura, capturas de pantalla). Esto es potente pero de alto riesgo.

Cuando tengas decenas/centenas de herramientas, pasa tool_search y deja que el modelo descubra esquemas de herramientas relevantes en tiempo de ejecución. Esto reduce el uso de tokens y mejora el rendimiento de caché en despliegues.

Cómo funciona la integración de herramientas (conceptual)

  1. Descubrimiento de herramientas: el modelo encuentra conectores disponibles (p. ej., Google Sheets, Salesforce, DB interna) según un catálogo.
  2. Plan y permiso: el modelo emite un plan anticipado describiendo qué herramientas llamará y por qué; este plan se revisa y aprueba.
  3. Llamar y verificar: el modelo llama herramientas (vía conectores o APIs de acción), lee resultados y ejecuta verificaciones (o solicita confirmación humana).
  4. Bucle de corrección: ante fallos, el modelo intenta reparaciones o pide guía.

Este patrón reduce la orquestación personalizada frágil y centraliza la lógica en el modelo, pero requiere controles de acceso estrictos y registros de auditoría.

Llamadas con tools (web_search / file_search / uso de computadora)

La Responses API admite pasar un arreglo tools. El modelo puede elegir herramientas (herramientas alojadas como web_search, file_search), o puedes predeclarar y restringir herramientas. Ejemplo: pide al modelo usar búsqueda web.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

Si pasas muchas definiciones de herramientas, tool_search permite a GPT-5.4 posponer la carga de la mayoría y cargar solo las relevantes — crucial para ecosistemas con muchas herramientas.

Guía de compatibilidad y control de parámetros de GPT-5.4

Parámetro reasoning.effort: Los siguientes parámetros están totalmente soportados y recomendados al llamar a GPT-5.4. Controla cuánto razonamiento interno realiza el modelo antes de generar la salida final.

Valores admitidos:

nonelowmediumhighxhigh

Ejemplo:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

Efectos:

ValorComportamiento
noneRespuesta más rápida
lowRazonamiento liviano
mediumEquilibrio predeterminado
highRazonamiento fuerte
xhighMáxima profundidad de razonamiento

Un mayor esfuerzo de razonamiento generalmente aumenta:

  • la exactitud de la respuesta
  • los tokens de razonamiento
  • la latencia
  • el costo

El nivel predeterminado suele ser medium.

Tools

Define las herramientas que el modelo puede llamar. tools + tool_search

  • tool_search difiere la carga de definiciones de herramientas para mayor eficiencia; actívalo para conjuntos de herramientas grandes.
  • tools declara definiciones de herramientas (web_search, file_search, RPCs personalizados).

Herramientas integradas admitidas incluyen:

  • búsqueda web
  • búsqueda de archivos
  • intérprete de código
  • generación de imágenes

Ejemplo:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

Parámetros de muestreo (control de aleatoriedad)

Regla de compatibilidad importante: cuando reasoning.effort ≠ none, algunos parámetros de muestreo pueden no estar soportados. Si reasoning.effort es high, la solicitud puede fallar o ignorar temperature.

Los modelos GPT-5.4 deshabilitan parámetros como:

  • temperature
  • top_p
  • logprobs

porque los modelos con razonamiento controlan internamente el muestreo.

  1. temperature controla la aleatoriedad en el muestreo de tokens.
ValorEfecto
0.0determinista
0.2–0.4estable
0.7equilibrado
1.0altamente creativo

Ejemplo:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

Si reasoning.effort es high, la solicitud puede fallar o ignorar temperature.

  1. top_p: parámetro de muestreo por núcleo.
ValorSignificado
0.9considera el 90% superior de prob.
0.5generación conservadora
1.0distribución completa
  1. stop: detiene la generación al encontrar tokens específicos.

Útil para:

  • generación de código
  • pipelines de herramientas
  • delimitadores de chat

Verbosity: controla la longitud de la respuesta.

Varios nuevos parámetros aparecieron a partir de los modelos GPT-5, incluido GPT-5.4.

Valores:

lowmediumhigh

Ejemplo:

verbosity="high"

Casos de uso:

ValorComportamiento
lowrespuestas concisas
mediumequilibrado
highexplicaciones largas

Este parámetro ayuda a controlar la longitud de la salida sin manipular los límites de tokens.

Diferencias de parámetros de GPT-5.4

A continuación, una tabla de compatibilidad simplificada.

Parameterreasoning:nonereasoning:low+
temperature✗ / ignorado
top_p
logprobs
max_output_tokens
tools
tool_choice
verbosity
reasoning.effort

Comparación de parámetros y capacidades entre GPT-5.4 y GPT-5.4-Pro

FunciónGPT-5.4GPT-5.4-Pro
Flexibilidad de razonamientoRango completo de none → xhighSolo medium → xhigh
LatenciaMenorMayor (tareas complejas pueden tardar minutos)
CostoMenorMayor por cómputo adicional
Ejecución en segundo planoOpcionalRecomendada para tareas largas
Niveles de razonamiento soportadosnone, low, medium, high, xhighmedium, high, xhigh

Mejores prácticas para adoptar GPT-5.4 en producción

1) Empieza pequeño y aumenta el razonamiento

  • Comienza con reasoning.effort=none/low + text.verbosity=low para endpoints sensibles a la latencia.
  • Para flujos complejos, avanza a medium y luego high solo tras probar A/B costo vs exactitud.

2) Prefiere salidas estructuradas para tareas programáticas

Usa esquemas de funciones o esquemas JSON/Pydantic para que el modelo devuelva salidas analizables por máquina; reduce errores de parseo posteriores.

3) Mantén a las personas en el ciclo para decisiones de alto impacto

Cualquier flujo que implique dinero, resultados legales o datos personales debe requerir aprobación humana antes de efectos externos.

4) Limita las capacidades expuestas

Usa listas allowed_tools (denegar por defecto) y permisos granulares de herramientas. Para uso de computadora, aplica una lista blanca estricta de acciones.

5) Presupuesto de costos y tokens

Usa max_output_tokens y text.verbosity para costos predecibles. Para contextos muy grandes, pagina o comprime contenido cuando corresponda — incluso con 1M de tokens, las estrategias de compactación/selección ayudan a reducir costos.

Notas finales — migración y pasos siguientes

GPT-5.4 representa un paso significativo hacia la construcción de sistemas de IA que pueden pensar más, trabajar a través de software y manejar contextos muy grandes. Para la mayoría de equipos, la ruta de migración recomendada es:

  1. Prototipa con un subconjunto pequeño de flujos (p. ej., revisión de contratos, generación de diapositivas) usando el alias gpt-5.4 en un entorno sandbox.
  2. Mide la exactitud de la tarea, uso de tokens, latencia y costo frente a modelos previos.
  3. Endurece añadiendo salidas estructuradas, protecciones de herramientas y aprobaciones humanas para flujos de riesgo.
  4. Los descuentos de la API de CometAPI pueden ayudar si los requisitos de costo o latencia te empujan a esa elección.

Los desarrolladores pueden acceder a GPT-5.4, GPT-5.4-pro y la API a través de CometAPI ahora. Para comenzar, explora las capacidades del modelo en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y haber obtenido la clave API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

¿Listo para comenzar?→ Regístrate en GPT-5.4 hoy !

Si quieres conocer más consejos, guías y noticias sobre IA, ¡síguenos en VK, X y Discord!

Accede a Modelos de Primera Calidad a Bajo Costo

Leer Más