OpenAI lanza la serie GPT-5.4: qué cambios trae GPT-5.4

El último lanzamiento de OpenAI, GPT-5.4, llega como una familia de modelos orientada al “trabajo profesional” con dos variantes principales — GPT-5.4 Thinking y GPT-5.4 Pro — y un fuerte énfasis en el trabajo con documentos de contexto largo, capacidades nativas de uso de la computadora (agente) y mejoras en factualidad y desempeño de tareas en flujos de trabajo de oficina, legales y financieros. El lanzamiento sigue a actualizaciones anteriores de la línea GPT-5 (en especial GPT-5.3 Instant y GPT-5.3-Codex) y aporta mejoras medibles en benchmarks internos y públicos, una integración más profunda de herramientas (incluido un complemento de ChatGPT para Excel) y un contexto admitido más amplio (se citan hasta 1 millón de tokens).

Ahora CometAPI admite GPT-5.4 y GPT-5.4 Pro, y permite usarlos con descuentos.

¿Qué es GPT-5.4?

Posicionamiento y variantes

GPT-5.4 es presentado por OpenAI como el modelo más capaz de la serie GPT-5, afinado para flujos de trabajo profesionales, con muchos documentos y con agentes. Se ofrece en al menos dos variantes publicadas:

GPT-5.4 Thinking — una variante centrada en el razonamiento que expone más del proceso de pensamiento del modelo y está optimizada para razonamientos de múltiples pasos y tareas con agentes (disponible en ChatGPT como el modo “Thinking”).
GPT-5.4 Pro — un nivel de inferencia con mayor cómputo/prioridad para cargas empresariales de alto rendimiento o sensibles a la latencia, con precios de API más altos (en reflejo del cómputo adicional).

OpenAI destaca las capacidades nativas de uso de la computadora de GPT-5.4 — que permiten a los modelos operar software mediante acciones programáticas de mouse/teclado y orquestar secuencias de múltiples herramientas — lo que se presenta como un cambio de nivel para construir agentes que completen tareas reales.

Capacidades nuevas y destacadas

Compatibilidad con contextos largos: se informa que GPT-5.4 admite contextos muy grandes (admite hasta 1,000,000 tokens en contextos de ChatGPT y Codex), lo que permite que el modelo mantenga proyectos, libros, bases de código o conjuntos de datos enormes “en memoria” durante una sesión. Esto es transformador para la revisión de documentos, contratos legales y proyectos de ingeniería con múltiples archivos.
Uso nativo de la computadora / agentes: GPT-5.4 es el primer modelo de propósito general de OpenAI con capacidades nativas de uso de la computadora: puede generar secuencias de acciones de UI y código para operar software (por ejemplo, mediante Playwright o emitiendo comandos de mouse/teclado guiados por capturas de pantalla). Esta capacidad está diseñada para permitir que los desarrolladores construyan agentes que completen tareas en aplicaciones web y de escritorio.
Mejoras en habilidades de oficina: gran énfasis en hojas de cálculo, presentaciones y documentos, con benchmarks internos que muestran grandes mejoras en modelado de hojas de cálculo, estética de presentaciones y calidad de redacción de documentos.
Factualidad y reducción de alucinaciones: OpenAI informa reducciones en errores factuales respecto a modelos previos en conjuntos de evaluación curados internamente (ver benchmarks más abajo).

En comparación con modelos anteriores como GPT-5.2 Thinking y GPT-5.3 Codex, GPT-5.4 fusiona estas capacidades en un único modelo diseñado para manejar tareas de larga duración y flujos de trabajo complejos con una intervención mínima del usuario.

Características clave y aspectos técnicos de GPT-5.4

1) Ventanas de contexto masivas (hasta 1,000,000 tokens)

La capacidad más visible de inmediato es la compatibilidad con ventanas de contexto de hasta 1,000,000 tokens a través de la API. Esto amplía lo que puede albergar una sola sesión del modelo: libros completos, bases de código extensas o dossiers multi-documento sin fragmentar en muchas llamadas. Para flujos de trabajo empresariales intensivos en conocimiento (descubrimiento legal, síntesis de investigación, análisis de código a gran escala), la capacidad de mantener un contexto de un millón de tokens reduce el “pegamento” de ingeniería y mejora la coherencia.

Implicación: flujos de trabajo que antes requerían orquestación (recuperación, fragmentación, memoria externa) ahora pueden mantener más del contexto en bruto en la memoria de trabajo del modelo, simplificando pipelines y reduciendo las compensaciones entre latencia y consistencia.

2. Uso nativo de la computadora y de herramientas

OpenAI destaca una capacidad más sólida para operar herramientas y conectores de software (p. ej., hojas de cálculo, editores de documentos, entornos de ejecución de código) de forma más robusta que en modelos anteriores. GPT-5.4 amplía el trabajo previo de “uso de herramientas” con:

Mejor selección de herramientas y parametrización.
Planificación de secuencias más fiable al llamar APIs externas o al recorrer acciones tipo UI.
Menor sobrecarga de tokens para flujos de trabajo con agentes mediante una arquitectura de llamadas a herramientas más inteligente.

Capacidades para agentes y desarrolladores:

Automatización de escritorio y web: con compatibilidad explícita para emitir acciones de mouse y teclado guiadas por capturas de pantalla, GPT-5.4 puede integrarse en agentes que operen flujos de trabajo de software reales (por ejemplo, rellenar formularios, navegar paneles o ejecutar procedimientos de varios pasos). OpenAI informa resultados de vanguardia en benchmarks estilo SO.
Interfaz de herramientas y capacidad de dirección (steerability): GPT-5.4 es más dirigible mediante mensajes del desarrollador y puede decidir mejor cuándo y cómo llamar a herramientas, conectores y APIs externas, una capacidad crucial para construir agentes multi-herramienta fiables que minimicen acciones innecesarias o riesgosas.

Impacto práctico: las tareas de automatización (p. ej., “abre esta hoja de cálculo, calcula estas tablas dinámicas, genera notas de diapositiva”) requieren menos ciclos de fallo/reintento y menor supervisión humana.

3) Cinco niveles de esfuerzo de razonamiento, modos extremos

OpenAI indica múltiples niveles de esfuerzo de razonamiento, permitiendo a los usuarios intercambiar latencia/costo por un cómputo interno de cadena de pensamiento más profundo (modos referidos informalmente como xhigh o razonamiento extremo). Están pensados para problemas donde una deliberación interna más profunda mejora materialmente la corrección (pruebas complejas, transformaciones de código largas, análisis financieros de múltiples pasos). La tarificación y facturación de la API reflejan el trabajo adicional del modelo bajo estos modos.

Impacto práctico: esta separación permite a los clientes elegir las compensaciones apropiadas para sus cargas, en lugar de pedir a un único modelo que sea “todo”.

4) Productividad y creación de contenidos

Modelado en hojas de cálculo: GPT-5.4 muestra fuertes mejoras en tareas de hojas de cálculo probablemente usadas en auditoría, finanzas y análisis. OpenAI reporta una puntuación media del 87.3% en tareas internas de estilo “investment banking modeling” para GPT-5.4 frente a 68.4% para GPT-5.2. Es un aumento drástico en precisión a nivel de tarea para modelado numérico y construcción de fórmulas.
Presentaciones y salida visual: evaluadores humanos prefirieron presentaciones generadas por GPT-5.4 el 68.0% del tiempo sobre las de GPT-5.2 debido a mejor estética, variedad e integración con generación de imágenes. Esto refleja mejoras tanto de contenido como de forma para producir presentaciones.
Redacción de documentos y escritura larga: GPT-5.4 se optimizó para mantener la coherencia en documentos largos, mejor comportamiento de citación y menos contradicciones internas al manejar contextos grandes, gracias a la ventana de contexto extendida y al ajuste dedicado para razonamiento.

5) Seguridad, mitigaciones y consideraciones cibernéticas

Reducción de alucinaciones: OpenAI informa que, en un conjunto de prompts desidentificados donde los usuarios señalaron errores factuales, las afirmaciones individuales de GPT-5.4 son un 33% menos propensas a ser falsas, y las respuestas completas son un 18% menos propensas a contener errores, en comparación con GPT-5.2, una métrica clave para adopción empresarial donde la precisión factual importa.
Mitigaciones de ciberseguridad (variante Thinking): GPT-5.4 Thinking destaca un conjunto ampliado de mitigaciones para riesgos cibernéticos, basadas en protecciones usadas en modelos Codex/5.3 anteriores. GPT-5.4 Thinking fue diseñado con salvaguardas adicionales para escenarios de uso indebido de alta capacidad.

Benchmarks de rendimiento — lo que dicen los números

OpenAI y varios medios publicaron resultados tempranos de benchmarks como parte del lanzamiento. Debido a que distintos benchmarks prueban diferentes capacidades (navegación web vs. conocimiento de dominio vs. seguridad), es útil agregar los principales números y su significado.

OpenAI lanza la serie GPT-5.4: qué cambios trae GPT-5.4

Los resultados reportados muestran mejoras notables frente a miembros anteriores de la familia GPT-5.x y una competencia estrecha con otros modelos de primer nivel.

Benchmarks de interacción web y de escritorio

WebArena-Verified (pruebas de uso del navegador): GPT-5.4 logra un 67.3% de éxito cuando usa señales de DOM y captura de pantalla, en comparación con el 65.4% de GPT-5.2 — una mejora visible, aunque no abrumadora. Mide tareas donde el modelo debe interactuar con páginas en vivo y elementos de UI.
Online-Mind2Web (tareas de navegador basadas en capturas): GPT-5.4 alcanzó 92.8% de éxito usando únicamente observaciones de captura de pantalla — una mejora especialmente fuerte respecto a líneas base de estilo agente anteriores (OpenAI contrastó esto con el desempeño del Modo Agente de ChatGPT Atlas).
OSWorld-Verified (navegación de escritorio): reportes independientes indicaron que GPT-5.4 obtuvo 75.0% en un benchmark que evalúa navegación en entornos de escritorio y finalización de tareas. Ese resultado posicionó a 5.4 por delante de muchas líneas base públicas para tareas de automatización de extremo a extremo.

Conclusión: las mejoras de 5.4 son más pronunciadas donde importa entender el contexto visual, las posibilidades de la UI y secuencias de acciones largas, es decir, flujos de trabajo con agentes.

Benchmarks de salud, seguridad y conocimiento

Los reportes de seguridad de despliegue de OpenAI muestran señales mixtas:

HealthBench: GPT-5.4 obtuvo 62.6% en HealthBench (un descenso moderado desde 63.3% de GPT-5.2), lo que indica sutiles compensaciones entre capacidad y ciertas métricas relacionadas con salud en las pruebas instantáneas que OpenAI reportó.
Hard: GPT-5.4 obtuvo 40.1% en un conjunto de evaluación “Hard” (ligeramente por debajo de 42.0%).
Consensus: GPT-5.4 registró 96.6% en “Consensus”, una métrica que refleja acuerdo con respuestas de consenso curadas (un aumento de ~2.1 puntos).

OpenAI también señaló cambios en la longitud promedio de respuesta en evaluaciones de salud (GPT-5.4 promedió ~3,311 caracteres frente a 2,676 para GPT-5.2), lo que puede afectar cómo un modelo enmarca temas sensibles.

Interpretación: las métricas de seguridad y salud muestran que 5.4 en general aumentó la alineación con consenso y cambió la verbosidad de las respuestas, incluso cuando algunas puntuaciones de salud puntuales bajaron ligeramente. Ese patrón a menudo refleja un reequilibrio de objetivos del modelo: respuestas más decididas y extensas pueden ayudar a la utilidad y el consenso, mientras requieren un monitoreo cuidadoso en dominios sensibles.

Ejemplos y afirmaciones específicos por dominio

Pruebas tempranas ofrecieron afirmaciones concretas y “dominizadas” (OpenAI y fuentes de terceros):

Benchmark de razonamiento legal (BigLaw Bench) — GPT-5.4 alcanzando ~91% en fragmentos de razonamiento legal en pruebas tempranas, una señal fuerte para tareas de análisis de documentos; nótese que son cifras tempranas, no revisadas por pares.
Reducciones de alucinaciones: las respuestas de GPT-5.4 son ~33% menos propensas a contener afirmaciones falsas y ~18% menos propensas a contener errores factuales en comparación con ciertas líneas base previas. Estos porcentajes se destacaron en reportes secundarios y comunicaciones de la empresa; como con cualquier declaración de este tipo, dependen del conjunto de benchmarks y la metodología de muestreo.

Cómo obtener y pagar GPT-5.4

Niveles de ChatGPT y acceso empresarial

Según OpenAI y reportes de producto:

Los usuarios de ChatGPT Plus / Team / Pro fueron los primeros grupos en recibir GPT-5.4 Thinking en el producto. Los administradores de Enterprise y Education pueden habilitar acceso anticipado mediante controles de administrador. Los usuarios Free/Go no tienen garantizado acceso inmediato. Los desarrolladores pueden llamar a los endpoints gpt-5.4 y gpt-5.4-pro vía la API.

Instantánea de precios de la API (precios publicados para desarrolladores)

La tarificación para desarrolladores de OpenAI lista a GPT-5.4 como un modelo de frontera con cargos por token. Según lo publicado en la página de precios pública en el momento del anuncio, tarifas de ejemplo para GPT-5.4 son aproximadamente:

Modelo	Entrada	Entrada en caché	Salida
gpt-5.4 (<272K de longitud de contexto)	$2.50	$0.25	$15.00
gpt-5.4 (>272K de longitud de contexto)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K de longitud de contexto)	$30.00		$180.00
gpt-5.4-pro (>272K de longitud de contexto)	$60.00		$270.00

En CometAPI (una plataforma integral de agregación de APIs de modelos grandes):

Modelo	Precio en Comet (USD / M tokens)	Precio oficial (USD / M tokens)	Descuento
gpt-5.4	Entrada:$2/M; Salida:$16/M	Entrada:$2.5/M; Salida:$20/M	-20%
gpt-5.4-pro	Entrada:$24/MSalida:$192/M	Entrada:$30/MSalida:$240/M	-20%

Por lo tanto, recomiendo encarecidamente CometAPI, ya que puede reducir en gran medida los costos de la API.

Consideraciones de gestión de costos

Si planeas usar el modelo a escala, especialmente en configuraciones de documentos largos o de alto rendimiento, deberías considerar:

Caché y deduplicación de entradas (para usar precios de entrada en caché cuando sea posible).
Ingeniería de prompts para comprimir el contexto y evitar tokens redundantes.
Estrategias de batching y posprocesamiento que minimicen la generación de salida costosa.
Monitoreo del uso de modos de razonamiento, ya que los modos de razonamiento más profundos pueden conllevar mayor costo computacional.

Comparación: GPT-5.4 vs GPT-5.3

Dónde GPT-5.4 mejora frente a GPT-5.3

Profundidad de razonamiento y orquestación de herramientas: 5.4 Thinking se ajustó explícitamente para superar a 5.3 en razonamiento de múltiples pasos y casos de uso con agentes. Esto se observa en benchmarks de interacción web/escritorio y métricas de éxito de agentes.
Capacidad de contexto: la oferta de 1M tokens de 5.4 es un paso técnico claro más allá de lo que 5.3 proporcionaba en disponibilidad de API convencional, habilitando nuevas clases de tareas de sesión única.
Mejoras de rendimiento por dominio: las cifras tempranas de OpenAI y reportes de terceros apuntan a mejoras en ciertos benchmarks legales y de documentos, donde el contexto más largo y el ajuste especializado ayudan.

Compensaciones y dónde 5.3 podría seguir siendo preferible

Uso conversacional ligero: GPT-5.3 Instant sigue optimizado para flujos conversacionales rápidos y económicos; las organizaciones que busquen la menor latencia/costo para interacciones de chat cortas pueden preferirlo.
Estabilidad de métricas de seguridad: algunas puntuaciones de salud y evaluaciones “hard” mostraron ligeros descensos para 5.4 frente a 5.2 en las instantáneas de OpenAI; las empresas en dominios regulados sensibles deberían validar el modelo en sus propios conjuntos de evaluación antes de un despliegue completo.

Casos de uso e implicaciones para la industria

La combinación de razonamiento profundo, memoria de contexto largo y uso de herramientas en GPT-5.4 abre varias oportunidades prácticas y estratégicas.

1. Servicios profesionales y consultoría

Las firmas que producen entregables largos (p. ej., escritos legales, informes de consultoría de varios capítulos, paquetes de due diligence de M&A) pueden mantener documentos y conjuntos de datos enteros en contexto, permitiendo síntesis coherente entre documentos, QA automatizado y generación de resúmenes ejecutivos sin ensamblaje manual de fragmentos. Los éxitos en benchmarks como APEX-Agents se alinean con este posicionamiento.

2. Ingeniería de software y razonamiento sobre bases de código

Un contexto más largo significa que una sola llamada al modelo puede incluir repositorios completos o trazas largas de logs. Las mejoras de GPT-5.4 en benchmarks de SWE indican mejor desempeño para depuración, refactorización y flujos de revisión de código, especialmente cuando se combina con Pro para cargas sostenidas.

3. Agentes autónomos y automatización empresarial

Los sistemas con agentes que operan sobre herramientas (hojas de cálculo, sistemas de tickets, interfaces web) se benefician de la mejor selección de herramientas de GPT-5.4, la menor sobrecarga de tokens para flujos de trabajo con agentes y la mejora en la preservación del estado a largo plazo. Esto hace a GPT-5.4 atractivo para pipelines de automatización empresarial y “asistentes que actúan” en múltiples sistemas.

En resumen — lo que cambia con GPT-5.4

GPT-5.4 representa un avance pragmático y orientado a capacidades hacia modelos que pueden manejar razonamiento largo y multi-documento, ejecutar flujos de trabajo con agentes con mayor fiabilidad y escalarse en pipelines profesionales mediante contratos Pro. Para organizaciones con flujos de trabajo de horizonte largo y dependientes de herramientas, GPT-5.4 supone un cambio de nivel en la productividad potencial.

Los desarrolladores pueden acceder a GPT-5.4, GPT-5.4-pro, y GPT 5.3 Chat vía CometAPI ahora. Para comenzar, explora las capacidades del modelo en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

¿Listo para empezar?→ Regístrate en GPT-5.4 hoy

Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord!