El 19 y 20 de noviembre de 2025, OpenAI lanzó dos mejoras relacionadas pero distintas: GPT-5.1-Codex-Max, un nuevo modelo de codificación agéntico para Codex que enfatiza el trabajo de largo horizonte, la eficiencia de tokens y la “compactación” para mantener sesiones con múltiples ventanas; y GPT-5.1 Pro, un modelo de ChatGPT de nivel Pro actualizado, ajustado para ofrecer respuestas más claras y más capaces en trabajos profesionales complejos.
¿Qué es GPT-5.1-Codex-Max y qué problema intenta resolver?
GPT-5.1-Codex-Max es un modelo Codex especializado de OpenAI, ajustado para flujos de trabajo de programación que requieren razonamiento y ejecución sostenidos y de largo horizonte. Donde los modelos ordinarios pueden tropezar con contextos extremadamente largos —por ejemplo, refactors de múltiples archivos, bucles de agentes complejos o tareas persistentes de CI/CD—, Codex-Max está diseñado para compactar y gestionar automáticamente el estado de la sesión a lo largo de múltiples ventanas de contexto, lo que le permite seguir trabajando de forma coherente mientras un proyecto se extiende por muchos miles (o más) de tokens. OpenAI posiciona a Codex-Max como el siguiente paso para hacer que los agentes capaces de programar sean realmente útiles para trabajos de ingeniería prolongados.
¿Qué es GPT-5.1-Codex-Max y qué problema intenta resolver?
GPT-5.1-Codex-Max es un modelo Codex especializado de OpenAI, ajustado para flujos de trabajo de programación que requieren razonamiento y ejecución sostenidos y de largo horizonte. Donde los modelos ordinarios pueden tropezar con contextos extremadamente largos —por ejemplo, refactors de múltiples archivos, bucles de agentes complejos o tareas persistentes de CI/CD—, Codex-Max está diseñado para compactar y gestionar automáticamente el estado de la sesión a lo largo de múltiples ventanas de contexto, lo que le permite seguir trabajando de forma coherente mientras un proyecto se extiende por muchos miles (o más) de tokens.
OpenAI lo describe como “más rápido, más inteligente y más eficiente en tokens en cada etapa del ciclo de desarrollo”, y está expresamente destinado a reemplazar a GPT-5.1-Codex como el modelo predeterminado en las superficies de Codex.
Instantánea de funciones
- Compactación para continuidad multi-ventana: poda y conserva el contexto crítico para trabajar de forma coherente durante millones de tokens y horas. 0
- Eficiencia de tokens mejorada en comparación con GPT-5.1-Codex: hasta ~30% menos “tokens de pensamiento” para un esfuerzo de razonamiento similar en algunos benchmarks de código.
- Durabilidad agéntica de largo horizonte: se ha observado internamente que mantiene bucles de agentes de varias horas/días (OpenAI documentó ejecuciones internas de >24 horas).
- Integraciones de plataforma: disponible hoy dentro del CLI de Codex, extensiones de IDE, nube y herramientas de revisión de código; el acceso por API llegará próximamente.
- Compatibilidad con entorno Windows: OpenAI señala específicamente que Windows es compatible por primera vez en los flujos de trabajo de Codex, ampliando el alcance de desarrolladores en el mundo real.
¿Cómo se compara con productos competidores (p. ej., GitHub Copilot u otras IAs para programar)?
GPT-5.1-Codex-Max se presenta como un colaborador más autónomo y de largo horizonte frente a las herramientas de completado por solicitud. Mientras que Copilot y asistentes similares sobresalen en completados a corto plazo dentro del editor, las fortalezas de Codex-Max están en orquestar tareas de varios pasos, mantener un estado coherente a lo largo de sesiones y manejar flujos de trabajo que requieren planificación, pruebas e iteración. Dicho esto, el mejor enfoque en la mayoría de equipos será híbrido: usar Codex-Max para automatización compleja y tareas agénticas sostenidas, y asistentes más ligeros para completados a nivel de línea.
¿Cómo funciona GPT-5.1-Codex-Max?
¿Qué es la “compactación” y cómo habilita trabajo de larga duración?
Un avance técnico central es la compactación: un mecanismo interno que recorta el historial de la sesión preservando las piezas de contexto más relevantes para que el modelo pueda continuar trabajando de forma coherente a través de múltiples ventanas de contexto. En la práctica, significa que las sesiones de Codex que se acerquen a su límite de contexto serán compactadas (se resumen/preservan tokens más antiguos o de menor valor) para que el agente disponga de una ventana fresca y pueda seguir iterando repetidamente hasta completar la tarea. OpenAI reporta ejecuciones internas en las que el modelo trabajó en tareas de manera continua durante más de 24 horas.
Razonamiento adaptativo y eficiencia de tokens
GPT-5.1-Codex-Max aplica estrategias de razonamiento mejoradas que lo hacen más eficiente en tokens: en benchmarks internos reportados por OpenAI, el modelo Max logra un rendimiento similar o mejor que GPT-5.1-Codex usando significativamente menos “tokens de pensamiento”; OpenAI cita aproximadamente un 30% menos de tokens de pensamiento en SWE-bench Verified ejecutando con el mismo esfuerzo de razonamiento. El modelo también introduce un modo de esfuerzo de razonamiento “Extra High (xhigh)” para tareas no sensibles a la latencia que le permiten gastar más razonamiento interno para producir salidas de mayor calidad.
Integraciones del sistema y herramientas agénticas
Codex-Max se distribuye dentro de los flujos de trabajo de Codex (CLI, extensiones de IDE, nube y superficies de revisión de código) para que pueda interactuar con las herramientas reales de los desarrolladores. Las primeras integraciones incluyen el CLI de Codex y agentes en IDE (VS Code, JetBrains, etc.), con acceso por API planeado para más adelante. El objetivo de diseño no es solo una síntesis de código más inteligente, sino una IA que pueda ejecutar flujos de trabajo de varios pasos: abrir archivos, ejecutar pruebas, corregir fallos, refactorizar y volver a ejecutar.
¿Cómo rinde GPT-5.1-Codex-Max en benchmarks y trabajo real?
Razonamiento sostenido y tareas de largo horizonte
Las evaluaciones apuntan a mejoras medibles en razonamiento sostenido y tareas de largo horizonte:
- Evaluaciones internas de OpenAI: Codex-Max puede trabajar en tareas durante “más de 24 horas” en experimentos internos, y la integración de Codex con herramientas de desarrollador incrementó métricas internas de productividad de ingeniería (p. ej., uso y throughput de pull requests). Son afirmaciones internas de OpenAI e indican mejoras a nivel de tarea en productividad del mundo real.
- Evaluaciones independientes (METR): El informe independiente de METR midió el horizonte temporal observado del 50% (una estadística que representa el tiempo mediano durante el cual el modelo puede mantener de forma coherente una tarea larga) para GPT-5.1-Codex-Max en aproximadamente 2 horas y 40 minutos (con un amplio intervalo de confianza), frente a las 2 horas y 17 minutos de GPT-5 en mediciones comparables; una mejora significativa dentro de la tendencia en coherencia sostenida. La metodología y el CI de METR enfatizan la variabilidad, pero el resultado respalda la narrativa de que Codex-Max mejora el rendimiento práctico en tareas de largo horizonte.
Benchmarks de código
OpenAI reporta resultados mejorados en evaluaciones de programación de frontera, notablemente en SWE-bench Verified, donde GPT-5.1-Codex-Max supera a GPT-5.1-Codex con mejor eficiencia de tokens. La compañía destaca que, para el mismo esfuerzo de razonamiento “medio”, el modelo Max produce mejores resultados mientras usa aproximadamente un 30% menos de tokens de pensamiento; para usuarios que permiten razonamiento interno más largo, el modo xhigh puede elevar aún más las respuestas a costa de latencia.
| GPT‑5.1-Codex (alto) | GPT‑5.1-Codex-Max (xhigh) | |
| SWE-bench Verified (n=500) | 73.7% | 77.9% |
| SWE-Lancer IC SWE | 66.3% | 79.9% |
| Terminal-Bench 2.0 | 52.8% | 58.1% |

¿Cómo se compara GPT-5.1-Codex-Max con GPT-5.1-Codex?
Diferencias de rendimiento y propósito
- Alcance: GPT-5.1-Codex era una variante de alto rendimiento de la familia GPT-5.1 para programación; Codex-Max es explícitamente un sucesor agéntico y de largo horizonte destinado a ser el predeterminado recomendado para Codex y entornos similares a Codex.
- Eficiencia de tokens: Codex-Max muestra ganancias materiales en eficiencia de tokens (la afirmación de OpenAI de ~30% menos tokens de pensamiento) en SWE-bench y en uso interno.
- Gestión del contexto: Codex-Max introduce compactación y manejo nativo multi-ventana para sostener tareas que exceden una sola ventana de contexto; Codex no proporcionaba esta capacidad de forma nativa a la misma escala.
- Preparación de herramientas: Codex-Max se envía como el modelo predeterminado de Codex en el CLI, IDE y superficies de revisión de código, señalando una migración para flujos de trabajo de desarrolladores en producción.
¿Cuándo usar cada modelo?
- Usa GPT-5.1-Codex para asistencia de codificación interactiva, ediciones rápidas, refactors pequeños y casos de uso de menor latencia donde todo el contexto relevante cabe fácilmente en una sola ventana.
- Usa GPT-5.1-Codex-Max para refactors de múltiples archivos, tareas agénticas automatizadas que requieren muchos ciclos de iteración, flujos de trabajo tipo CI/CD o cuando necesitas que el modelo mantenga una perspectiva a nivel de proyecto a lo largo de muchas interacciones.
Patrones prácticos de prompts y ejemplos para obtener los mejores resultados
Patrones de prompts que funcionan bien
- Sé explícito sobre objetivos y restricciones: “Refactoriza X, preserva la API pública, conserva los nombres de funciones y asegúrate de que las pruebas A, B, C pasen.”
- Proporciona contexto reproducible mínimo: enlaza la prueba que falla, incluye trazas de pila y fragmentos de archivos relevantes en lugar de volcar repositorios completos. Codex-Max compactará el historial según sea necesario.
- Usa instrucciones paso a paso para tareas complejas: divide trabajos grandes en una secuencia de subtareas y deja que Codex-Max itere sobre ellas (p. ej., “1) ejecuta pruebas 2) corrige las 3 pruebas que más fallan 3) ejecuta el linter 4) resume los cambios”).
- Pide explicaciones y diffs: solicita tanto el parche como una breve justificación para que los revisores humanos puedan evaluar rápidamente la seguridad y la intención.
Plantillas de prompts de ejemplo
Tarea de refactorización
“Refactor the
payment/module to extract payment processing intopayment/processor.py. Keep public function signatures stable for existing callers. Create unit tests forprocess_payment()that cover success, network failure, and invalid card. Run the test suite and return failing tests and a patch in unified diff format.”
Corrección de error + prueba
“A test
tests/test_user_auth.py::test_token_refreshfails with traceback . Investigate root cause, propose a fix with minimal changes, and add a unit test to prevent regression. Apply patch and run tests.”
Generación iterativa de PR
“Implement feature X: add endpoint
POST /api/exportwhich streams export results and is authenticated. Create the endpoint, add docs, create tests, and open a PR with summary and checklist of manual items.”
Para la mayoría de estos, comienza con esfuerzo medium; cambia a xhigh cuando necesites que el modelo realice razonamiento profundo a través de muchos archivos y múltiples iteraciones de pruebas.
¿Cómo acceder a GPT-5.1-Codex-Max?
Dónde está disponible hoy
OpenAI ha integrado GPT-5.1-Codex-Max en las herramientas de Codex hoy: el CLI de Codex, las extensiones de IDE, la nube y los flujos de revisión de código usan Codex-Max por defecto (puedes optar por Codex-Mini). La disponibilidad por API está por prepararse; GitHub Copilot tiene versiones públicas preliminares que incluyen modelos GPT-5.1 y de la serie Codex.
Los desarrolladores pueden acceder a GPT-5.1-Codex-Max y a la GPT-5.1-Codex API a través de CometAPI. Para comenzar, explora las capacidades del modelo de CometAPI en el Playground y consulta la guía de la API para obtener instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y obtenido la clave de API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.
¿Listo para empezar?→ Sign up for CometAPI today !
Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord!
Inicio rápido (paso a paso práctico)
- Asegúrate de tener acceso: confirma que tu plan de producto ChatGPT/Codex (Plus, Pro, Business, Edu, Enterprise) o tu plan de API para desarrolladores admite los modelos de la familia GPT-5.1/Codex.
- Instala el CLI de Codex o la extensión de IDE: si quieres ejecutar tareas de código localmente, instala el CLI de Codex o la extensión de Codex para VS Code / JetBrains / Xcode según corresponda. Las herramientas usarán GPT-5.1-Codex-Max por defecto en configuraciones compatibles.
- Elige el esfuerzo de razonamiento: comienza con esfuerzo medium para la mayoría de las tareas. Para depuración profunda, refactors complejos o cuando quieras que el modelo piense más y no te preocupe la latencia de la respuesta, cambia a modos high o xhigh. Para correcciones pequeñas rápidas, low es razonable.
- Proporciona contexto del repositorio: dale al modelo un punto de partida claro —una URL de repositorio o un conjunto de archivos y una instrucción breve (p. ej., “refactoriza el módulo de pagos para usar E/S asíncrona y agrega pruebas unitarias; conserva los contratos a nivel de función”). Codex-Max compactará el historial a medida que se acerque a los límites de contexto y continuará el trabajo.
- Itera con pruebas: después de que el modelo produzca parches, ejecuta las suites de pruebas y devuelve los fallos como parte de la sesión en curso. La compactación y la continuidad multi-ventana permiten que Codex-Max retenga el contexto importante de las pruebas fallidas e itere.
Conclusión:
GPT-5.1-Codex-Max representa un paso sustancial hacia asistentes de codificación agénticos capaces de sostener tareas de ingeniería complejas y de larga duración con mayor eficiencia y razonamiento. Los avances técnicos (compactación, modos de esfuerzo de razonamiento, entrenamiento en entornos Windows) lo hacen excepcionalmente adecuado para organizaciones de ingeniería modernas, siempre que los equipos emparejen el modelo con controles operativos conservadores, políticas claras de humanos en el circuito y monitorización robusta. Para los equipos que lo adopten con cuidado, Codex-Max tiene el potencial de cambiar cómo se diseña, prueba y mantiene el software, convirtiendo el trabajo repetitivo de ingeniería en una colaboración de mayor valor entre humanos y modelos.
