Composer 2: Qué hay de nuevo y comparación con Claude Opus 4.6 y GPT-5.4

Cursor’s Composer 2 es el nuevo modelo de codificación agéntica de la empresa, anunciado el 19 de marzo de 2026. Cursor lo describe como “de nivel frontier en programación”, creado para trabajo de software de baja latencia y disponible directamente dentro de Cursor con un pool de uso independiente para planes individuales. El lanzamiento también introdujo una variante más rápida con la misma inteligencia, además de una nueva estructura de precios diseñada para hacer que la programación agéntica sea más asequible que muchos modelos frontier de propósito general.

Composer 2 importa porque refleja un cambio más amplio en el desarrollo de software con IA: el valor ya no está solo en la inteligencia bruta del modelo, sino en la combinación de velocidad, manejo de tareas de largo horizonte, uso de herramientas y eficiencia de costos. El propio planteamiento de Cursor es explícito: el modelo está optimizado para programación agéntica, puede manejar tareas desafiantes que requieren cientos de acciones y fue entrenado para preservar contexto crítico a lo largo de flujos de trabajo extensos.

¿Qué es Composer 2?

Un modelo creado para programación agéntica, no solo para completar texto

Composer 2 es el modelo de programación interno de Cursor. Composer 2 está especializado en inteligencia y velocidad para ingeniería de software, entrenado en el arnés de agentes de Cursor y pensado para funcionar bien en tareas reales de programación en lugar de chat genérico. Esto importa porque la programación agéntica es diferente de la generación de código común: el modelo debe buscar en una base de código, editar archivos, razonar en múltiples pasos y recuperarse de errores sin perder el hilo de la tarea. La publicación de Cursor sobre entrenamiento de largo horizonte deja este objetivo de diseño muy claro.

Variantes duales del modelo:

Variante	Propósito
Standard	Costo más bajo
Fast	Mayor velocidad (por defecto)

Por qué Cursor lo creó

Las publicaciones de investigación de Cursor sugieren una tesis simple: los mejores agentes de programación necesitan tanto inteligencia como continuación eficiente a lo largo de muchos pasos. Las observaciones de su benchmark interno (CursorBench) muestran que un mejor rendimiento en tareas difíciles de programación del mundo real se correlaciona con más razonamiento y más exploración de la base de código. Por lo tanto, Composer 2 está entrenado no solo para resolver tareas, sino para seguir resolviéndolas a lo largo de trayectorias largas que exceden la longitud inmediata de contexto del modelo.

¿Cómo funciona Composer 2?

El preentrenamiento continuado es la gran mejora

Las mejoras de calidad de Composer 2 provienen de su “primer proceso de preentrenamiento continuado”, que describe como una base mucho más sólida para el aprendizaje por refuerzo. Esto es importante porque sugiere que el modelo no es simplemente una versión ajustada de Composer 1.5; es un mejor punto de partida para el tipo de comportamiento de programación de largo horizonte que Cursor quiere.

Aprendizaje por refuerzo en trayectorias largas de programación

Después del preentrenamiento continuado, Cursor entrena Composer 2 en tareas de programación de largo horizonte mediante aprendizaje por refuerzo. La empresa afirma que Composer 2 puede resolver problemas difíciles que requieren cientos de acciones. En términos prácticos, eso significa que se está enseñando al modelo a persistir a través de depuración de múltiples pasos, navegación por el código y ciclos iterativos de reparación, en lugar de producir una respuesta de un solo intento y detenerse ahí.

La auto-sumarización es un avance clave de investigación

Cursor entrena Composer para horizontes más largos usando “auto-sumarización”. En esa configuración, cuando el modelo alcanza un disparador de contexto, se detiene y resume su propio estado de trabajo, luego continúa desde ese contexto comprimido. Cursor dice que esta técnica le permite entrenar en trayectorias mucho más largas que la ventana máxima de contexto del modelo y recompensar los propios resúmenes como parte de la señal de entrenamiento.

Durabilidad

La ventaja práctica es la durabilidad. Las tareas largas de programación suelen fallar cuando un agente olvida una decisión anterior o pierde detalles importantes en un espacio de trabajo amplio. La auto-sumarización reduce el error de compactación en un 50% mientras usa una quinta parte de los tokens en comparación con una línea base de compactación basada en prompts ajustados en sus entornos de prueba. Esa es una afirmación importante, porque la compactación es uno de los puntos débiles de los sistemas de agentes actuales.

¿Qué hay de nuevo en Composer 2?

1. Preentrenamiento continuado + escalado de RL

Composer 2 introduce el primer pipeline de preentrenamiento continuado a gran escala de Cursor, creando un modelo base más sólido para aprendizaje por refuerzo.

Luego, aplica:

Entrenamiento de RL de largo horizonte
Encadenamiento de tareas a través de múltiples pasos
Flujos de trabajo de programación del mundo real

👉 Resultado: mejor manejo de tareas de ingeniería complejas, no solo fragmentos de código.

2. Ejecución de tareas de largo horizonte

A diferencia de modelos anteriores que fallan después de unos pocos pasos:

Composer 2 puede completar refactorizaciones multiarchivo
Ejecutar flujos de trabajo de terminal
Mantener estado a través de cientos de acciones

Esto lo acerca a un verdadero comportamiento de agente de programación con IA.

3. Estrategia de entrenamiento solo con código

Composer 2 se entrena solo con datos relacionados con programación.

Por qué esto importa:

Factor	Modelos generales	Composer 2
Tamaño del modelo	Grande	Más pequeño
Alcance	Amplio	Reducido
Eficiencia	Menor	Mayor
Costo	Alto	Bajo

👉 Esto explica la enorme ventaja de precio-rendimiento.

4. Fundación híbrida (Kimi Base + RL)

Revelaciones recientes mostraron que Composer 2 se construyó inicialmente sobre Kimi K2.5 (Moonshot AI) con entrenamiento adicional por refuerzo.

Solo ~25% del cómputo proviene del modelo base
La mayor parte proviene del stack de entrenamiento de Cursor

👉 Esto refleja una nueva tendencia: ingeniería de modelos híbridos + optimización propietaria

Benchmarks de rendimiento

Modelo	CursorBench	Terminal-Bench 2.0	SWE-bench Multilingual
Composer 2	61.3	61.7	73.7
Composer 1.5	44.2	47.9	65.9
Composer 1	38.0	40.0	56.9

En comparación con Composer 1.5, Composer 2 es aproximadamente un 38.7% superior en CursorBench, un 28.8% superior en Terminal-Bench 2.0 y un 11.8% superior en SWE-bench Multilingual. Eso no demuestra superioridad universal sobre todos los modelos externos, pero sí muestra un claro salto dentro de la propia línea de modelos de Cursor.

¿Cómo accedes a Composer 2?

Cursor posiciona a Composer 2 como parte del flujo de trabajo del producto centrado en agentes. Está disponible en Cursor mismo, y Cursor dice que en los planes individuales, el uso de Composer proviene de un pool de uso independiente con un uso incluido generoso. Cursor también dice que los usuarios pueden probar Composer 2 en la “alpha temprana” de su nueva interfaz. Eso significa que Composer 2 no es solo una API de modelo; está pensado para usarse dentro del flujo de trabajo agéntico de Cursor, donde el editor, el agente, el navegador y las herramientas de revisión trabajan juntos.

Dentro de Cursor

Composer 2 está disponible en Cursor y también en la alpha temprana de su nueva interfaz. El modelo práctico de acceso es nativo del producto, no orientado primero a API: los usuarios interactúan con él dentro del editor Cursor y su flujo de trabajo con agentes. Eso es coherente con la dirección más amplia de Cursor, donde la empresa trata el editor como la superficie principal para la interacción con modelos.

Pools de uso y estructura de planes

Cada plan individual incluye dos pools de uso que se restablecen en cada ciclo de facturación: Auto + Composer, que ofrece significativamente más uso incluido cuando se selecciona Auto o Composer 2, y un pool de API cobrado a la tarifa API del modelo. Cursor también dice que los planes individuales incluyen al menos $20 de uso de API cada mes, y la cantidad exacta aumenta en niveles superiores. La conclusión práctica es que Composer 2 está diseñado para usarse con frecuencia sin obligar inmediatamente a que cada solicitud pase a facturación puramente por API.

Precio de la API:

$0.50 de entrada / $2.50 de salida por 1M tokens; variante rápida $1.50 / $7.50

Contexto de planes

Cursor Pro a $20 por mes, Pro Plus a $60 y Ultra a $200, cada uno con diferentes niveles de uso incluido. Para equipos, Cursor también ofrece Teams y Enterprise con controles adicionales. Esto importa porque Composer 2 no es solo un SKU de modelo; es parte de un paquete de producto más amplio que combina precios, pools de uso y controles de colaboración.

Composer 2 vs Claude Opus 4.6 vs GPT-5.4: ¿Cuál debería elegir?

Terminal-Bench 2.0

Composer 2: Qué hay de nuevo y comparación con Claude Opus 4.6 y GPT-5.4

Modelo	Puntuación
Composer 2	61.7
Claude Opus 4.6	~58
GPT-5.4	~75

👉 Composer 2:

Está por detrás de GPT-5.4 en rendimiento máximo

Supera a Opus 4.6 en algunas configuraciones

Precios oficiales

Modelo	Entrada ($/M tokens)	Salida ($/M tokens)
Composer 2	0.50	2.50
Composer 2 Fast	1.50	7.50
Claude Opus 4.6	5.00	25.00
GPT-5.4	2.50–5.00	15.00–22.50

👉 Composer 2 es:

10× más barato que Opus 4.6
~5–6× más barato que GPT-5.4

¿Por qué Claude Opus 4.6 y GPT-5.4 siguen valiendo la pena?

Composer 2 encaja muy bien para desarrolladores que pasan la mayor parte de su tiempo dentro de Cursor, especialmente en bucles repetitivos de edición de código, refactorizaciones, cambios multiarchivo y tareas agénticas que se benefician de la velocidad y la eficiencia de costos; está optimizado en torno al código y la ejecución de acciones de largo horizonte, con precios dramáticamente más bajos.

Pero Claude Opus 4.6 y GPT-5.4 aportan capacidades profesionales más amplias, grandes ventanas de contexto y funciones empresariales más ricas. Si necesitas producir un ensayo pulido, una hoja de cálculo y un flujo de trabajo de agente de navegador de una sola vez.

Tabla comparativa:

Característica	Composer 2	Claude Opus 4.6	GPT-5.4
Enfoque	Solo programación	IA general	IA general
Costo	⭐ El más bajo	Muy alto	Medio
Precisión en código	Alta	Muy alta	Alta
Razonamiento	Medio	Muy alto	Muy alto
Velocidad	Variante rápida disponible	Moderada	Moderada
Capacidad de agente	Fuerte	Fuerte	En mejora
Multimodal	❌	✅	✅
Mejor caso de uso	Flujos de trabajo dev	Tareas de nivel investigación	General + programación

Casos de uso ideales y acceso

Si la tarea requiere razonamiento amplio, trabajo multimodal o uso empresarial general, GPT-5.4 y Claude Opus 4.6 son ambos candidatos sólidos según su posicionamiento oficial y capacidades. Si la tarea es programación cotidiana dentro de Cursor, especialmente cuando importan el costo y la velocidad de iteración, Composer 2 es la opción más especializada y barata. Cursor posiciona a Composer 2 como un modelo especializado de programación agéntica para Cursor mismo. , GPT-5.4 y Opus 4.6 son modelos frontier amplios, mientras que Composer 2 está diseñado específicamente para el bucle IDE-agente.

OpenAI posiciona GPT-5.4 como un modelo frontier para trabajo profesional complejo, con soporte de herramientas en la API y fuerte razonamiento general. Anthropic posiciona Claude Opus 4.6 como su modelo más inteligente para programación, razonamiento y trabajo agéntico; ahora todos están disponibles a través de CometAPI.

La API de CometAPI tiene actualmente un 20% de descuento y puede generar playgrounds directamente. En comparación con otras soluciones, CometAPI es una opción mucho mejor; es esencialmente un cursor que no requiere suscripción.

Conclusión

Composer 2 no es solo otro modelo incremental de Cursor. Es el intento de Cursor de redefinir la curva de precio-rendimiento para agentes de programación: resultados de benchmark más sólidos que sus predecesores, un diseño centrado en el comportamiento agéntico de largo horizonte y precios dramáticamente por debajo de las grandes alternativas frontier. La propia evidencia de Cursor muestra mejoras claras sobre Composer 1 y 1.5, mientras que sus precios dejan por debajo a Claude Opus 4.6 por 10x y a GPT-5.4 por 5x en tokens de entrada.

Para equipos que ya viven en Cursor, Composer 2 es una opción predeterminada convincente para muchas tareas de programación. Para el trabajo más difícil, de mayor riesgo o de alcance más amplio, Claude Opus 4.6 y GPT-5.4 siguen siendo los benchmarks premium con los que compararlo. La verdadera historia es que el mercado frontier de programación se está volviendo más preciso, más barato y más especializado al mismo tiempo.

Si estás buscando una alternativa a Cursors, o una API de modelos de vanguardia más barata como Claude Opus 4.6 y GPT-5.4, entonces CometAPI es la mejor opción. ¿Listo para empezar?