Composer 2: Novità e confronto con Claude Opus 4.6 e GPT-5.4

Il Composer 2 di Cursor è il più recente modello di coding agentico dell’azienda, annunciato il 19 marzo 2026. Cursor lo descrive come “di livello frontier per il coding”, progettato per il lavoro software a bassa latenza e disponibile direttamente all’interno di Cursor con un pool di utilizzo separato per i piani individuali. Il lancio ha introdotto anche una variante più veloce con la stessa intelligenza, oltre a una nuova struttura di prezzo pensata per rendere il coding agentico più accessibile rispetto a molti modelli frontier generalisti.

Composer 2 è importante perché riflette un cambiamento più ampio nello sviluppo software con AI: il valore non risiede più solo nella pura intelligenza del modello, ma nella combinazione di velocità, gestione di task di lungo orizzonte, uso degli strumenti ed efficienza dei costi. La stessa impostazione di Cursor è esplicita: il modello è ottimizzato per il coding agentico, può gestire task impegnativi che richiedono centinaia di azioni ed è stato addestrato per preservare il contesto critico lungo workflow di lunga durata.

Che cos’è Composer 2?

Un modello costruito per il coding agentico, non solo per il completamento di testo

Composer 2 è il modello di coding sviluppato internamente da Cursor. Composer 2 è specializzato nell’intelligenza e nella velocità per l’ingegneria del software, addestrato nell’agent harness di Cursor e progettato per funzionare bene su task di coding reali piuttosto che in chat generiche. Questo è importante perché il coding agentico è diverso dalla normale generazione di codice: il modello deve cercare in una codebase, modificare file, ragionare su più passaggi e recuperare dagli errori senza perdere il filo del task. Il post di Cursor sull’addestramento a lungo orizzonte rende questo obiettivo progettuale molto chiaro.

Varianti del doppio modello:

Variante	Scopo
Standard	Costo più basso
Fast	Maggiore velocità (predefinita)

Perché Cursor lo ha creato

I post di ricerca di Cursor suggeriscono una tesi semplice: agenti di coding migliori hanno bisogno sia di intelligenza sia di una continuazione efficiente lungo molti passaggi. Le osservazioni del suo benchmark interno (CursorBench) mostrano che prestazioni più forti su task di coding difficili e reali correlano con più ragionamento e più esplorazione della codebase. Composer 2 è quindi addestrato non solo per risolvere task, ma per continuare a risolverli lungo traiettorie lunghe che superano la lunghezza del contesto immediato del modello.

Come funziona Composer 2?

Il continued pretraining è il grande aggiornamento

I miglioramenti qualitativi di Composer 2 derivano dal suo “primo ciclo di continued pretraining”, che viene descritto come una base molto più forte per il reinforcement learning. Questo è importante perché suggerisce che il modello non sia semplicemente una versione ottimizzata di Composer 1.5; è un punto di partenza migliore per il tipo di comportamento di coding a lungo orizzonte che Cursor vuole ottenere.

Reinforcement learning su lunghe traiettorie di coding

Dopo il continued pretraining, Cursor addestra Composer 2 su task di coding a lungo orizzonte tramite reinforcement learning. L’azienda afferma che Composer 2 può risolvere problemi difficili che richiedono centinaia di azioni. In termini pratici, questo significa che al modello viene insegnato a perseverare attraverso debugging multi-step, navigazione del codice e cicli iterativi di correzione, invece di produrre una risposta one-shot e fermarsi lì.

L’auto-sintesi è un importante avanzamento di ricerca

Cursor addestra Composer per orizzonti più lunghi usando la “self-summarization”. In questa configurazione, quando il modello raggiunge un trigger di contesto, si ferma e sintetizza il proprio stato di lavoro, poi continua da quel contesto compresso. Cursor afferma che questa tecnica gli consente di addestrarsi su traiettorie molto più lunghe della finestra massima di contesto del modello e di premiare le sintesi stesse come parte del segnale di addestramento.

Robustezza

Il vantaggio pratico è la robustezza. I task di coding lunghi spesso falliscono quando un agente dimentica una decisione precedente o perde i dettagli importanti in uno spazio di lavoro esteso. La self-summarization riduce l’errore di compattazione del 50% usando un quinto dei token rispetto a una baseline di compattazione basata su prompt ottimizzati nei suoi ambienti di test. Si tratta di un’affermazione significativa, perché la compattazione è uno dei punti deboli degli attuali sistemi agentici.

Cosa c’è di nuovo in Composer 2?

1. Continued Pretraining + RL Scaling

Composer 2 introduce la prima pipeline di continued pretraining su larga scala di Cursor, creando un modello base più forte per il reinforcement learning.

Poi applica:

Addestramento RL a lungo orizzonte
Concatenazione di task su più passaggi
Workflow di coding del mondo reale

👉 Risultato: migliore gestione di task di ingegneria complessi, non solo snippet di codice.

2. Esecuzione di task a lungo orizzonte

A differenza dei modelli precedenti che falliscono dopo pochi passaggi:

Composer 2 può completare refactoring multi-file
Eseguire workflow di terminale
Mantenere lo stato attraverso centinaia di azioni

Questo lo avvicina a un vero comportamento da agente AI per il coding.

3. Strategia di addestramento solo su codice

Composer 2 è addestrato solo su dati legati alla programmazione.

Perché è importante:

Fattore	Modelli generali	Composer 2
Dimensione modello	Grande	Più piccolo
Ambito	Ampio	Ristretto
Efficienza	Inferiore	Maggiore
Costo	Alto	Basso

👉 Questo spiega il massiccio vantaggio prezzo-prestazioni.

4. Fondamento ibrido (Kimi Base + RL)

Rivelazioni recenti hanno mostrato che Composer 2 è stato inizialmente costruito sopra Kimi K2.5 (Moonshot AI) con ulteriore addestramento di reinforcement learning.

Solo circa il 25% del calcolo dal modello base
La maggior parte dallo stack di addestramento di Cursor

👉 Questo riflette una nuova tendenza: ingegneria di modelli ibridi + ottimizzazione proprietaria

Benchmark delle prestazioni

Modello	CursorBench	Terminal-Bench 2.0	SWE-bench Multilingual
Composer 2	61.3	61.7	73.7
Composer 1.5	44.2	47.9	65.9
Composer 1	38.0	40.0	56.9

Rispetto a Composer 1.5, Composer 2 è circa il 38,7% più alto su CursorBench, il 28,8% più alto su Terminal-Bench 2.0 e l’11,8% più alto su SWE-bench Multilingual. Questo non dimostra una superiorità universale rispetto a ogni modello esterno, ma mostra chiaramente un passo avanti all’interno della linea di modelli di Cursor.

Come si accede a Composer 2?

Cursor presenta Composer 2 come parte del workflow agent-first del prodotto. È disponibile in Cursor stesso e Cursor afferma che, nei piani individuali, l’utilizzo di Composer proviene da un pool di utilizzo separato con un’ampia quota inclusa. Cursor afferma anche che gli utenti possono provare Composer 2 nell’“early alpha” della sua nuova interfaccia. Questo significa che Composer 2 non è solo un’API di modello; è pensato per essere usato all’interno del workflow agentico di Cursor, dove editor, agente, browser e strumenti di review lavorano insieme.

All’interno di Cursor

Composer 2 è disponibile in Cursor e anche nell’early alpha della sua nuova interfaccia. Il modello pratico di accesso è nativo del prodotto piuttosto che API-first: gli utenti interagiscono con esso all’interno dell’editor Cursor e del suo workflow agentico. Questo è coerente con la direzione più ampia di Cursor, in cui l’azienda considera l’editor come la superficie primaria per l’interazione con il modello.

Pool di utilizzo e struttura dei piani

Ogni piano individuale include due pool di utilizzo che si azzerano a ogni ciclo di fatturazione: Auto + Composer, che offre un utilizzo incluso significativamente maggiore quando è selezionato Auto o Composer 2, e un pool API addebitato alla tariffa API del modello. Cursor afferma inoltre che i piani individuali includono almeno 20 $ di utilizzo API ogni mese, con un importo esatto che aumenta nei livelli superiori. In pratica, questo significa che Composer 2 è progettato per essere usato frequentemente senza costringere immediatamente ogni richiesta alla pura fatturazione API.

Prezzo API:

0,50 $ input / 2,50 $ output per 1M token; variante fast 1,50 $ / 7,50 $

Contesto dei piani

Cursor Pro a 20 $ al mese, Pro Plus a 60 $ e Ultra a 200 $, ciascuno con diversi livelli di utilizzo incluso. Per i team, Cursor offre anche Teams ed Enterprise con controlli aggiuntivi. Questo è importante perché Composer 2 non è solo uno SKU di modello; fa parte di un pacchetto di prodotto più ampio che combina prezzi, pool di utilizzo e controlli di collaborazione.

Composer 2 vs Claude Opus 4.6 vs GPT-5.4: quale dovrei scegliere?

Terminal-Bench 2.0

Composer 2: Novità e confronto con Claude Opus 4.6 e GPT-5.4

Modello	Punteggio
Composer 2	61.7
Claude Opus 4.6	~58
GPT-5.4	~75

👉 Composer 2:

È dietro GPT-5.4 nelle prestazioni di picco

Supera Opus 4.6 in alcune configurazioni

Prezzi ufficiali

Modello	Input ($/M token)	Output ($/M token)
Composer 2	0.50	2.50
Composer 2 Fast	1.50	7.50
Claude Opus 4.6	5.00	25.00
GPT-5.4	2.50–5.00	15.00–22.50

👉 Composer 2 è:

10× più economico di Opus 4.6
~5–6× più economico di GPT-5.4

Perché Claude Opus 4.6 e GPT-5.4 valgono ancora la pena?

Composer 2 è adatto agli sviluppatori che trascorrono la maggior parte del loro tempo dentro Cursor, soprattutto in loop ripetitivi di modifica del codice, refactoring, cambiamenti multi-file e task agentici che beneficiano di velocità ed efficienza dei costi; è ottimizzato attorno al codice e all’esecuzione di azioni a lungo orizzonte, con prezzi drasticamente più bassi.

Ma Claude Opus 4.6 e GPT-5.4 portano entrambi capacità professionali più ampie, grandi finestre di contesto e funzionalità enterprise più ricche. Se hai bisogno di produrre in un solo passaggio un saggio rifinito, un foglio di calcolo e un workflow di browser-agent.

Tabella di confronto:

Funzionalità	Composer 2	Claude Opus 4.6	GPT-5.4
Focus	Solo coding	AI generale	AI generale
Costo	⭐ Il più basso	Molto alto	Medio
Accuratezza nel coding	Alta	Molto alta	Alta
Ragionamento	Medio	Molto alto	Molto alto
Velocità	Variante fast disponibile	Moderata	Moderata
Capacità agentica	Forte	Forte	In miglioramento
Multimodale	❌	✅	✅
Caso d’uso migliore	Workflow di sviluppo	Task di livello ricerca	Generale + coding

Casi d’uso ideali e accesso

Se il task richiede ragionamento ampio, lavoro multimodale o uso enterprise generale, GPT-5.4 e Claude Opus 4.6 sono entrambi candidati forti in base al loro posizionamento ufficiale e alle loro capacità. Se il task è il coding quotidiano dentro Cursor, soprattutto dove contano costo e velocità di iterazione, Composer 2 è l’opzione più specializzata ed economica. Cursor presenta Composer 2 come un modello specializzato di coding agentico per Cursor stesso. , GPT-5.4 e Opus 4.6 sono modelli frontier generalisti, mentre Composer 2 è costruito appositamente per il loop IDE-agente.

OpenAI presenta GPT-5.4 come un modello frontier per lavoro professionale complesso, con supporto agli strumenti nell’API e un forte ragionamento generale. Anthropic presenta Claude Opus 4.6 come il suo modello più intelligente per coding, ragionamento e lavoro agentico; ora sono tutti disponibili tramite CometAPI.

L’API di CometAPI è attualmente scontata del 20% e può generare direttamente playground. Rispetto ad altre soluzioni, CometAPI è un’opzione molto migliore; è essenzialmente un cursor che non richiede un abbonamento.

Conclusione

Composer 2 non è solo un altro modello incrementale di Cursor. È il tentativo di Cursor di ridefinire la curva prezzo-prestazioni per gli agenti di coding: risultati di benchmark più forti rispetto ai suoi predecessori, un design centrato sul comportamento agentico a lungo orizzonte e prezzi drasticamente inferiori alle grandi alternative frontier. Le prove fornite da Cursor mostrano chiari miglioramenti rispetto a Composer 1 e 1.5, mentre il suo prezzo è 10 volte inferiore a Claude Opus 4.6 e 5 volte inferiore a GPT-5.4 sugli input token.

Per i team che vivono già in Cursor, Composer 2 è un’impostazione predefinita convincente per molti task di coding. Per il lavoro più difficile, più critico o più ampio, Claude Opus 4.6 e GPT-5.4 restano i benchmark premium con cui confrontarsi. La vera storia è che il mercato frontier del coding sta diventando allo stesso tempo più preciso, più economico e più specializzato.

Se stai cercando un’alternativa a Cursor, o un’API di modelli all’avanguardia più economica come Claude Opus 4.6 e GPT-5.4, allora CometAPI è la scelta migliore. Pronto per iniziare?