5 importanti aggiornamenti alle API di Sora 2: spiegazione dettagliata

Sviluppato da OpenAI, Sora 2 rappresenta un grande salto nei media generativi, trasformando il modo in cui sviluppatori, imprese e professionisti creativi costruiscono applicazioni video‑first. Dalla sua uscita alla fine del 2025, l’ecosistema API — compreso l’accesso tramite provider di terze parti come CometAPI — è maturato significativamente, introducendo nuove funzionalità orientate a scalabilità, realismo e affidabilità di livello produttivo.

Panoramica dei cinque aggiornamenti principali

L’ultimo aggiornamento dell’API di Sora 2 introduce cinque miglioramenti importanti:

Funzione	Descrizione	Impatto
Coerenza del ruolo	Identità dei personaggi persistente tra le scene	Risolve i problemi di continuità
Durata video di 20 s	Aumentata da 12 secondi	Consente lo storytelling
Generazione in batch	Job video asincroni	Produzione scalabile
Estensione video	Estende le clip utilizzando il contesto completo	Workflow di montaggio migliori
Output multi-formato	1080p + verticale/orizzontale	Pubblicazione multipiattaforma

Questi aggiornamenti affrontano collettivamente tre colli di bottiglia fondamentali del video AI:

Continuità
Durata
Scalabilità

Che cosa sono Sora 2 e Pro

Sora 2 è un modello di generazione video AI di nuova generazione lanciato da OpenAI. Può generare automaticamente video di alta qualità contenenti immagini e audio a partire da input come testo e immagini, ed è adatto allo sviluppo di applicazioni e alla produzione di contenuti su larga scala. Sora 2 Pro è una versione di fascia più alta basata su questo, che offre risoluzione superiore, realismo delle immagini più elevato, durata video più lunga e controlli più raffinati. Tuttavia, presenta anche costi e prezzi di calcolo più alti, ed è rivolto principalmente a scenari con requisiti di qualità estremamente elevati, come produzione cinematografica e televisiva professionale e creatività pubblicitaria.

L’aggiornamento di marzo 2026 segna una tappa cruciale: per la prima volta, il video generato dall’AI non è solo visivamente impressionante, ma anche operativamente scalabile per i workflow aziendali.

1. Coerenza del ruolo (Persistenza del personaggio)

Una delle innovazioni più significative è la coerenza del personaggio, detta anche “coerenza del ruolo”.

Il miglioramento pratico più importante per molte squadre è la possibilità di riutilizzare asset di personaggi tra diverse generazioni. È possibile caricare un soggetto non umano riutilizzabile e riferirvisi in più video per mantenere coerenti aspetto, stile e presenza in scena. Animali, mascotte e oggetti sono casi d’uso forti, e si precisa che un singolo video può includere fino a due personaggi.

Questo è importante perché la “coerenza del ruolo” è stata a lungo uno dei problemi più difficili nella produzione video con AI. Una campagna spesso necessita che la stessa mascotte, lo stesso oggetto di prodotto o simbolo visivo appaiano in più inquadrature senza deviazioni. L’aggiornamento di OpenAI riduce la necessità di ripetere gli stessi vincoli di identità in ogni prompt e rende il modello più utile per storytelling episodico, asset di brand e produzione creativa basata su template. Questa è un’inferenza derivata dal nuovo workflow di riferimento dei personaggi e dalla descrizione di OpenAI di una maggiore coerenza visiva tra le generazioni.

C’è però una limitazione importante: i caricamenti di personaggi che ritraggono sembianze umane sono bloccati per impostazione predefinita, non è possibile generare persone reali e le immagini in input con volti umani sono attualmente rifiutate. In altre parole, questo strumento di coerenza è potente, ma non è una funzione generale per “rendere qualsiasi persona identica ogni volta”. È ottimizzato per soggetti non umani e contenuti conformi alle policy.

In precedenza, i modelli video AI soffrivano di drift visivo, in cui i personaggi cambiavano in modo imprevedibile tra un’inquadratura e l’altra. Il nuovo sistema garantisce la continuità tra le scene.

Approfondimenti sulle prestazioni:

Coerenza basata solo sul prompt: ~70% di accuratezza
Sistema nativo (Sora 2): coerenza 95%+

Perché è importante:

Essenziale per lo storytelling
Critico per branding e marketing
Abilita la produzione di contenuti episodici

la creazione dei personaggi utilizza una clip MP4 lunga 2–4 secondi, a 720p–1080p, in 16:9 o 9:16. Si afferma inoltre che i video sorgente dei personaggi funzionano meglio quando il loro rapporto d’aspetto corrisponde all’output richiesto e che un singolo video può includere fino a due personaggi

2) Il limite di 20 secondi è un vero cambiamento di workflow

La durata massima di Sora 2 è aumentata da 12 a 20 secondi. Sono 8 secondi in più, ovvero il 66,7% di runtime in più rispetto a prima. In termini di produzione video, è spazio sufficiente per una rivelazione più lunga, un’azione aggiuntiva o una demo prodotto più completa, senza dover unire subito più generazioni.

Casi d’uso:

Annunci per social (15–20 s ottimali)
Brevi sequenze narrative
Dimostrazioni di prodotto

Contesto tecnico:

Video più lunghi richiedono:

Migliore coerenza temporale
Migliore gestione della memoria
Coordinamento avanzato tra diffusione e transformer

3) Output multi-formato e risoluzione

La più recente API di Sora è chiaramente pensata per i canali di distribuzione moderni. La documentazione di OpenAI indica che sora-2-pro deve essere usato quando servono esportazioni in 1080p in 1920×1080 o 1080×1920, e la guida ai personaggi afferma che le clip sorgente funzionano meglio in 16:9 o 9:16. Questo dà all’API un’ottima aderenza a YouTube, landing page, presentazioni, TikTok, Reels, Shorts e posizionamenti pubblicitari verticali.

Perché conta:

Il video verticale domina piattaforme come TikTok/Reels
Elimina la necessità di post‑produzione

📈 Aggiornamento di qualità:

Output 1080p di livello professionale
Adatto a usi commerciali

4) Le estensioni video rendono più pulito lo storytelling lungo

L’aggiornamento aggiunge anche le estensioni video, che OpenAI descrive come un modo per continuare una clip completata e creare un nuovo risultato cucito insieme. Il workflow di estensione utilizza l’intera clip sorgente come contesto, non solo l’ultimo fotogramma, aspetto particolarmente importante per preservare movimento, direzione della camera e continuità della scena.

Questa è una differenza sottile ma importante rispetto a una semplice continuazione basata sui fotogrammi. Se il modello vede l’intera clip sorgente, può preservare meglio ritmo e movimento tra i segmenti. Questo dovrebbe rendere più facile costruire scene che sembrino progettate come un’unica ripresa continua, anziché come output debolmente collegati. Questa è un’inferenza basata sulla spiegazione di OpenAI secondo cui le estensioni usano il contesto dell’intera clip iniziale e sono pensate per preservare movimento e continuità.

OpenAI afferma anche che ogni estensione può aggiungere fino a 20 secondi, un singolo video può essere esteso fino a sei volte e la lunghezza massima totale può raggiungere 120 secondi. Tuttavia, le estensioni attualmente accettano solo un video sorgente e un prompt, e non supportano personaggi o riferimenti a immagini. Si crea così un confine chiaro: le estensioni servono alla continuità, mentre i riferimenti ai personaggi servono all’identità riutilizzabile.

Vantaggi chiave:

Mantiene la continuità della scena
Estende le narrazioni in modo naturale
Evita transizioni brusche

Differenza rispetto ai modelli precedenti:

Modelli precedenti: usavano solo l’ultimo fotogramma
Sora 2: usa il contesto dell’intera clip

5) La generazione in batch è il più grande upgrade di scalabilità

Il supporto all’API Batch è l’aggiornamento più rilevante per i team di produzione. OpenAI afferma che l’API Batch può essere utilizzata per inviare grandi code di render offline, e la sua documentazione indica che è adatta a shot list, code di render programmate, pipeline di revisione e workflow di studio. Nella guida specifica ai video, OpenAI afferma che Batch supporta attualmente solo POST /v1/videos, le richieste devono usare JSON invece di multipart, gli asset vanno caricati in anticipo e input_reference deve essere fornito nel corpo della richiesta JSON.

C’è anche un reale incentivo sui costi. OpenAI afferma che l’API Batch fa risparmiare il 50% su input e output ed esegue i task in modo asincrono nell’arco di 24 ore. Nella pagina prezzi, la tariffa standard sora-2-pro 1080p è di $0.70 al secondo, mentre il prezzo Batch per lo stesso livello è $0.35 al secondo. Ciò significa che una clip 1080p da 20 secondi costerebbe circa $14.00 a tariffa standard e circa $7.00 tramite Batch, prima di qualsiasi altro costo di workflow. Questo confronto è un calcolo diretto basato sui prezzi pubblicati da OpenAI.

Per i team che producono molti clip contemporaneamente, questo può cambiare l’economia della sperimentazione. Invece di pagare il prezzo pieno per ogni render, i team possono mettere in coda un’ampia serie di varianti durante la notte e rivedere i migliori output il giorno successivo. È esattamente il tipo di workflow per cui Batch è stato costruito, e le stesse linee guida sui rate‑limit di OpenAI confermano che i job Batch sono conteggiati in modo diverso rispetto alle richieste online standard.

Conclusione

Nel complesso, questi cinque aggiornamenti fanno percepire Sora 2 meno come un generatore di novità e più come una piattaforma di produzione. I riferimenti ai personaggi riutilizzabili migliorano la coerenza. Le clip da 20 secondi riducono l’overhead di stitching. Le esportazioni 1080p rendono il tier premium pratico per deliverable curati. Le estensioni video migliorano la continuità. La generazione in batch aggiunge scala ed efficienza dei costi.

Gli sviluppatori possono accedere a Sora 2 e Sora 2 Pro tramite CometAPI(CometAPI è una piattaforma di aggregazione all‑in‑one per API di large model come le GPT API, le Nano Banana API, ecc.) fin da ora. Prima di accedere, assicurati di aver effettuato l’accesso a CometAPI e di aver ottenuto la chiave API. CometAPI offre un prezzo molto inferiore a quello ufficiale per aiutarti nell’integrazione.

Pronti a iniziare?