Il modello vocale GPT-Realtime è ora disponibile e supporta l'input di immagini

OpenAI ha annunciato oggi che Il modello vocale GPT-Realtime è ora disponibile e supporta l'input di immagini, segnando il passaggio dell'API Realtime dalla versione beta alla disponibilità generale per gli agenti vocali di produzione. La release posiziona GPT-Realtime come un modello speech-to-speech a bassa latenza in grado di gestire conversazioni vocali bidirezionali, basando al contempo le risposte sulle immagini fornite durante una sessione.

OpenAI descrive gpt-tempo reale come il suo modello di sintesi vocale più avanzato fino ad oggi: elabora l'audio end-to-end (anziché concatenare fasi separate di sintesi vocale e di conversione da testo a voce), produce un parlato più naturale ed espressivo e mostra miglioramenti misurabili in termini di comprensione, capacità di seguire le istruzioni e chiamata di funzioni. L'azienda evidenzia miglioramenti nei benchmark interni e afferma che il modello cattura sottigliezze come la risata, il cambio di linguaggio a metà frase e una maggiore precisione sui contenuti alfanumerici.

Cosa c'è di nuovo

Input di immagini nelle sessioni vocali dal vivo. Gli sviluppatori possono allegare foto, screenshot o altre immagini insieme ad audio o testo; il modello può rispondere a domande visive, leggere il testo negli screenshot (in stile OCR) e integrare la comprensione della scena nella risposta vocale. Ciò consente flussi di lavoro come domande e risposte visive durante una chiamata o supporto multimodale per il servizio clienti.
Sintesi vocale, latenza più bassa, voci più espressive. GPT-Realtime fornisce un output audio nativo con una latenza di andata e ritorno ridotta rispetto alle vecchie catene STT→LLM→TTS e include opzioni vocali espressive (segnalate come "Cedar" e "Marine" nella copertura). Il modello è ottimizzato per seguire le istruzioni e per le sfumature della conversazione.
Funzionalità di integrazione aziendale. L'aggiornamento dell'API Realtime aggiunge funzionalità orientate alle aziende, come il supporto del server MCP e le chiamate telefoniche SIP, consentendo agli agenti vocali di connettersi direttamente alle reti telefoniche e ai sistemi PBX. Queste aggiunte sono pensate per l'assistenza clienti e le implementazioni nei contact center.

Parametri di riferimento

BigBench Audio (ragionamento): 82.8% — su da 65.6% sul modello in tempo reale di OpenAI di dicembre 2024. Questo è il benchmark di ragionamento principale riportato per attività di ragionamento con capacità audio.

MultiChallenge (istruzioni a seguire, audio): ~30.5% vs ~ 20.6% in precedenza — mostra una migliore aderenza alle istruzioni vocali complesse o composte da più fasi.

ComplexFuncBench (successo nella chiamata di funzione): ~66.5% vs ~ 49.7% in precedenza: maggiore affidabilità quando il modello deve richiamare strumenti/funzioni durante una sessione audio.

Costi e latenza: OpenAI afferma che il nuovo modello riduce il costo audio per token (circa il 20% in meno rispetto alla precedente anteprima in tempo reale) e funziona come un singolo modello end-to-end (nessuna catena STT → LM → TTS separata), il che riduce la latenza end-to-end nei flussi interattivi in tempo reale.

OpenAI afferma che gpt-realtime Il modello dimostra miglioramenti sostanziali in una serie di benchmark oggettivi e comportamenti reali – punteggi più elevati su BigBench Audio e nelle valutazioni di instruction-following/function-call – e una migliore gestione di caratteri alfanumerici, parole in codice e cambio di lingua nell'audio live. L'azienda ha inoltre introdotto due nuove voci (Cedar e Marin) e segnala una riduzione del prezzo del 20% rispetto al precedente modello di anteprima in tempo reale.

L'API in tempo reale e gpt-realtime modello sono ora disponibili per gli sviluppatori (GA), OpenAI ha anche abbassato il prezzo della sua API in tempo reale con questo aggiornamento, riducendo l'input audio a $ 32 per milione di token e l'output audio a $ 64 per milione di token, una riduzione del 20% rispetto al prezzo precedente, offrendo agli sviluppatori una soluzione più economica.

Iniziamo

CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie GPT di OpenAI, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più velocemente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.

Gli sviluppatori possono accedere GPT-5 tramite CometAPI, le ultime versioni dei modelli elencate sono quelle aggiornate alla data di pubblicazione dell'articolo. Per iniziare, esplora le capacità del modello in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API. CometaAPI offrire un prezzo molto più basso rispetto al prezzo ufficiale per aiutarti a integrarti.

L'ultima integrazione gpt-realtime apparirà presto su CometAPI, quindi rimanete sintonizzati!

Cosa c'è di nuovo

Parametri di riferimento

Iniziamo

Leggi di più

500+ Modelli in Una API