4 Giugno 2025 — OpenAI ha rilasciato una potente suite di aggiornamenti volti a rivoluzionare il modo in cui gli sviluppatori creano agenti di intelligenza artificiale, in particolare quelli con funzionalità di interazione vocale. Gli aggiornamenti riguardano diversi fronti: il supporto completo di TypeScript nell'Agents SDK, un meccanismo di intervento umano integrato, il debutto di RealtimeAgent per app vocali in tempo reale e significativi miglioramenti al modello speech-to-speech di OpenAI.
Insieme, questi aggiornamenti rendono la creazione di agenti di intelligenza artificiale sicuri, controllabili e coinvolgenti più accessibile che mai.
TypeScript arriva sull'Agents SDK
Potenziare gli sviluppatori nell'ecosistema web
Il popolare Agents SDK di OpenAI ora supporta TypeScript, offrendo strumenti robusti agli sviluppatori che creano applicazioni di intelligenza artificiale in ambienti JavaScript e Node.js. La versione TypeScript offre la stessa funzionalità della sua controparte Python, supportando tutte le primitive essenziali per la creazione di agenti:
- Handoff – Trasferimenti di attività senza interruzioni tra più agenti
- guardrails – Vincoli comportamentali e meccanismi di sicurezza
- Tracciato – Registrazione e diagnostica a grana fine
- MCP (modello multicomponente) – Supporto per agenti modulari e distribuiti
Perchè importa:
Gli sviluppatori web possono ora integrare senza problemi agenti di intelligenza artificiale nei browser, nelle app web e negli ambienti Node.js, consentendo esperienze come assistenti vocali, chatbot in tempo reale e copiloti nel browser.
Meccanismo di revisione Human-in-the-Loop (HITL)
Introduzione della supervisione umana per un comportamento più sicuro degli agenti
Per rafforzare la sicurezza e la responsabilità, OpenAI introduce una funzionalità di approvazione umana nei flussi di lavoro degli agenti. Prima che un agente possa eseguire determinate chiamate a strumenti esterni o azioni API, un operatore può intervenire per approvare, negare o modificare il comportamento.
Flusso di lavoro principale:
- Sospendi l'esecuzione dello strumento
- Serializzare e salvare lo stato corrente dell'agente
- Richiedi revisione e approvazione umana
- Riprendi il flusso di lavoro dopo la conferma
Ideale per:
Casi d'uso che comportano rischi elevati, come transazioni finanziarie, analisi di dati medici o attività di assistenza clienti sensibili. Questo meccanismo migliora la trasparenza, la conformità e le garanzie etiche nel processo decisionale dell'IA.
RealtimeAgent: creare agenti vocali non è mai stato così facile
La novità di OpenAI Agente in tempo reale La funzionalità sfrutta l'API Realtime per consentire agli sviluppatori di creare agenti vocali robusti che funzionano sia sul lato client che sul lato server.
Caratteristiche principali:
- Input e output vocale in tempo reale
- Chiamata di funzione/strumento integrata
- Supporto per interruzioni e riproduzione audio dinamica
- Compatibilità con i passaggi di mano e i guardrail
Perché è trasformativo:
Ora, gli agenti vocali possono essere sviluppati proprio come gli agenti di testo, con accesso completo agli strumenti e alla logica dell'intelligenza artificiale. Questo apre le porte ad applicazioni avanzate come:
- Sistemi di supporto vocale basati sull'intelligenza artificiale
- Strumenti di traduzione o dettatura in tempo reale
- Giochi di ruolo interattivi con comando vocale
La dashboard di Traces riceve un aggiornamento incentrato sulla voce
Visualizzare ogni fase di un'interazione vocale
. tracce Lo strumento di debug e monitoraggio è stato aggiornato per supportare una visualizzazione avanzata delle sessioni dell'agente vocale in tempo reale.
Nuove funzionalità della dashboard:
- Visualizzazione delle forme d'onda audio per le risposte dell'utente e dell'agente
- Cronologia delle chiamate degli strumenti di registrazione e dei relativi parametri
- Evidenziare i punti di interruzione (ad esempio, quando un utente interviene a metà frase)
Vantaggi per gli sviluppatori: Debug più chiaro, iterazione più rapida e migliore ottimizzazione delle esperienze utente basate sulla voce.
Modello Speech-to-Speech GPT-4o: più intelligente, più naturale
Voce più intelligente, esecuzione migliorata
Il modello vocale GPT-4o è stato ampiamente migliorato per aumentarne l'efficacia nelle attività vocali in tempo reale:
- Migliore insegnamento successivo – Esegue i comandi con maggiore precisione
- Utilizzo più coerente degli strumenti – Riduce la variabilità nell’invocazione degli strumenti
- Gestione migliorata delle interruzioni – Adattamenti più intelligenti a metà dialogo
- Velocità di lettura regolabile - Nuovo
speedparametro per la cadenza flessibile dell'output vocale
Modelli disponibili:
gpt-4o-realtime-preview-2025-06-03– Ottimizzato per API in tempo realegpt-4o-audio-preview-2025-06-03– Progettato per il completamento delle chat con audio
Questi aggiornamenti rendono le voci dell'intelligenza artificiale più naturali, più reattive e più facili da usare, sia per i rapidi briefing sulle notizie che per i dialoghi lenti e istruttivi.
Considerazioni finali: una nuova era per gli agenti di intelligenza artificiale vocale
Con questi quattro aggiornamenti, OpenAI continua ad ampliare i confini dello sviluppo di agenti di intelligenza artificiale, rendendo più semplice, sicuro e flessibile per gli sviluppatori la creazione di assistenti digitali simili all'uomo.
L'integrazione del supporto TypeScript, delle approvazioni human-in-the-loop, dei framework degli agenti vocali e dei modelli vocali aggiornati fornisce un kit di strumenti completo per la progettazione di agenti intelligenti, interattivi e consapevoli del contesto su diverse piattaforme e in diversi settori.
Che tu stia creando un assistente vocale, un personaggio di gioco o un tutor virtuale, gli strumenti più recenti di OpenAI ti danno il potere di farlo in modo più rapido e intelligente che mai.
Iniziamo
CometAPI fornisce un'interfaccia REST unificata che aggrega centinaia di modelli di intelligenza artificiale, inclusa la famiglia ChatGPT, in un endpoint coerente, con gestione integrata delle chiavi API, quote di utilizzo e dashboard di fatturazione. Questo significa che non dovrete più destreggiarvi tra URL e credenziali di più fornitori.
Per iniziare, esplora le capacità del modello in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API.
È stato rilasciato il modello Speech-to-Speech GPT-4o in CometAPI che sono gpt-4o-realtime-preview-2025-06-03 e al gpt-4o-audio-preview-2025-06-03Benvenuti!
Vedere anche API GPT-4.1
