Agenti che trasformano lo sviluppo dell'intelligenza artificiale: ultimi aggiornamenti di OpenAI

4 Giugno 2025 — OpenAI ha rilasciato una potente suite di aggiornamenti volti a rivoluzionare il modo in cui gli sviluppatori creano agenti di intelligenza artificiale, in particolare quelli con funzionalità di interazione vocale. Gli aggiornamenti riguardano diversi fronti: il supporto completo di TypeScript nell'Agents SDK, un meccanismo di intervento umano integrato, il debutto di RealtimeAgent per app vocali in tempo reale e significativi miglioramenti al modello speech-to-speech di OpenAI.

Insieme, questi aggiornamenti rendono la creazione di agenti di intelligenza artificiale sicuri, controllabili e coinvolgenti più accessibile che mai.

TypeScript arriva sull'Agents SDK

Potenziare gli sviluppatori nell'ecosistema web

Il popolare Agents SDK di OpenAI ora supporta TypeScript, offrendo strumenti robusti agli sviluppatori che creano applicazioni di intelligenza artificiale in ambienti JavaScript e Node.js. La versione TypeScript offre la stessa funzionalità della sua controparte Python, supportando tutte le primitive essenziali per la creazione di agenti:

Handoff – Trasferimenti di attività senza interruzioni tra più agenti
guardrails – Vincoli comportamentali e meccanismi di sicurezza
Tracciato – Registrazione e diagnostica a grana fine
MCP (modello multicomponente) – Supporto per agenti modulari e distribuiti

Perchè importa:

Gli sviluppatori web possono ora integrare senza problemi agenti di intelligenza artificiale nei browser, nelle app web e negli ambienti Node.js, consentendo esperienze come assistenti vocali, chatbot in tempo reale e copiloti nel browser.

Meccanismo di revisione Human-in-the-Loop (HITL)

Introduzione della supervisione umana per un comportamento più sicuro degli agenti

Per rafforzare la sicurezza e la responsabilità, OpenAI introduce una funzionalità di approvazione umana nei flussi di lavoro degli agenti. Prima che un agente possa eseguire determinate chiamate a strumenti esterni o azioni API, un operatore può intervenire per approvare, negare o modificare il comportamento.

Flusso di lavoro principale:

Sospendi l'esecuzione dello strumento
Serializzare e salvare lo stato corrente dell'agente
Richiedi revisione e approvazione umana
Riprendi il flusso di lavoro dopo la conferma

Ideale per:

Casi d'uso che comportano rischi elevati, come transazioni finanziarie, analisi di dati medici o attività di assistenza clienti sensibili. Questo meccanismo migliora la trasparenza, la conformità e le garanzie etiche nel processo decisionale dell'IA.

RealtimeAgent: creare agenti vocali non è mai stato così facile

La novità di OpenAI Agente in tempo reale La funzionalità sfrutta l'API Realtime per consentire agli sviluppatori di creare agenti vocali robusti che funzionano sia sul lato client che sul lato server.

Caratteristiche principali:

Input e output vocale in tempo reale
Chiamata di funzione/strumento integrata
Supporto per interruzioni e riproduzione audio dinamica
Compatibilità con i passaggi di mano e i guardrail

Perché è trasformativo:
Ora, gli agenti vocali possono essere sviluppati proprio come gli agenti di testo, con accesso completo agli strumenti e alla logica dell'intelligenza artificiale. Questo apre le porte ad applicazioni avanzate come:

Sistemi di supporto vocale basati sull'intelligenza artificiale
Strumenti di traduzione o dettatura in tempo reale
Giochi di ruolo interattivi con comando vocale

La dashboard di Traces riceve un aggiornamento incentrato sulla voce

Visualizzare ogni fase di un'interazione vocale

. tracce Lo strumento di debug e monitoraggio è stato aggiornato per supportare una visualizzazione avanzata delle sessioni dell'agente vocale in tempo reale.

Nuove funzionalità della dashboard:

Visualizzazione delle forme d'onda audio per le risposte dell'utente e dell'agente
Cronologia delle chiamate degli strumenti di registrazione e dei relativi parametri
Evidenziare i punti di interruzione (ad esempio, quando un utente interviene a metà frase)

Vantaggi per gli sviluppatori: Debug più chiaro, iterazione più rapida e migliore ottimizzazione delle esperienze utente basate sulla voce.

Modello Speech-to-Speech GPT-4o: più intelligente, più naturale

Voce più intelligente, esecuzione migliorata

Il modello vocale GPT-4o è stato ampiamente migliorato per aumentarne l'efficacia nelle attività vocali in tempo reale:

Migliore insegnamento successivo – Esegue i comandi con maggiore precisione
Utilizzo più coerente degli strumenti – Riduce la variabilità nell’invocazione degli strumenti
Gestione migliorata delle interruzioni – Adattamenti più intelligenti a metà dialogo
Velocità di lettura regolabile - Nuovo speed parametro per la cadenza flessibile dell'output vocale

Modelli disponibili:

gpt-4o-realtime-preview-2025-06-03 – Ottimizzato per API in tempo reale
gpt-4o-audio-preview-2025-06-03 – Progettato per il completamento delle chat con audio

Questi aggiornamenti rendono le voci dell'intelligenza artificiale più naturali, più reattive e più facili da usare, sia per i rapidi briefing sulle notizie che per i dialoghi lenti e istruttivi.

Considerazioni finali: una nuova era per gli agenti di intelligenza artificiale vocale

Con questi quattro aggiornamenti, OpenAI continua ad ampliare i confini dello sviluppo di agenti di intelligenza artificiale, rendendo più semplice, sicuro e flessibile per gli sviluppatori la creazione di assistenti digitali simili all'uomo.

L'integrazione del supporto TypeScript, delle approvazioni human-in-the-loop, dei framework degli agenti vocali e dei modelli vocali aggiornati fornisce un kit di strumenti completo per la progettazione di agenti intelligenti, interattivi e consapevoli del contesto su diverse piattaforme e in diversi settori.

Che tu stia creando un assistente vocale, un personaggio di gioco o un tutor virtuale, gli strumenti più recenti di OpenAI ti danno il potere di farlo in modo più rapido e intelligente che mai.

Iniziamo

CometAPI fornisce un'interfaccia REST unificata che aggrega centinaia di modelli di intelligenza artificiale, inclusa la famiglia ChatGPT, in un endpoint coerente, con gestione integrata delle chiavi API, quote di utilizzo e dashboard di fatturazione. Questo significa che non dovrete più destreggiarvi tra URL e credenziali di più fornitori.

Per iniziare, esplora le capacità del modello in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API.

È stato rilasciato il modello Speech-to-Speech GPT-4o in CometAPI che sono gpt-4o-realtime-preview-2025-06-03 e al gpt-4o-audio-preview-2025-06-03Benvenuti!

Vedere anche API GPT-4.1