Agenten transformeren AI-ontwikkeling: de nieuwste updates van OpenAI

4 juni 2025 — OpenAI heeft een krachtige reeks updates uitgebracht die een revolutie teweegbrengen in de manier waarop ontwikkelaars AI-agents bouwen, met name die met spraakgestuurde interactiemogelijkheden. De updates omvatten meerdere aspecten: volledige TypeScript-ondersteuning in de Agents SDK, een mechanisme voor menselijke interventie, de introductie van RealtimeAgent voor realtime spraakapps en aanzienlijke verbeteringen aan OpenAI's spraak-naar-spraakmodel.

Dankzij deze updates is het bouwen van veilige, controleerbare en aantrekkelijke AI-agenten toegankelijker dan ooit.

TypeScript komt naar de Agents SDK

Ontwikkelaars in het web-ecosysteem meer mogelijkheden bieden

De populaire Agents SDK van OpenAI ondersteunt nu TypeScript, wat robuuste tools biedt aan ontwikkelaars die AI-applicaties bouwen in JavaScript- en Node.js-omgevingen. De TypeScript-versie biedt dezelfde functionaliteit als zijn Python-tegenhanger en ondersteunt alle essentiële primitieven voor het bouwen van agenten:

Overdrachten – Naadloze taakoverdracht tussen meerdere agenten
Vangrails – Gedragsbeperkingen en veiligheidsmechanismen
Tracing – Gedetailleerde logging en diagnostiek
MCP (Multi-Component Patroon) – Ondersteuning voor modulaire, gedistribueerde agenten

Waarom het uitmaakt:

Webontwikkelaars kunnen nu naadloos AI-agenten inbedden in browsers, web-apps en Node.js-omgevingen, waardoor ervaringen zoals spraakassistenten, realtime chatbots en in-browser copilots mogelijk worden.

Human-in-the-Loop (HITL) beoordelingsmechanisme

Introductie van menselijk toezicht voor veiliger agentengedrag

Om de veiligheid en verantwoording te versterken, introduceert OpenAI een menselijke goedkeuringsfunctie in agentworkflows. Voordat een agent bepaalde externe toolaanroepen of API-acties kan uitvoeren, kan een mens ingrijpen om het gedrag goed te keuren, af te wijzen of aan te passen.

Kernworkflow:

Pauzeer de uitvoering van het gereedschap
Serialiseer en sla de huidige agentstatus op
Vraag om menselijke beoordeling en goedkeuring
Hervat de workflow na bevestiging

Ideaal voor:

Use cases met hoge inzetten, zoals financiële transacties, medische data-analyse of gevoelige klantenservicetaken. Dit mechanisme verbetert de transparantie, naleving en ethische waarborgen bij AI-besluitvorming.

RealtimeAgent: het bouwen van voice agents was nog nooit zo eenvoudig

De nieuwe OpenAI RealtimeAgent De functionaliteit maakt gebruik van de Realtime API, zodat ontwikkelaars robuuste spraakagents kunnen bouwen die zowel aan de client- als aan de serverzijde kunnen functioneren.

Belangrijkste kenmerken:

Realtime spraakinvoer en -uitvoer
Geïntegreerde functie-/tooloproep
Ondersteuning voor onderbrekingen en dynamische audioweergave
Compatibiliteit met overdrachten en vangrails

Waarom het transformatief is:
Spraakagenten kunnen nu net als tekstagenten worden ontwikkeld, met volledige toegang tot AI-tools en -logica. Dit opent de deur voor geavanceerde toepassingen zoals:

AI-aangedreven spraakondersteuningssystemen
Realtime vertaal- of dicteerhulpmiddelen
Interactieve, spraakgestuurde rollenspellen

Traces Dashboard krijgt een spraakgestuurde upgrade

Visualiseer elke stap van een spraakinteractie

Het Sporen De tool voor foutopsporing en bewaking is bijgewerkt en ondersteunt nu een uitgebreide visualisatie van realtime spraakagentsessies.

Nieuwe dashboardmogelijkheden:

Audiogolfvormen weergeven voor zowel gebruikers- als agentreacties
Logging van tool-oproepgeschiedenis en hun parameters
Het markeren van onderbrekingen (bijvoorbeeld wanneer een gebruiker midden in een zin tussenbeide komt)

Voordelen voor ontwikkelaars: Duidelijker debuggen, snellere iteratie en betere optimalisatie van spraakgestuurde gebruikerservaringen.

GPT-4o spraak-naar-spraakmodel: intelligenter, natuurlijker

Slimmere stem, verbeterde uitvoering

Het GPT-4o-spraakmodel is uitgebreid verbeterd om de effectiviteit ervan bij realtime spraaktaken te vergroten:

Betere instructie volgen – Voert opdrachten met hogere nauwkeurigheid uit
Consistenter gereedschapsgebruik – Vermindert de variabiliteit in het aanroepen van gereedschappen
Verbeterde afhandeling van onderbrekingen – Slimmere aanpassingen halverwege de dialoog
Instelbare spraaksnelheid - Nieuw speed parameter voor flexibele spraakuitvoerpacing

Beschikbare modellen:

gpt-4o-realtime-preview-2025-06-03 – Geoptimaliseerd voor realtime API
gpt-4o-audio-preview-2025-06-03 – Ontworpen voor chatvoltooiingen met audio

Dankzij deze updates worden AI-stemmen natuurlijker, responsiever en gemakkelijker te sturen, of het nu gaat om snelle nieuwsbrieven of langzame, instructieve dialogen.

Laatste gedachten: een nieuw tijdperk voor spraakgestuurde AI-agenten

Met deze vier updates verlegt OpenAI de grenzen van de ontwikkeling van AI-agenten, waardoor ontwikkelaars eenvoudiger, veiliger en flexibeler mensachtige digitale assistenten kunnen maken.

De integratie van TypeScript-ondersteuning, menselijke goedkeuringen, spraakagentframeworks en bijgewerkte spraakmodellen biedt een complete toolkit voor het ontwerpen van intelligente, interactieve en contextbewuste agents voor verschillende platforms en sectoren.

Of u nu een spraakgestuurde klantenassistent, een gamepersonage of een virtuele tutor bouwt, met de nieuwste tools van OpenAI kunt u dit sneller en slimmer doen dan ooit tevoren.

Beginnen

CometAPI biedt een uniforme REST-interface die honderden AI-modellen, waaronder de ChatGPT-familie, samenvoegt onder één consistent eindpunt, met ingebouwd API-sleutelbeheer, gebruiksquota's en factureringsdashboards. Dit voorkomt het gebruik van meerdere leveranciers-URL's en inloggegevens.

Om te beginnen, verken de mogelijkheden van het model in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt.

GPT-4o Speech-to-Speech Model in CometAPI heeft vrijgegeven dat zijn gpt-4o-realtime-preview-2025-06-03 en gpt-4o-audio-preview-2025-06-03Welkom om te bellen!

Zie ook GPT-4.1-API