4 juni 2025 — OpenAI heeft een krachtige reeks updates uitgebracht die een revolutie teweegbrengen in de manier waarop ontwikkelaars AI-agents bouwen, met name die met spraakgestuurde interactiemogelijkheden. De updates omvatten meerdere aspecten: volledige TypeScript-ondersteuning in de Agents SDK, een mechanisme voor menselijke interventie, de introductie van RealtimeAgent voor realtime spraakapps en aanzienlijke verbeteringen aan OpenAI's spraak-naar-spraakmodel.
Dankzij deze updates is het bouwen van veilige, controleerbare en aantrekkelijke AI-agenten toegankelijker dan ooit.
TypeScript komt naar de Agents SDK
Ontwikkelaars in het web-ecosysteem meer mogelijkheden bieden
De populaire Agents SDK van OpenAI ondersteunt nu TypeScript, wat robuuste tools biedt aan ontwikkelaars die AI-applicaties bouwen in JavaScript- en Node.js-omgevingen. De TypeScript-versie biedt dezelfde functionaliteit als zijn Python-tegenhanger en ondersteunt alle essentiële primitieven voor het bouwen van agenten:
- Overdrachten – Naadloze taakoverdracht tussen meerdere agenten
- Vangrails – Gedragsbeperkingen en veiligheidsmechanismen
- Tracing – Gedetailleerde logging en diagnostiek
- MCP (Multi-Component Patroon) – Ondersteuning voor modulaire, gedistribueerde agenten
Waarom het uitmaakt:
Webontwikkelaars kunnen nu naadloos AI-agenten inbedden in browsers, web-apps en Node.js-omgevingen, waardoor ervaringen zoals spraakassistenten, realtime chatbots en in-browser copilots mogelijk worden.
Human-in-the-Loop (HITL) beoordelingsmechanisme
Introductie van menselijk toezicht voor veiliger agentengedrag
Om de veiligheid en verantwoording te versterken, introduceert OpenAI een menselijke goedkeuringsfunctie in agentworkflows. Voordat een agent bepaalde externe toolaanroepen of API-acties kan uitvoeren, kan een mens ingrijpen om het gedrag goed te keuren, af te wijzen of aan te passen.
Kernworkflow:
- Pauzeer de uitvoering van het gereedschap
- Serialiseer en sla de huidige agentstatus op
- Vraag om menselijke beoordeling en goedkeuring
- Hervat de workflow na bevestiging
Ideaal voor:
Use cases met hoge inzetten, zoals financiële transacties, medische data-analyse of gevoelige klantenservicetaken. Dit mechanisme verbetert de transparantie, naleving en ethische waarborgen bij AI-besluitvorming.
RealtimeAgent: het bouwen van voice agents was nog nooit zo eenvoudig
De nieuwe OpenAI RealtimeAgent De functionaliteit maakt gebruik van de Realtime API, zodat ontwikkelaars robuuste spraakagents kunnen bouwen die zowel aan de client- als aan de serverzijde kunnen functioneren.
Belangrijkste kenmerken:
- Realtime spraakinvoer en -uitvoer
- Geïntegreerde functie-/tooloproep
- Ondersteuning voor onderbrekingen en dynamische audioweergave
- Compatibiliteit met overdrachten en vangrails
Waarom het transformatief is:
Spraakagenten kunnen nu net als tekstagenten worden ontwikkeld, met volledige toegang tot AI-tools en -logica. Dit opent de deur voor geavanceerde toepassingen zoals:
- AI-aangedreven spraakondersteuningssystemen
- Realtime vertaal- of dicteerhulpmiddelen
- Interactieve, spraakgestuurde rollenspellen
Traces Dashboard krijgt een spraakgestuurde upgrade
Visualiseer elke stap van een spraakinteractie
Het Sporen De tool voor foutopsporing en bewaking is bijgewerkt en ondersteunt nu een uitgebreide visualisatie van realtime spraakagentsessies.
Nieuwe dashboardmogelijkheden:
- Audiogolfvormen weergeven voor zowel gebruikers- als agentreacties
- Logging van tool-oproepgeschiedenis en hun parameters
- Het markeren van onderbrekingen (bijvoorbeeld wanneer een gebruiker midden in een zin tussenbeide komt)
Voordelen voor ontwikkelaars: Duidelijker debuggen, snellere iteratie en betere optimalisatie van spraakgestuurde gebruikerservaringen.
GPT-4o spraak-naar-spraakmodel: intelligenter, natuurlijker
Slimmere stem, verbeterde uitvoering
Het GPT-4o-spraakmodel is uitgebreid verbeterd om de effectiviteit ervan bij realtime spraaktaken te vergroten:
- Betere instructie volgen – Voert opdrachten met hogere nauwkeurigheid uit
- Consistenter gereedschapsgebruik – Vermindert de variabiliteit in het aanroepen van gereedschappen
- Verbeterde afhandeling van onderbrekingen – Slimmere aanpassingen halverwege de dialoog
- Instelbare spraaksnelheid - Nieuw
speedparameter voor flexibele spraakuitvoerpacing
Beschikbare modellen:
gpt-4o-realtime-preview-2025-06-03– Geoptimaliseerd voor realtime APIgpt-4o-audio-preview-2025-06-03– Ontworpen voor chatvoltooiingen met audio
Dankzij deze updates worden AI-stemmen natuurlijker, responsiever en gemakkelijker te sturen, of het nu gaat om snelle nieuwsbrieven of langzame, instructieve dialogen.
Laatste gedachten: een nieuw tijdperk voor spraakgestuurde AI-agenten
Met deze vier updates verlegt OpenAI de grenzen van de ontwikkeling van AI-agenten, waardoor ontwikkelaars eenvoudiger, veiliger en flexibeler mensachtige digitale assistenten kunnen maken.
De integratie van TypeScript-ondersteuning, menselijke goedkeuringen, spraakagentframeworks en bijgewerkte spraakmodellen biedt een complete toolkit voor het ontwerpen van intelligente, interactieve en contextbewuste agents voor verschillende platforms en sectoren.
Of u nu een spraakgestuurde klantenassistent, een gamepersonage of een virtuele tutor bouwt, met de nieuwste tools van OpenAI kunt u dit sneller en slimmer doen dan ooit tevoren.
Beginnen
CometAPI biedt een uniforme REST-interface die honderden AI-modellen, waaronder de ChatGPT-familie, samenvoegt onder één consistent eindpunt, met ingebouwd API-sleutelbeheer, gebruiksquota's en factureringsdashboards. Dit voorkomt het gebruik van meerdere leveranciers-URL's en inloggegevens.
Om te beginnen, verken de mogelijkheden van het model in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt.
GPT-4o Speech-to-Speech Model in CometAPI heeft vrijgegeven dat zijn gpt-4o-realtime-preview-2025-06-03 en gpt-4o-audio-preview-2025-06-03Welkom om te bellen!
Zie ook GPT-4.1-API
