GPT-Realtime-spraakmodel is nu beschikbaar en ondersteunt beeldinvoer

OpenAI heeft vandaag aangekondigd dat GPT-Realtime-spraakmodel is nu beschikbaar en ondersteunt beeldinvoer, waarmee de Realtime API van bèta naar algemene beschikbaarheid voor productie-spraakagenten is overgegaan. De release positioneert GPT-Realtime als een spraak-naar-spraakmodel met lage latentie dat tweerichtingsgesprekken kan voeren en tegelijkertijd reacties baseert op beelden die tijdens een sessie worden aangeleverd.

OpenAI beschrijft gpt-realtime als het meest geavanceerde spraak-naar-spraakmodel tot nu toe: het verwerkt audio end-to-end (in plaats van afzonderlijke spraak-naar-tekst- en tekst-naar-spraak-stappen aan elkaar te koppelen), produceert natuurlijker en expressievere spraak en toont meetbare verbeteringen in begrip, het volgen van instructies en het aanroepen van functies. Het bedrijf benadrukt verbeteringen in interne benchmarks en zegt dat het model subtiliteiten zoals lachen, taalwisselingen midden in een zin en een hogere nauwkeurigheid bij alfanumerieke content vastlegt.

Wat is er nieuw

Beeldinvoer in live-spraaksessies. Ontwikkelaars kunnen foto's, screenshots of andere afbeeldingen toevoegen aan audio of tekst; het model kan visuele vragen beantwoorden, tekst in screenshots voorlezen (OCR-stijl) en scènebegrip integreren in het gesproken antwoord. Dit maakt workflows mogelijk zoals visuele vragen en antwoorden tijdens een gesprek of multimodale ondersteuning voor klantenservice.
Spraak-naar-spraak, lagere latentie, expressievere stemmen. GPT-Realtime levert native audio-uitvoer met een lagere retourvertraging vergeleken met oudere STT→LLM→TTS-ketens en wordt geleverd met expressieve spraakopties (aangegeven als "Cedar" en "Marine" in de dekking). Het model is afgestemd op het volgen van instructies en de nuance van conversaties.
Functies voor bedrijfsintegratie. De Realtime API-update voegt zakelijke mogelijkheden toe, zoals MCP-serverondersteuning en SIP-telefonie, zodat spraakmedewerkers rechtstreeks verbinding kunnen maken met telefoonnetwerken en PBX-systemen. Deze toevoegingen zijn gericht op implementaties in de klantenservice en het contactcenter.

benchmarks

BigBench Audio (redenering): 82.8% – vanaf 65.6% op het realtime model van OpenAI van december 2024. Dit is de belangrijkste benchmark voor redeneertaken met audiofunctionaliteit.

MultiChallenge (instructies volgen, audio): ~30.5% vs ~ 20.6% eerder — vertoont een verbeterde naleving van meerstaps- of complexe gesproken instructies.

ComplexFuncBench (succes van functieaanroep): ~66.5% vs ~ 49.7% voorheen — betere betrouwbaarheid wanneer het model tools/functies moet aanroepen tijdens een audiosessie.

Kosten en latentie: OpenAI stelt dat het nieuwe model de audiokosten per token verlaagt (ongeveer 20% lager dan de vorige realtime preview) en werkt als één enkel end-to-end model (geen aparte STT → LM → TTS-keten), wat de end-to-end-latentie in interactieve realtime-stromen verlaagt.

OpenAI zegt dat de gpt-realtime Het model toont materiële verbeteringen in een reeks objectieve benchmarks en praktijkervaringen – hogere scores op BigBench Audio en evaluaties van het volgen van instructies en het aanroepen van functies – en een betere verwerking van alfanumerieke tekens, codewoorden en taalwisselingen in live audio. Het bedrijf introduceerde ook twee nieuwe stemmen (Cedar en Marin) en meldt een prijsverlaging van 20% ten opzichte van het eerdere realtime previewmodel.

De Realtime API en gpt-realtime zijn nu beschikbaar voor ontwikkelaars (GA). OpenAI heeft met deze update ook de prijs van zijn Realtime API verlaagd, waardoor de audio-invoer wordt verlaagd naar $ 32 per miljoen tokens en de audio-uitvoer naar $ 64 per miljoen tokens. Dit is een verlaging van 20% ten opzichte van de vorige prijs, waardoor ontwikkelaars een voordeligere oplossing krijgen.

Beginnen

CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.

Ontwikkelaars hebben toegang tot GPT-5 Via CometAPI zijn de nieuwste modelversies vermeld vanaf de publicatiedatum van het artikel. Om te beginnen, verken de mogelijkheden van het model in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt. KomeetAPI bieden een prijs die veel lager is dan de officiële prijs om u te helpen integreren.

De nieuwste integratie gpt-realtime zal binnenkort verschijnen op CometAPI, dus blijf op de hoogte!

Wat is er nieuw

benchmarks

Beginnen

Lees Meer

500+ modellen in één API