GPT-Sanntids talemodell er nå tilgjengelig, og støtter bildeinndata

OpenAI annonserte i dag at GPT-Sanntids talemodell er nå tilgjengelig, og støtter bildeinndata, som markerer overgangen til Realtime API fra beta til generell tilgjengelighet for produksjons-stemmeagenter. Utgivelsen posisjonerer GPT-Realtime som en tale-til-tale-modell med lav latens som kan kjøre toveis talesamtaler samtidig som den forankrer svarene i bilder levert under en økt.

OpenAI beskriver gpt-sanntid som sin mest avanserte tale-til-tale-modell hittil: den behandler lyd ende-til-ende (i stedet for å kjede sammen separate tale-til-tekst- og tekst-til-tale-trinn), produserer mer naturlig og uttrykksfull tale, og viser målbare gevinster i forståelse, instruksjonsfølging og funksjonskall. Selskapet fremhever forbedringer på interne referansepunkter og sier at modellen fanger opp finesser som latter, språkbytte midt i setninger og høyere nøyaktighet på alfanumerisk innhold.

Hva er nytt

Bildeinndata i direktesendte stemmeøkter. Utviklere kan legge ved bilder, skjermbilder eller andre bilder sammen med lyd eller tekst. Modellen kan svare på visuelle spørsmål, lese tekst i skjermbilder (OCR-stil) og integrere sceneforståelse i det talte svaret. Dette muliggjør arbeidsflyter som visuelle spørsmål og svar under en samtale eller multimodal støtte for kundeservice.
Tale-til-tale, lavere latens, mer uttrykksfulle stemmer. GPT-Realtime leverer innebygd lydutgang med redusert tur-retur-forsinkelse sammenlignet med eldre STT→LLM→TTS-kjeder og leveres med uttrykksfulle stemmealternativer (rapportert som «Cedar» og «Marine» i dekning). Modellen er finjustert for å følge instruksjoner og gi nyanser i samtaler.
Funksjoner for bedriftsintegrasjon. Oppdateringen av Realtime API legger til bedriftsorienterte funksjoner som MCP-serverstøtte og SIP-telefonanrop, slik at taleagenter kan koble seg direkte til telefonnettverk og PBX-systemer. Disse tilleggene er rettet mot kundestøtte og kontaktsenterimplementeringer.

benchmarks

BigBench Audio (resonnement): 82.8 % — opp fra 65.6% på OpenAIs sanntidsmodell fra desember 2024. Dette er den viktigste resonneringsbenchmarken som er rapportert for lydkompatible resonneringsoppgaver.

MultiChallenge (instruksjoner følger, lyd): ~30.5 % vs ~ 20.6% tidligere — viser forbedret etterlevelse av flertrinns- eller komplekse muntlige instruksjoner.

ComplexFuncBench (funksjonskallssuksess): ~66.5 % vs ~ 49.7% tidligere — bedre pålitelighet når modellen må kalle verktøy/funksjoner under en lydøkt.

Kostnad og ventetid: OpenAI oppgir at den nye modellen reduserer lydkostnaden per token (≈20 % lavere enn den forrige forhåndsvisningen i sanntid) og fungerer som en enkelt ende-til-ende-modell (ingen separat STT → LM → TTS-kjede), noe som reduserer ende-til-ende-forsinkelse i interaktive flyter i sanntid.

OpenAI sier at gpt-realtime Modellen viser vesentlige forbedringer i en rekke objektive referansepunkter og virkelighetsnære atferder – høyere poengsummer på BigBench Audio og på evalueringer av instruksjonsfølge/funksjonskall – og bedre håndtering av alfanumeriske tegn, kodeord og språkbytte i live-lyd. Selskapet introduserte også to nye stemmer (Cedar og Marin) og rapporterer en prisreduksjon på 20 % sammenlignet med den tidligere forhåndsvisningsmodellen i sanntid.

Sanntids-API-et og gpt-realtime Modellen er nå tilgjengelig for utviklere (GA). OpenAI senket også prisen på sitt Realtime API med denne oppdateringen, og reduserte lydinngangen til 32 dollar per million tokens og lydutgangen til 64 dollar per million tokens, en reduksjon på 20 % fra forrige pris, noe som gir utviklere en mer økonomisk løsning.

Komme i gang

CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.

Utviklere har tilgang GPT-5 Gjennom CometAPI er de nyeste modellversjonene som er oppført per artikkelens publiseringsdato. For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen. CometAPI tilby en pris som er langt lavere enn den offisielle prisen for å hjelpe deg med å integrere.

Den nyeste integrasjonen gpt-realtime vil snart dukke opp på CometAPI, så følg med!

Hva er nytt

benchmarks

Komme i gang

Les mer

500+ modeller i ett API