GPT-Realtime-stemmemodel er nu tilgængelig og understøtter billedinput

OpenAI annoncerede i dag, at GPT-Realtime-stemmemodel er nu tilgængelig og understøtter billedinput, hvilket markerer Realtime API'ens overgang fra beta til generel tilgængelighed for stemmeagenter i produktion. Udgivelsen positionerer GPT-Realtime som en tale-til-tale-model med lav latenstid, der kan køre tovejs-talesamtaler, samtidig med at svarene er baseret på billeder leveret under en session.

OpenAI beskriver gpt-realtid som dens mest avancerede tale-til-tale-model til dato: den behandler lyd fra ende til ende (i stedet for at kæde separate tale-til-tekst- og tekst-til-tale-trin sammen), producerer mere naturlig og udtryksfuld tale og viser målbare forbedringer i forståelse, instruktionsfølge og funktionskald. Virksomheden fremhæver forbedringer på interne benchmarks og siger, at modellen indfanger finesser såsom latter, sprogskift midt i sætninger og højere nøjagtighed på alfanumerisk indhold.

Hvad er nyt

Billedinput i live stemmesessioner. Udviklere kan vedhæfte fotos, skærmbilleder eller andre billeder sammen med lyd eller tekst; modellen kan besvare visuelle spørgsmål, læse tekst i skærmbilleder (OCR-stil) og integrere sceneforståelse i det talte svar. Dette muliggør arbejdsgange såsom visuelle spørgsmål og svar under et opkald eller multimodal support til kundeservice.
Tale-til-tale, lavere latenstid, mere udtryksfulde stemmer. GPT-Realtime leverer native lydoutput med reduceret round-trip latency sammenlignet med ældre STT→LLM→TTS-kæder og leveres med udtryksfulde stemmemuligheder (rapporteret som "Cedar" og "Marine" i dækningen). Modellen er finjusteret til at følge instruktioner og nuancer i samtaler.
Funktioner til virksomhedsintegration. Realtime API-opdateringen tilføjer virksomhedsorienterede funktioner såsom MCP-serverunderstøttelse og SIP-telefonopkald, så taleagenter kan oprette direkte forbindelse til telefonnetværk og PBX-systemer. Disse tilføjelser er rettet mod implementeringer af kundesupport og kontaktcentre.

benchmarks

BigBench Audio (argumentation): 82.8% — op fra 65.6% på OpenAIs realtidsmodel fra december 2024. Dette er den rapporterede hovedbenchmark for ræsonnement for lydkompatible ræsonnementsopgaver.

MultiChallenge (instruktioner følger, lyd): ~30.5% vs ~ 20.6% tidligere — viser forbedret overholdelse af flertrins- eller komplekse talte instruktioner.

ComplexFuncBench (funktionskald succes): ~66.5% vs ~ 49.7% tidligere — bedre pålidelighed, når modellen skal kalde værktøjer/funktioner under en lydsession.

Omkostninger og latenstid: OpenAI angiver, at den nye model reducerer omkostningerne pr. token for lyd (≈20 % lavere end den tidligere realtidsforhåndsvisning) og fungerer som en enkelt end-to-end-model (ingen separat STT → LM → TTS-kæde), hvilket sænker end-to-end-latens i interaktive flows i realtid.

OpenAI siger, at gpt-realtime Modellen demonstrerer væsentlige forbedringer i en række objektive benchmarks og adfærd i den virkelige verden — højere scorer på BigBench Audio og på evalueringer af instruktionsfølgende/funktionskald — og bedre håndtering af alfanumeriske tegn, kodeord og sprogskift i livelyd. Virksomheden introducerede også to nye stemmer (Cedar og Marin) og rapporterer en prisreduktion på 20 % sammenlignet med den tidligere realtidsforhåndsvisningsmodel.

Realtids-API'en og gpt-realtime Modellen er nu tilgængelig for udviklere (GA). OpenAI sænkede også prisen på sin Realtime API med denne opdatering, hvilket reducerede lydinput til $32 pr. million tokens og lydoutput til $64 pr. million tokens, en reduktion på 20% fra den tidligere pris, hvilket giver udviklere en mere økonomisk løsning.

Kom godt i gang

CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.

Udviklere kan få adgang GPT-5 via CometAPI er de seneste modelversioner, der er angivet, fra artiklens udgivelsesdato. For at begynde med, skal du udforske modellens muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen. CometAPI tilbyde en pris, der er langt lavere end den officielle pris, for at hjælpe dig med at integrere.

Den seneste integration gpt-realtime vil snart dukke op på CometAPI, så følg med!

Hvad er nyt

benchmarks

Kom godt i gang

Læs mere

500+ modeller i én API