GPT-4o Realtids-API

CometAPI
AnnaJun 11, 2025
GPT-4o Realtids-API

GPT-4o Realtids-API: Et multimodalt streaming-slutpunkt med lav latenstid, der giver udviklere mulighed for at sende og modtage synkroniserede tekst-, lyd- og billeddata via WebRTC eller WebSocket (model=gpt-4o-realtime-preview-<date>, stream=true) til interaktive realtidsapplikationer.


Grundlæggende oplysninger og funktioner

OpenAI'er GPT-4o Realtid (model-ID: gpt-4o-realtime-preview-2025-06-03) er den første offentligt tilgængelige fundamentmodel, der er konstrueret til end-to-end tale-til-tale (S2S) interaktion med latenstid på under et sekundRealtime-varianten, der stammer fra "omni" GPT-4o-familien, fusionerer talegenkendelse, naturlig sproglig ræsonnement og neural tekst-til-tale i et enkelt netværk, hvilket giver udviklere mulighed for at bygge stemmeagenter, der kommunikerer lige så flydende som mennesker. Modellen eksponeres gennem den specialbyggede Realtime API og er tæt integreret med den nye Realtidsagent abstraktion indeni Agents SDK (TypeScript og Python).


Kernefunktionssæt — End-to-End S2S • Afbrydelseshåndtering • Værktøjsopkald

• Indfødt tale-til-tale: Lydinput indtages som kontinuerlige strømme, internt tokeniseret, bearbejdet og returneret som syntetiseret tale. Der kræves ingen eksterne STT/TTS-buffere, hvilket eliminerer pipeline-forsinkelser på flere sekunder.
• Millisekunders latenstid: Arkitektonisk beskæring, modeldestillation og en GPU-optimeret serveringstack muliggør ~300-500 ms latenstid for første token i typiske cloud-implementeringer, der nærmer sig menneskelige samtale-turtagningsnormer.
• Robust instruktioner-følgende: Finjusteret på samtalescripts og funktionskaldsspor, demonstrerer GPT-4o Realtime en >25 % reduktion i fejl i opgaveudførelse sammenlignet med GPT-2024o-grundlinjen fra maj 4.
• Deterministisk værktøjsopkald: Modellen producerer struktureret JSON i overensstemmelse med OpenAI's funktionskaldende skema, hvilket muliggør deterministisk kald af backend-API'er (bookingsystemer, databaser, IoT). Fejlbevidste gentagelser og argumentvalidering er indbygget.
• Yndefulde afbrydelser: En realtidsdetektor for stemmeaktivitet parret med trinvis afkodning gør det muligt for agenten at pause tale midt i en sætning, indtage en brugerafbrydelse og genoptage eller omplanlægge svaret problemfrit.
• Konfigurerbar talehastighed: En ny hastighed Parameteren (0.25–4× realtid) giver udviklere mulighed for at skræddersy outputtempo til tilgængelighed eller hurtige applikationer.


Teknisk arkitektur — Enhed for multimodal transformer

Samlet encoder-dekoder: GPT-4o Realtime deler omni-arkitekturens enkeltstaktransformator hvor lyd-, tekst- og (fremtids)visionstokens sameksisterer i ét latent rum. Lagvis adaptiv beregning genvejer lydbilleder direkte til senere opmærksomhedsblokke og reducerer dermed 20-40 ms pr. gennemløb.

Hierarkisk lydtokenisering: Rå 16 kHz PCM er opdelt i log-mel patches → kvantiseret til grovkornede akustiske tokens → komprimeret til semantiske tokens, hvilket optimerer token per sekund budget uden at ofre prosodi.

Lav-bit inferenskerner: Udrullede vægte kører ved 4-bit NF4-kvantisering via Triton / TensorRT-LLM-kerner, hvilket fordobler gennemløbshastigheden i forhold til fp16, samtidig med at et MOS-kvalitetstab på <1 dB opretholdes.

Streaming-opmærksomhed: Roterende indlejringer med glidende vinduer og nøgleværdi-caching gør det muligt for modellen at håndtere de sidste 15 sekunder af lyd med O(L)-hukommelse, hvilket er afgørende for dialoger, der varer i telefonopkaldslængde.


Tekniske detaljer

  • API Version: 2025-06-03-preview
  • Transportprotokoller:
  • WebRTCUltralav latenstid (< 80 ms) til klientsidede lyd-/videostreams
  • WebSocketServer-til-server-streaming med latenstid på under 100 ms
  • Datakodning:
  • Opus codec indeni RTP pakker til lyd
  • H.264 / H.265 frame wrappers til video
  • Streaming: Bakker op stream: true at levere inkremental delvise svar, når tokens genereres
  • Ny stemmepaletIntroducerer otte nye stemmer—legering, aske, ballade, koral, ekko, salvie, glimmerog vers—for mere udtryksfulde, menneskelignende interaktioner ..

Udviklingen af ​​GPT-4o i realtid

  • Maj 2024: GPT-4o Omni debuterer med multimodal understøttelse af tekst, lyd og billede.
  • oktober 2024: Realtime API går ind i privat beta (2024-10-01-preview), optimeret til lyd med lav latenstid.
  • December 2024Udvidet global tilgængelighed af gpt-4o-realtime-preview-2024-12-17, Tilføjer hurtig cachelagring og flere stemmer.
  • 3. Juni, 2025: Seneste opdatering (2025-06-03-preview) ruller ud raffineret stemmepalet og ydeevneoptimeringer.

Benchmark ydeevne

  • MMLU: 88.7, hvilket overgår GPT-4's 86.5 på Massiv multitask sprogforståelse .
  • Talegenkendelse: Opnår brancheførende ordfejlrater i støjende miljøer, der overgår Hviske basislinjer.
  • Latensitetstest:
  • Ende til ende (tale ind → tekst ud): 50-80 ms via WebRTC
  • Rundturslyd (tale ind → tale ud): <100 ms .

Tekniske indikatorer

  • gennemløb: Vedligeholder 15 tokens/sek. til tekststrømme; 24 kbps Opus for lyd.
  • Priser:
  • tekst5 USD pr. 1 million input-tokens; 20 USD pr. 1 million output-tokens
  • Audio100 USD pr. 1 million input-tokens; 200 USD pr. 1 million output-tokens.
  • tilgængelighedImplementeret globalt i alle regioner, der understøtter Realtime API'en.

Sådan kalder du GPT-4o Realtime API fra CometAPI

GPT-4o Realtime API-priser i CometAPI:

  • Input-tokens: $2 / M-tokens
  • Output-tokens: $8 / M-tokens

Påkrævede trin

  • Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, bedes du registrere dig først
  • Få adgangslegitimations-API-nøglen til grænsefladen. Klik på "Tilføj token" ved API-tokenet i det personlige center, få token-nøglen: sk-xxxxx og send.
  • Hent url'en til dette websted: https://api.cometapi.com/

Brugsmetoder

  1. Vælg "gpt-4o-realtime-preview-2025-06-03"slutpunkt" til at sende anmodningen og angive anmodningsteksten. Anmodningsmetoden og anmodningsteksten er hentet fra vores hjemmesides API-dokumentation. Vores hjemmeside tilbyder også Apifox-tests for din bekvemmelighed.
  2. Erstatte med din faktiske CometAPI-nøgle fra din konto.
  3. Indsæt dit spørgsmål eller din anmodning i indholdsfeltet – det er det, modellen vil reagere på.
  4. . Behandle API-svaret for at få det genererede svar.

For information om modeladgang i Comet API, se venligst API-dok.

For modelprisoplysninger i Comet API, se venligst https://api.cometapi.com/pricing.


Eksempelkode og API-integration

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Nøgleparametre:
  • model: "gpt-4o-realtime-preview-2025-06-03"
  • version: "2025-06-03-forhåndsvisning"
  • transport: "webrtc" forum minimal ventetid
  • stream: true forum inkremental opdateringer

Ved at kombinere state-of-the-art multimodal ræsonnement, en robust ny stemmepalet, og ultra-lav latenstidsstreaming, GPT-4o Realtid (2025-06-03) giver udviklere mulighed for at bygge ægte interaktiv, konversation AI-applikationer.

Se også o3-Pro API

Sikkerhed og overholdelse

OpenAI leverer GPT-4o Realtime med:
Gelændere på systemniveau: Politikken er justeret til at afvise afviste anmodninger (ekstremisme, ulovlig adfærd).
Indholdsfiltrering i realtid: Klassifikatorer under 100 ms screener både brugerinput og modeloutput før emission.
Menneskelig godkendelsesstier: Udløses ved kald af højrisikoværktøjer (betalinger, juridisk rådgivning) og udnytter Agents SDK'ens nye godkendelsesprimitiver.

GPT-4o Realtid

SHARE THIS BLOG

500+ modeller i én API

Op til 20% rabat