ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Inndata:$60/M
Utdata:$240/M
Realtime API lar utviklere bygge multimodale opplevelser med lav latens, inkludert tale-til-tale-funksjonalitet. Tekst og lyd som behandles av Realtime API prises separat. Denne modellen støtter en maksimal kontekstlengde på 128,000 tokens.
Kommersiell bruk
Oversikt
Funksjoner
Priser
API
Versjoner

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Funksjoner for GPT-4o Realtime

Utforsk nøkkelfunksjonene til GPT-4o Realtime, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for GPT-4o Realtime

Utforsk konkurransedyktige priser for GPT-4o Realtime, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan GPT-4o Realtime kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$60/M
Utdata:$240/M
Inndata:$75/M
Utdata:$300/M
-20%

Eksempelkode og API for GPT-4o Realtime

Få tilgang til omfattende eksempelkode og API-ressurser for GPT-4o Realtime for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til GPT-4o Realtime i prosjektene dine.

Versjoner av GPT-4o Realtime

Grunnen til at GPT-4o Realtime har flere øyeblikksbilder kan inkludere potensielle faktorer som variasjoner i utdata etter oppdateringer som krever eldre øyeblikksbilder for konsistens, å gi utviklere en overgangsperiode for tilpasning og migrering, og ulike øyeblikksbilder som tilsvarer globale eller regionale endepunkter for å optimalisere brukeropplevelsen. For detaljerte forskjeller mellom versjoner, vennligst se den offisielle dokumentasjonen.
version
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17

Flere modeller

O

gpt-realtime-1.5

Inndata:$3.2/M
Utdata:$12.8/M
Den beste talemodellen for lyd inn, lyd ut.
O

gpt-audio-1.5

Inndata:$2/M
Utdata:$8/M
Den beste stemmemodellen for lyd inn, lyd ut med Chat Completions.
O

Whisper-1

Inndata:$24/M
Utdata:$24/M
Tale til tekst, lage oversettelser
O

TTS

Inndata:$12/M
Utdata:$12/M
OpenAI Tekst-til-tale
K

Kling TTS

Per forespørsel:$0.006608
[Talesyntese] Nylig lansert: tekst til kringkastingsklar lyd på nett, med forhåndsvisning ● Kan samtidig generere audio_id, kompatibel med alle Keling-API-er.
K

Kling video-to-audio

K

Kling video-to-audio

Per forespørsel:$0.03304
Kling video til lyd