ModellenOndersteuningOndernemingBlog
500+ AI Model API, Alles In Één API. Gewoon In CometAPI
Modellen API
Ontwikkelaar
Snelle StartDocumentatieAPI Dashboard
Bronnen
AI-modellenBlogOndernemingWijzigingslogboekOver ons
2025 CometAPI. Alle rechten voorbehouden.PrivacybeleidServicevoorwaarden
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Invoer:$60/M
Uitvoer:$240/M
De Realtime API stelt ontwikkelaars in staat om multimodale ervaringen met lage latentie te bouwen, waaronder spraak-naar-spraakfunctionaliteit. Tekst en audio die door de Realtime API worden verwerkt, worden afzonderlijk in rekening gebracht. Dit model ondersteunt een maximale contextlengte van 128,000 tokens.
Commercieel gebruik
Overzicht
Functies
Prijzen
API
Versies

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Functies voor GPT-4o Realtime

<think> 用户要求我将英文文本翻译成荷兰语(Nederlands)。我需要注意: 1. 保持格式和特殊字符(如{} 变量占位符) 2. 技术术语保持准确性 3. 保持语气和风格 4. UI文本要简洁明了 5. 只返回翻译文本,不要添加解释 6. 不要添加任何前缀或说明 原文是: "Explore the key features of GPT-4o Realtime, designed to enhance performance and usability. Discover how these capabilities can benefit your projects and improve user experience." 这看起来是产品或技术介绍的文本,需要翻译成荷兰语。我需要保持GPT-4o Realtime这个占位符不变。 让我翻译: - Explore = Ontdek/Verken - key features = belangrijkste functies/eigenschappen - designed to enhance = ontworpen om te verbeteren - performance = prestaties - usability = bruikbaarheid - Discover = Ontdek - capabilities = mogelijkheden - benefit = ten goede komen/voordeel opleveren - projects = projecten - improve = verbeteren - user experience = gebruikerservaring 翻译: Ontdek de belangrijkste functies van GPT-4o Realtime, ontworpen om prestaties en bruikbaarheid te verbeteren. Ontdek hoe deze mogelijkheden uw projecten ten goede kunnen komen en de gebruikerservaring kunnen verbeteren. 不过"Ontdek"出现了两次,可能需要调整一下: Verken de belangrijkste functies van GPT-4o Realtime, ontworpen om prestaties en bruikbaarheid te verbeteren. Ontdek hoe deze mogelijkheden uw projecten ten goede kunnen komen en de gebruikerservaring kunnen verbeteren. I'll explore how these capabilities can positively impact your projects and optimize the user experience. </think> Verken de belangrijkste functies van GPT-4o Realtime, ontworpen om prestaties en bruikbaarheid te verbeteren. Ontdek hoe deze mogelijkheden uw projecten ten goede kunnen komen en de gebruikerservaring verbeteren.

Prijzen voor GPT-4o Realtime

Ontdek concurrerende prijzen voor GPT-4o Realtime, ontworpen om te passen bij verschillende budgetten en gebruiksbehoeften. Onze flexibele abonnementen zorgen ervoor dat u alleen betaalt voor wat u gebruikt, waardoor het gemakkelijk is om op te schalen naarmate uw vereisten groeien. Ontdek hoe GPT-4o Realtime uw projecten kan verbeteren terwijl de kosten beheersbaar blijven.
Comet Prijs (USD / M Tokens)Officiële Prijs (USD / M Tokens)Korting
Invoer:$60/M
Uitvoer:$240/M
Invoer:$75/M
Uitvoer:$300/M
-20%

Voorbeeldcode en API voor GPT-4o Realtime

Krijg toegang tot uitgebreide voorbeeldcode en API-bronnen voor GPT-4o Realtime om uw integratieproces te stroomlijnen. Onze gedetailleerde documentatie biedt stapsgewijze begeleiding en helpt u het volledige potentieel van GPT-4o Realtime in uw projecten te benutten.

Versies van GPT-4o Realtime

De reden waarom GPT-4o Realtime meerdere snapshots heeft, kan mogelijke factoren omvatten zoals variaties in de uitvoer na updates die oudere snapshots vereisen voor consistentie, het bieden van een overgangsperiode voor ontwikkelaars om zich aan te passen en te migreren, en verschillende snapshots die overeenkomen met wereldwijde of regionale eindpunten om de gebruikerservaring te optimaliseren. Voor gedetailleerde verschillen tussen versies, raadpleeg de officiële documentatie.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Meer modellen

O

gpt-realtime-1.5

Invoer:$3.2/M
Uitvoer:$12.8/M
Het beste spraakmodel voor audio-in, audio-uit.
O

gpt-audio-1.5

Invoer:$2/M
Uitvoer:$8/M
Het beste stemmodel voor audio-invoer, audio-uitvoer met Chat Completions.
O

Whisper-1

Invoer:$24/M
Uitvoer:$24/M
Spraak naar tekst, vertalingen maken
O

TTS

Invoer:$12/M
Uitvoer:$12/M
OpenAI Tekst-naar-spraak
K

Kling TTS

Per Verzoek:$0.006608
[Spraaksynthese] Zojuist gelanceerd: tekst-naar-audio van uitzendkwaliteit online, met voorvertoning ● Kan tegelijkertijd een audio_id genereren, te gebruiken met elke Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Per Verzoek:$0.03304
Kling video-naar-audio