ModèlesSupportEntrepriseBlog
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Ressources
Modèles d'IABlogEntrepriseJournal des modificationsÀ propos
2025 CometAPI. Tous droits réservés.Politique de confidentialitéConditions d'utilisation
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Entrée:$60/M
Sortie:$240/M
La Realtime API permet aux développeurs de créer des expériences multimodales à faible latence, y compris une fonctionnalité de parole à parole. Le texte et l'audio traités par la Realtime API sont facturés séparément. Ce modèle prend en charge une longueur de contexte maximale de 128,000 jetons.
Usage commercial
Aperçu
Fonctionnalités
Tarification
API
Versions

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Fonctionnalités pour GPT-4o Realtime

Découvrez les fonctionnalités clés de GPT-4o Realtime, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour GPT-4o Realtime

Découvrez des tarifs compétitifs pour GPT-4o Realtime, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment GPT-4o Realtime peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$60/M
Sortie:$240/M
Entrée:$75/M
Sortie:$300/M
-20%

Exemple de code et API pour GPT-4o Realtime

Accédez à des exemples de code complets et aux ressources API pour GPT-4o Realtime afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de GPT-4o Realtime dans vos projets.

Versions de GPT-4o Realtime

La raison pour laquelle GPT-4o Realtime dispose de plusieurs instantanés peut inclure des facteurs potentiels tels que des variations de sortie après des mises à jour nécessitant des instantanés plus anciens pour la cohérence, offrant aux développeurs une période de transition pour l'adaptation et la migration, et différents instantanés correspondant à des points de terminaison globaux ou régionaux pour optimiser l'expérience utilisateur. Pour les différences détaillées entre les versions, veuillez consulter la documentation officielle.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Plus de modèles

O

gpt-realtime-1.5

Entrée:$3.2/M
Sortie:$12.8/M
Le meilleur modèle vocal pour audio en entrée, audio en sortie.
O

gpt-audio-1.5

Entrée:$2/M
Sortie:$8/M
Le meilleur modèle vocal pour l’audio en entrée et en sortie avec Chat Completions.
O

Whisper-1

Entrée:$24/M
Sortie:$24/M
Conversion de la parole en texte, création de traductions
O

TTS

Entrée:$12/M
Sortie:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Par requête:$0.006608
[Synthèse vocale] Nouveauté : conversion de texte en audio de qualité broadcast en ligne, avec fonction d’aperçu ● Peut générer simultanément un audio_id, utilisable avec n’importe quelle API Keling.
K

Kling video-to-audio

K

Kling video-to-audio

Par requête:$0.03304
Kling vidéo vers audio