ModèlesSupportEntrepriseBlog
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Ressources
Modèles d'IABlogEntrepriseJournal des modificationsÀ propos
2025 CometAPI. Tous droits réservés.Politique de confidentialitéConditions d'utilisation
Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

Entrée:$3.2/M
Sortie:$12.8/M
Contexte:32,000
Sortie maximale:4,096
Le meilleur modèle vocal pour audio en entrée, audio en sortie.
Nouveau
Usage commercial
Aperçu
Fonctionnalités
Tarification
API

Spécifications techniques de gpt-realtime-1.5

Élémentgpt-realtime-1.5 (positionnement public)
Famille de modèlesGPT Realtime 1.5 (variante optimisée pour la voix)
Modalité principaleParole à parole (S2S)
Types d’entréeAudio (diffusion en continu), texte
Types de sortieAudio (diffusion en continu), texte, appels de fonctions structurés
APIAPI Realtime (WebRTC / sessions persistantes de diffusion en continu)
Profil de latenceOptimisé pour une faible latence et des interactions conversationnelles en direct
Modèle de sessionSessions de diffusion en continu avec état
Utilisation d’outilsAppels de fonctions et intégrations d’outils pris en charge
Cas d’usage cibleAgents vocaux en direct, assistants, systèmes interactifs

Remarque : Les limites exactes de jetons et les tailles de fenêtres de contexte ne sont pas largement documentées dans les résumés publics ; le modèle est positionné pour la réactivité en temps réel plutôt que pour des sessions au contexte extrêmement long.


Qu’est-ce que gpt-realtime-1.5 ?

gpt-realtime-1.5 est un modèle à faible latence, optimisé pour la parole à parole, conçu pour les systèmes conversationnels en direct. Contrairement aux modèles traditionnels de type requête-réponse, il fonctionne au moyen de sessions de diffusion en continu persistantes, permettant une alternance de parole naturelle, la gestion des interruptions et une interaction vocale dynamique.

Il est conçu spécifiquement pour les applications où la vitesse du flux conversationnel compte davantage que la longueur maximale du contexte.


Fonctionnalités principales

  1. Véritable interaction de parole à parole — Accepte des entrées audio en direct et diffuse des réponses vocales en temps réel.
  2. Architecture à faible latence — Conçue pour une réactivité conversationnelle sous la seconde dans les agents vocaux.
  3. Conception axée sur le streaming — Fonctionne via des sessions persistantes (WebRTC ou protocoles de diffusion).
  4. Prise de parole naturelle — Prend en charge la gestion des interruptions et un flux de conversation dynamique.
  5. Prise en charge des appels de fonctions — Peut déclencher des appels de fonctions structurés durant une session en temps réel.
  6. Base prête pour la production pour agents vocaux — Conçu spécifiquement pour des assistants interactifs, kiosques et appareils embarqués.

Benchmarks et positionnement des performances

OpenAI positionne gpt-realtime-1.5 comme une évolution des modèles temps réel antérieurs, avec une meilleure exécution des consignes, une stabilité accrue lors de sessions vocales prolongées et une prosodie plus naturelle par rapport aux versions précédentes.

Contrairement aux modèles axés sur le code (par ex., variantes Codex), la performance se mesure davantage par la latence conversationnelle, le naturel de la voix et la stabilité des sessions que par des benchmarks de type classement.


gpt-realtime-1.5 par rapport aux modèles associés

Caractéristiquegpt-realtime-1.5gpt-audio-1.5
Objectif principalInteraction vocale en directFlux conversationnels avec prise en charge de l’audio
LatenceOptimisé pour un délai minimalÉquilibre qualité/vitesse
Type de sessionSession de diffusion persistanteFlux Chat Completions standard
Taille du contexteOptimisé pour la réactivitéPrise en charge d’un contexte plus large
Meilleur cas d’usageAgents vocaux en temps réelAssistants conversationnels avec audio

Quand choisir chaque modèle

  • Choisissez gpt-realtime-1.5 pour les centres d’appels, kiosques, réceptionnistes IA ou assistants embarqués en direct.
  • Choisissez gpt-audio-1.5 pour des applications de chat vocal nécessitant une mémoire de conversation plus longue ou des workflows multimodaux.

Cas d’usage représentatifs

  • Agents de centres d’appels IA
  • Assistants pour appareils intelligents
  • Kiosques interactifs
  • Systèmes de tutorat en direct
  • Outils de pratique linguistique en temps réel
  • Applications contrôlées par la voix
  • Comment accéder à l’API GPT realtime 1.5

Étape 1 : Inscrivez-vous pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre CometAPI console. Récupérez la clé API d’accès de l’interface. Cliquez sur “Add Token” dans la section API token du centre personnel, obtenez la clé de jeton : sk-xxxxx et validez.

cometapi-key

Étape 2 : Envoyez des requêtes à l’API GPT realtime 1.5

Sélectionnez le point de terminaison “gpt-realtime-1.5” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont obtenus à partir de la documentation API de notre site Web. Notre site propose également des tests Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle issue de votre compte. L’URL de base est Chat Completions

Insérez votre question ou votre demande dans le champ content — c’est ce à quoi le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérez et vérifiez les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie l’état de la tâche et les données de sortie.

FAQ

What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 est conçu pour des interactions voix à voix à faible latence via des sessions de diffusion en continu persistantes, ce qui le rend idéal pour des agents vocaux en direct et des assistants interactifs.

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 se concentre sur des conversations vocales en temps réel en diffusion en continu avec un délai minimal, tandis que gpt-audio-1.5 est optimisé pour des workflows de chat avec prise en charge de l'audio et un contexte plus riche.

Does gpt-realtime-1.5 API support function calling during live sessions?

Oui, gpt-realtime-1.5 prend en charge des appels d'outils structurés au sein d'une session en temps réel active, permettant l'intégration avec des systèmes externes.

Is gpt-realtime-1.5 suitable for customer support voice bots?

Oui, il est spécifiquement optimisé pour des systèmes conversationnels interactifs à faible latence, tels que des agents de centres d'appels et des réceptionnistes virtuels.

Can gpt-realtime-1.5 handle interruptions during conversation?

Oui, le modèle est conçu pour une alternance naturelle des tours de parole et peut gérer les interruptions au sein d'une session vocale en diffusion en continu.

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 privilégie la réactivité conversationnelle et une faible latence plutôt que des fenêtres de contexte extrêmement larges.

What infrastructure is required to integrate gpt-realtime-1.5 API?

Les développeurs utilisent généralement WebRTC ou des connexions basées sur la diffusion en continu pour maintenir des sessions audio persistantes lors de l'intégration de l'API gpt-realtime-1.5.

Fonctionnalités pour gpt-realtime-1.5

Découvrez les fonctionnalités clés de gpt-realtime-1.5, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour gpt-realtime-1.5

Découvrez des tarifs compétitifs pour gpt-realtime-1.5, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment gpt-realtime-1.5 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$3.2/M
Sortie:$12.8/M
Entrée:$4/M
Sortie:$16/M
-20%

Exemple de code et API pour gpt-realtime-1.5

Accédez à des exemples de code complets et aux ressources API pour gpt-realtime-1.5 afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de gpt-realtime-1.5 dans vos projets.

Plus de modèles

O

gpt-audio-1.5

Entrée:$2/M
Sortie:$8/M
Le meilleur modèle vocal pour l’audio en entrée et en sortie avec Chat Completions.
O

Whisper-1

Entrée:$24/M
Sortie:$24/M
Conversion de la parole en texte, création de traductions
O

TTS

Entrée:$12/M
Sortie:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Par requête:$0.006608
[Synthèse vocale] Nouveauté : conversion de texte en audio de qualité broadcast en ligne, avec fonction d’aperçu ● Peut générer simultanément un audio_id, utilisable avec n’importe quelle API Keling.
K

Kling video-to-audio

K

Kling video-to-audio

Par requête:$0.03304
Kling vidéo vers audio
K

Kling text-to-audio

K

Kling text-to-audio

Par requête:$0.03304
Kling conversion de texte en audio