Le modèle vocal en temps réel GPT est désormais disponible, prenant en charge la saisie d'images

OpenAI a annoncé aujourd'hui que Le modèle vocal en temps réel GPT est désormais disponible, prenant en charge la saisie d'images, marquant le passage de l'API Realtime de la version bêta à la disponibilité générale pour les agents vocaux de production. Cette version positionne GPT-Realtime comme un modèle de parole à faible latence, capable d'exécuter des conversations vocales bidirectionnelles tout en ancrant les réponses dans les images fournies pendant une session.

OpenAI décrit gpt-temps réel Il s'agit de son modèle de synthèse vocale le plus avancé à ce jour : il traite l'audio de bout en bout (plutôt que d'enchaîner des étapes distinctes de conversion parole-texte et texte-parole), produit un discours plus naturel et expressif, et affiche des gains mesurables en termes de compréhension, de suivi des instructions et d'appel de fonctions. L'entreprise souligne les améliorations apportées aux benchmarks internes et affirme que le modèle capture des subtilités telles que le rire, le changement de langue en milieu de phrase et une plus grande précision du contenu alphanumérique.

Quoi de neuf

Entrées d'images dans les sessions vocales en direct. Les développeurs peuvent joindre des photos, des captures d'écran ou d'autres images à l'audio ou au texte ; le modèle peut répondre à des questions visuelles, lire le texte des captures d'écran (de type OCR) et intégrer la compréhension de la scène à la réponse orale. Cela permet des workflows tels que les questions-réponses visuelles pendant un appel ou l'assistance multimodale pour le service client.
Parole à parole, latence plus faible, voix plus expressives. GPT-Realtime offre une sortie audio native avec une latence aller-retour réduite par rapport aux anciennes chaînes STT→LLM→TTS et propose des options vocales expressives (indiquées comme « Cedar » et « Marine » dans la couverture). Le modèle est optimisé pour le suivi des instructions et les nuances conversationnelles.
Fonctionnalités d'intégration d'entreprise. La mise à jour de l'API Realtime ajoute des fonctionnalités orientées entreprise, telles que la prise en charge du serveur MCP et les appels téléphoniques SIP, permettant aux agents vocaux de se connecter directement aux réseaux téléphoniques et aux systèmes PBX. Ces ajouts sont destinés aux déploiements de support client et de centres de contact.

Repères

BigBench Audio (raisonnement) : 82.8 % — à partir de 65.6% sur le modèle en temps réel d'OpenAI de décembre 2024. Il s'agit du benchmark de raisonnement phare pour les tâches de raisonnement audio.

MultiChallenge (suivi d'instructions, audio) : ~30.5 % vs ~% 20.6 auparavant — montre une meilleure adhésion aux instructions orales en plusieurs étapes ou complexes.

ComplexFuncBench (réussite de l'appel de fonction) : environ 66.5 % vs ~% 49.7 auparavant — meilleure fiabilité lorsque le modèle doit appeler des outils/fonctions pendant une session audio.

Coût et latence : OpenAI indique que le nouveau modèle réduit le coût audio par jeton (≈20 % inférieur à l'aperçu en temps réel précédent) et fonctionne comme un modèle unique de bout en bout (pas de chaîne STT → LM → TTS distincte), ce qui réduit la latence de bout en bout dans les flux interactifs en temps réel.

OpenAI dit que le gpt-realtime Le modèle démontre des améliorations significatives dans une série de benchmarks objectifs et de comportements réels : des scores plus élevés sur BigBench Audio et sur les évaluations de suivi d'instructions et d'appel de fonctions, ainsi qu'une meilleure gestion des caractères alphanumériques, des mots de code et du changement de langue en audio en direct. L'entreprise a également introduit deux nouvelles voix (Cedar et Marin) et annonce une réduction de prix de 20 % par rapport au modèle de prévisualisation en temps réel précédent.

L'API en temps réel et gpt-realtime Les modèles sont désormais disponibles pour les développeurs (GA), OpenAI a également baissé le prix de son API en temps réel avec cette mise à jour, réduisant l'entrée audio à 32 $ par million de jetons et la sortie audio à 64 $ par million de jetons, soit une réduction de 20 % par rapport au prix précédent, offrant aux développeurs une solution plus économique.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Les développeurs peuvent accéder GPT-5 Grâce à CometAPI, les dernières versions des modèles répertoriées correspondent à la date de publication de l'article. Pour commencer, explorez les fonctionnalités du modèle dans la section cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

La dernière intégration gpt-realtime apparaîtra bientôt sur CometAPI, alors restez à l'écoute !

Quoi de neuf

Repères

Pour commencer

En savoir plus

500+ Modèles en Une API