O

gpt-audio-1.5

Entrée:$2/M
Sortie:$8/M
Le meilleur modèle vocal pour l’audio en entrée et en sortie avec Chat Completions.
Nouveau
Usage commercial

Spécifications techniques de gpt-audio-1.5

Élémentgpt-audio-1.5 (spécifications publiques)
Famille de modèlesFamille GPT Audio (variante orientée audio en premier)
Types d’entréeTexte, audio (speech in)
Types de sortieTexte, audio (speech out), sorties structurées (appels de fonction pris en charge)
Fenêtre de contexte128,000 jetons.
Jetons max en sortie16,384 (documenté dans la fiche gpt-audio correspondante).
Niveau de performanceIntelligence élevée ; vitesse moyenne (équilibrée).
Profil de latenceOptimisé pour les interactions vocales (latence moyenne/basse selon le point de terminaison).
DisponibilitéChat Completions API (audio entrée/sortie) et playgrounds de la plateforme ; intégré sur les interfaces temps réel/voix.
Notes de sécurité / d’utilisationGarde-fous pour le contenu vocal ; traitez les sorties du modèle avec les pratiques habituelles de sécurité et de vérification pour des agents vocaux en production.

Remarque : gpt-realtime-1.5 est une variante temps réel apparentée, orientée audio/voix en premier, optimisée pour une latence plus faible et des sessions en temps réel ; voir la comparaison ci-dessous.


Qu’est-ce que gpt-audio-1.5 ?

gpt-audio-1.5 est un modèle GPT compatible audio qui prend en charge l’entrée vocale et la sortie vocale via les Chat Completions et les API compatibles audio associées. Il est positionné comme le principal modèle audio généralement disponible pour créer des agents vocaux et des expériences « voix d’abord », tout en équilibrant qualité et vitesse.


Principales fonctionnalités

  1. Prise en charge speech-in / speech-out : Traiter les entrées parlées et renvoyer des réponses parlées ou textuelles pour des flux vocaux naturels.
  2. Grande fenêtre de contexte pour les workflows audio : Prend en charge une très grande fenêtre de contexte (documentée à 128k jetons) permettant des historiques de conversations multi-tours ou des sessions multimodales longues.
  3. Compatibilité streaming et Chat Completions : Fonctionne dans Chat Completions avec des réponses audio en streaming et des sorties structurées via appels de fonction.
  4. Performances/latence équilibrées : Ajusté pour fournir des réponses audio de haute qualité avec un débit moyen—adapté aux chatbots et assistants vocaux où la qualité prime.
  5. Écosystème et intégrations : Pris en charge dans les playgrounds de la plateforme et disponible sur les points de terminaison officiels temps réel/voix et les intégrations partenaires (les notes Azure/Microsoft Foundry font référence à des modèles audio similaires).

gpt-audio-1.5 vs modèles audio apparentés

Propriétégpt-audio-1.5gpt-realtime-1.5
Objectif principalAudio de haute qualité en entrée/sortie pour Chat Completions et flux conversationnels.S2S en temps réel (parole à parole) avec latence plus faible pour des agents vocaux en direct et des scénarios de streaming.
Fenêtre de contexte128k jetons.32k jetons (variante temps réel documentée).
Jetons max en sortie16,384 (documenté).Généralement configuré pour des réponses temps réel plus courtes (la doc mentionne un maximum plus petit).
Meilleur usageChatbots, assistants à commande vocale nécessitant la sémantique complète du chat + audio.Agents vocaux en direct, bornes interactives et interfaces conversationnelles à faible latence.

Cas d’utilisation représentatifs

  • Agents conversationnels vocaux pour le support client et les centres d’assistance internes.
  • Assistants à commande vocale intégrés dans des applications, appareils et bornes.
  • Workflows mains libres (dictée, recherche vocale, accessibilité).
  • Expériences multimodales mêlant audio et texte/images via Chat Completions.

Limites et considérations opérationnelles

  • Pas un substitut direct à une QA humaine : Toujours valider les sorties vocales et les actions en aval avec une relecture humaine dans les flux de production.
  • Planification des ressources : La grande fenêtre de contexte et l’E/S audio peuvent augmenter la consommation de calcul et la latence—concevez des stratégies de streaming/segmentation pour les longues sessions.
  • Contraintes de sécurité et de politique : Les sorties vocales peuvent avoir un pouvoir de persuasion ; suivez les lignes directrices de sécurité de la plateforme et mettez en place des garde-fous lors d’un déploiement à grande échelle.
  • Comment accéder à l’API GPT Audio 1.5

Étape 1 : S’inscrire pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre console CometAPI. Obtenez la clé API d’accès de l’interface. Cliquez sur “Add Token” dans la section API token du centre personnel, récupérez la clé de jeton : sk-xxxxx et soumettez.

clé CometAPI

Étape 2 : Envoyer des requêtes à l’API GPT Audio 1.5

Sélectionnez l’endpoint “gpt-audio-1.5” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site. Notre site fournit également des tests Apifox pour votre convenance. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle issue de votre compte. L’URL de base est Chat Completions

Insérez votre question ou votre demande dans le champ de contenu—c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie.

FAQ