Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Entrée:$2/M
Sortie:$8/M
Le meilleur modèle vocal pour l’audio en entrée et en sortie avec Chat Completions.
Nouveau
Usage commercial
Aperçu
Fonctionnalités
Tarification
API

Spécifications techniques de gpt-audio-1.5

Élémentgpt-audio-1.5 (spécifications publiques)
Famille de modèlesFamille GPT Audio (variante axée audio)
Types d’entréeTexte, audio (voix entrante)
Types de sortieTexte, audio (voix sortante), sorties structurées (appels de fonction pris en charge)
Fenêtre de contexte128,000 jetons.
Jetons max de sortie16,384 (documenté dans la liste gpt-audio associée).
Niveau de performanceIntelligence supérieure ; vitesse moyenne (équilibrée).
Profil de latenceOptimisé pour les interactions vocales (latence moyenne/faible selon le point de terminaison).
DisponibilitéChat Completions API (audio entrant/sortant) et playgrounds de la plateforme ; intégré sur les surfaces temps réel/voix.
Notes de sécurité / d’usageGarde-fous pour le contenu vocal ; traitez les sorties du modèle avec les mesures de sécurité et de vérification habituelles pour des agents vocaux en production.

Remarque : gpt-realtime-1.5 est une variante apparentée, axée temps réel et voix, optimisée pour une latence plus faible et des sessions en temps réel ; voir la comparaison ci-dessous.


Qu’est-ce que gpt-audio-1.5 ?

gpt-audio-1.5 est un modèle GPT compatible audio qui prend en charge à la fois l’entrée vocale et la sortie vocale via Chat Completions et des API associées compatibles audio. Il se positionne comme le principal modèle audio généralement disponible pour créer des agents vocaux et des expériences « voix d’abord », tout en équilibrant qualité et vitesse.


Fonctionnalités principales

  1. Prise en charge voix entrante / voix sortante : Traite les entrées vocales et renvoie des réponses vocales ou textuelles pour des échanges naturels.
  2. Grand contexte pour les workflows audio : Prend en charge un contexte très large (128k jetons documentés), permettant des historiques de conversation longs et multi-tours ou de grandes sessions multimodales.
  3. Compatibilité avec le streaming et Chat Completions : Fonctionne dans Chat Completions avec des réponses audio en streaming et des sorties structurées via appels de fonction.
  4. Performance/latence équilibrées : Ajusté pour fournir des réponses audio de haute qualité avec un débit moyen — adapté aux chatbots et assistants vocaux où la qualité prime.
  5. Écosystème et intégrations : Pris en charge dans les playgrounds de la plateforme et disponible sur les endpoints officiels temps réel/voix et via des intégrations partenaires (des notes Azure/Microsoft Foundry font référence à des modèles audio similaires).

gpt-audio-1.5 vs modèles audio apparentés

Propriétégpt-audio-1.5gpt-realtime-1.5
Objectif principalAudio d’entrée/sortie de haute qualité pour Chat Completions et les flux conversationnels.S2S (speech-to-speech) en temps réel avec une latence plus faible pour des agents vocaux en direct et des scénarios de streaming.
Fenêtre de contexte128k jetons.32k jetons (variante temps réel documentée).
Jetons max de sortie16,384 (documenté).Généralement configuré pour des réponses temps réel plus courtes (la documentation indique un maximum de jetons plus faible).
Meilleure utilisationChatbots, assistants activés par la voix nécessitant la sémantique complète du chat + l’audio.Agents vocaux en direct, kiosques et interfaces conversationnelles à faible latence.

Cas d’utilisation représentatifs

  • Agents vocaux conversationnels pour le support client et les centres d’aide internes.
  • Assistants activés par la voix intégrés dans des applications, appareils et kiosques.
  • Workflows mains libres (dictée, recherche vocale, accessibilité).
  • Expériences multimodales combinant audio et texte/images via Chat Completions.

Limites et considérations opérationnelles

  • Pas un remplacement direct du contrôle qualité humain : Validez toujours les sorties vocales et les actions déclenchées avec une relecture humaine dans les flux de production.
  • Planification des ressources : Un grand contexte et des E/S audio peuvent augmenter la charge de calcul et la latence — concevez des stratégies de streaming/segmentation pour les sessions longues.
  • Contraintes de sécurité et de politique : Les sorties vocales peuvent avoir un pouvoir persuasif ; suivez les consignes de sécurité de la plateforme et les garde-fous lors d’un déploiement à grande échelle.
  • Comment accéder à l’API GPT Audio 1.5

Étape 1 : Inscrivez-vous pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, enregistrez-vous d’abord. Connectez-vous à votre console CometAPI. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur « Add Token » dans la section des jetons API du centre personnel, récupérez la clé de jeton : sk-xxxxx et validez.

cometapi-key

Étape 2 : Envoyez des requêtes à l’API GPT Audio 1.5

Sélectionnez l’endpoint « gpt-audio-1.5 » pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Notre site propose également des tests Apifox pour votre commodité. Remplacez <YOUR_API_KEY> par la clé CometAPI réelle de votre compte. L’URL de base est Chat Completions

Insérez votre question ou demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie l’état de la tâche et les données de sortie.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 supports a 128,000-token context window and documents list a max output token configuration around 16,384; verify exact limits per endpoint in the developer docs. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Yes — it accepts audio inputs and can return audio outputs or textual responses via the Chat Completions/audio endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Choose gpt-audio-1.5 for higher-quality audio in Chat Completions flows where larger context is required; choose gpt-realtime-1.5 for low-latency, live streaming voice interactions. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Yes — the model supports streaming audio responses and structured outputs/function calling to integrate external tools and workflows. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Yes — it's designed for voice assistants and conversational agents, but you should add human review/QA, logging, and safety controls before production deployment. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Key considerations are compute/latency tradeoffs for large context audio sessions, safety guardrails for voice content, and the need to validate ASR/TTS outputs in your domain. :contentReference[oaicite:49]{index=49}

Fonctionnalités pour gpt-audio-1.5

Découvrez les fonctionnalités clés de gpt-audio-1.5, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour gpt-audio-1.5

Découvrez des tarifs compétitifs pour gpt-audio-1.5, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment gpt-audio-1.5 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$2/M
Sortie:$8/M
Entrée:$2.5/M
Sortie:$10/M
-20%

Exemple de code et API pour gpt-audio-1.5

Accédez à des exemples de code complets et aux ressources API pour gpt-audio-1.5 afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de gpt-audio-1.5 dans vos projets.
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Plus de modèles