ModèlesSupportEntrepriseBlog
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Ressources
Modèles d'IABlogEntrepriseJournal des modificationsÀ propos
2025 CometAPI. Tous droits réservés.Politique de confidentialitéConditions d'utilisation
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Entrée:$2/M
Sortie:$8/M
Le meilleur modèle vocal pour l’audio en entrée et en sortie avec Chat Completions.
Nouveau
Usage commercial
Aperçu
Fonctionnalités
Tarification
API

Spécifications techniques de gpt-audio-1.5

Élémentgpt-audio-1.5 (spécifications publiques)
Famille de modèlesFamille GPT Audio (variante orientée audio en premier)
Types d’entréeTexte, audio (speech in)
Types de sortieTexte, audio (speech out), sorties structurées (appels de fonction pris en charge)
Fenêtre de contexte128,000 jetons.
Jetons max en sortie16,384 (documenté dans la fiche gpt-audio correspondante).
Niveau de performanceIntelligence élevée ; vitesse moyenne (équilibrée).
Profil de latenceOptimisé pour les interactions vocales (latence moyenne/basse selon le point de terminaison).
DisponibilitéChat Completions API (audio entrée/sortie) et playgrounds de la plateforme ; intégré sur les interfaces temps réel/voix.
Notes de sécurité / d’utilisationGarde-fous pour le contenu vocal ; traitez les sorties du modèle avec les pratiques habituelles de sécurité et de vérification pour des agents vocaux en production.

Remarque : gpt-realtime-1.5 est une variante temps réel apparentée, orientée audio/voix en premier, optimisée pour une latence plus faible et des sessions en temps réel ; voir la comparaison ci-dessous.


Qu’est-ce que gpt-audio-1.5 ?

gpt-audio-1.5 est un modèle GPT compatible audio qui prend en charge l’entrée vocale et la sortie vocale via les Chat Completions et les API compatibles audio associées. Il est positionné comme le principal modèle audio généralement disponible pour créer des agents vocaux et des expériences « voix d’abord », tout en équilibrant qualité et vitesse.


Principales fonctionnalités

  1. Prise en charge speech-in / speech-out : Traiter les entrées parlées et renvoyer des réponses parlées ou textuelles pour des flux vocaux naturels.
  2. Grande fenêtre de contexte pour les workflows audio : Prend en charge une très grande fenêtre de contexte (documentée à 128k jetons) permettant des historiques de conversations multi-tours ou des sessions multimodales longues.
  3. Compatibilité streaming et Chat Completions : Fonctionne dans Chat Completions avec des réponses audio en streaming et des sorties structurées via appels de fonction.
  4. Performances/latence équilibrées : Ajusté pour fournir des réponses audio de haute qualité avec un débit moyen—adapté aux chatbots et assistants vocaux où la qualité prime.
  5. Écosystème et intégrations : Pris en charge dans les playgrounds de la plateforme et disponible sur les points de terminaison officiels temps réel/voix et les intégrations partenaires (les notes Azure/Microsoft Foundry font référence à des modèles audio similaires).

gpt-audio-1.5 vs modèles audio apparentés

Propriétégpt-audio-1.5gpt-realtime-1.5
Objectif principalAudio de haute qualité en entrée/sortie pour Chat Completions et flux conversationnels.S2S en temps réel (parole à parole) avec latence plus faible pour des agents vocaux en direct et des scénarios de streaming.
Fenêtre de contexte128k jetons.32k jetons (variante temps réel documentée).
Jetons max en sortie16,384 (documenté).Généralement configuré pour des réponses temps réel plus courtes (la doc mentionne un maximum plus petit).
Meilleur usageChatbots, assistants à commande vocale nécessitant la sémantique complète du chat + audio.Agents vocaux en direct, bornes interactives et interfaces conversationnelles à faible latence.

Cas d’utilisation représentatifs

  • Agents conversationnels vocaux pour le support client et les centres d’assistance internes.
  • Assistants à commande vocale intégrés dans des applications, appareils et bornes.
  • Workflows mains libres (dictée, recherche vocale, accessibilité).
  • Expériences multimodales mêlant audio et texte/images via Chat Completions.

Limites et considérations opérationnelles

  • Pas un substitut direct à une QA humaine : Toujours valider les sorties vocales et les actions en aval avec une relecture humaine dans les flux de production.
  • Planification des ressources : La grande fenêtre de contexte et l’E/S audio peuvent augmenter la consommation de calcul et la latence—concevez des stratégies de streaming/segmentation pour les longues sessions.
  • Contraintes de sécurité et de politique : Les sorties vocales peuvent avoir un pouvoir de persuasion ; suivez les lignes directrices de sécurité de la plateforme et mettez en place des garde-fous lors d’un déploiement à grande échelle.
  • Comment accéder à l’API GPT Audio 1.5

Étape 1 : S’inscrire pour obtenir une clé API

Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre console CometAPI. Obtenez la clé API d’accès de l’interface. Cliquez sur “Add Token” dans la section API token du centre personnel, récupérez la clé de jeton : sk-xxxxx et soumettez.

clé CometAPI

Étape 2 : Envoyer des requêtes à l’API GPT Audio 1.5

Sélectionnez l’endpoint “gpt-audio-1.5” pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site. Notre site fournit également des tests Apifox pour votre convenance. Remplacez <YOUR_API_KEY> par votre clé CometAPI réelle issue de votre compte. L’URL de base est Chat Completions

Insérez votre question ou votre demande dans le champ de contenu—c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : Récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 prend en charge une fenêtre de contexte de 128 000 jetons, et la documentation indique une configuration maximale d’environ 16 384 jetons de sortie ; vérifiez les limites exactes pour chaque point de terminaison dans la documentation développeur. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Oui — il accepte des entrées audio et peut renvoyer des sorties audio ou des réponses textuelles via les points de terminaison Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Choisissez gpt-audio-1.5 pour un audio de meilleure qualité dans les flux Chat Completions nécessitant un contexte plus large ; choisissez gpt-realtime-1.5 pour des interactions vocales en direct à faible latence avec diffusion en continu. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Oui — le modèle prend en charge le streaming de réponses audio et les sorties structurées/appels de fonctions pour intégrer des outils et des workflows externes. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Oui — il est conçu pour les assistants vocaux et les agents conversationnels, mais vous devriez ajouter un examen humain/QA, une journalisation et des contrôles de sécurité avant un déploiement en production. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Les principaux points à considérer sont les compromis calcul/latence pour les sessions audio avec un contexte important, les garde-fous de sécurité pour les contenus vocaux, et la nécessité de valider les sorties ASR/TTS dans votre domaine. :contentReference[oaicite:49]{index=49}

Fonctionnalités pour gpt-audio-1.5

Découvrez les fonctionnalités clés de gpt-audio-1.5, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour gpt-audio-1.5

Découvrez des tarifs compétitifs pour gpt-audio-1.5, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment gpt-audio-1.5 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$2/M
Sortie:$8/M
Entrée:$2.5/M
Sortie:$10/M
-20%

Exemple de code et API pour gpt-audio-1.5

Accédez à des exemples de code complets et aux ressources API pour gpt-audio-1.5 afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de gpt-audio-1.5 dans vos projets.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Plus de modèles

O

gpt-realtime-1.5

Entrée:$3.2/M
Sortie:$12.8/M
Le meilleur modèle vocal pour audio en entrée, audio en sortie.
O

Whisper-1

Entrée:$24/M
Sortie:$24/M
Conversion de la parole en texte, création de traductions
O

TTS

Entrée:$12/M
Sortie:$12/M
OpenAI Text-to-Speech
K

Kling TTS

Par requête:$0.006608
[Synthèse vocale] Nouveauté : conversion de texte en audio de qualité broadcast en ligne, avec fonction d’aperçu ● Peut générer simultanément un audio_id, utilisable avec n’importe quelle API Keling.
K

Kling video-to-audio

K

Kling video-to-audio

Par requête:$0.03304
Kling vidéo vers audio
K

Kling text-to-audio

K

Kling text-to-audio

Par requête:$0.03304
Kling conversion de texte en audio