ModelliSupportoAziendaBlog
500+ API di Modelli AI, Tutto In Una Sola API. Solo In CometAPI
API dei Modelli
Sviluppatore
Avvio RapidoDocumentazioneDashboard API
Risorse
Modelli di Intelligenza ArtificialeBlogAziendaRegistro delle modificheChi siamo
2025 CometAPI. Tutti i diritti riservati.Informativa sulla PrivacyTermini di Servizio
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Ingresso:$2/M
Uscita:$8/M
Il miglior modello vocale per audio in entrata e in uscita con Chat Completions.
Nuovo
Uso commerciale
Panoramica
Caratteristiche
Prezzi
API

Specifiche tecniche di gpt-audio-1.5

Vocegpt-audio-1.5 (specifiche pubbliche)
Famiglia del modelloFamiglia GPT Audio (variante incentrata sull'audio)
Tipi di inputTesto, audio (voce in ingresso)
Tipi di outputTesto, audio (voce in uscita), output strutturati (supporta chiamate di funzione)
Finestra di contesto128,000 token.
Token massimi in output16,384 (documentato nella relativa scheda gpt-audio).
Livello di prestazioniIntelligenza superiore; velocità media (equilibrata).
Profilo di latenzaOttimizzato per interazioni vocali (latenza media/bassa a seconda dell'endpoint).
DisponibilitàChat Completions API (audio in/out) e playground della piattaforma; integrato su superfici in tempo reale/voce.
Sicurezza / note d'usoBarriere di sicurezza per contenuti vocali; trattare gli output del modello con le consuete misure di sicurezza e verifica per agenti vocali in produzione.

Nota: gpt-realtime-1.5 è una variante strettamente correlata, in tempo reale e incentrata sulla voce, ottimizzata per latenza inferiore e sessioni realtime; vedi confronto sotto.


Che cos'è gpt-audio-1.5?

gpt-audio-1.5 è un modello GPT abilitato all'audio che supporta sia input vocali sia output vocali tramite Chat Completions e API abilitate all'audio correlate. È posizionato come il principale modello audio generalmente disponibile per creare agenti vocali ed esperienze voice‑first bilanciando qualità e velocità.


Caratteristiche principali

  1. Supporto voce in/voce out: Gestisce input parlati e restituisce risposte vocali o testuali per flussi vocali naturali.
  2. Ampio contesto per flussi audio: Supporta un contesto molto ampio (documentati 128k token) che consente cronologie multi‑turno, conversazioni prolungate o sessioni multimodali estese.
  3. Compatibilità con streaming e Chat Completions: Funziona in Chat Completions con risposte audio in streaming e output strutturati con chiamate di funzione.
  4. Prestazioni/latenza bilanciate: Ottimizzato per fornire risposte audio di alta qualità con throughput medio—adatto a chatbot e assistenti vocali dove la qualità è importante.
  5. Ecosistema e integrazioni: Supportato nei playground della piattaforma e disponibile su endpoint ufficiali realtime/voice e integrazioni con partner (le note di Azure/Microsoft Foundry fanno riferimento a modelli audio simili).

gpt-audio-1.5 vs modelli audio correlati

Proprietàgpt-audio-1.5gpt-realtime-1.5
Focus principaleAudio di alta qualità in/out per Chat Completions e flussi conversazionali.S2S in tempo reale (speech‑to‑speech) con latenza inferiore per agenti vocali live e scenari di streaming.
Finestra di contesto128k token.32k token (variante realtime documentata).
Token massimi in output16,384 (documentato).Tipicamente configurato per risposte in tempo reale più brevi (la documentazione indica un numero massimo di token inferiore).
Uso idealeChatbot e assistenti abilitati alla voce in cui sono richieste semantica completa di chat + audio.Agenti vocali live, chioschi e interfacce conversazionali a bassa latenza.

Casi d'uso rappresentativi

  • Agenti vocali conversazionali per l'assistenza clienti e gli help desk interni.
  • Assistenti abilitati alla voce integrati in app, dispositivi e chioschi.
  • Flussi di lavoro a mani libere (dettatura, ricerca vocale, accessibilità).
  • Esperienze multimodali che combinano audio con testo / immagini tramite Chat Completions.

Limitazioni e considerazioni operative

  • Non è un sostituto plug‑and‑play della QA umana: convalidare sempre gli output vocali e le azioni a valle con revisione umana nei flussi di produzione.
  • Pianificazione delle risorse: un ampio contesto e l'I/O audio possono aumentare il calcolo e la latenza—progettare strategie di streaming/segmentazione per sessioni lunghe.
  • Vincoli di sicurezza e policy: gli output vocali possono avere potere persuasivo; seguire le linee guida di sicurezza della piattaforma e i guardrail durante il deployment su larga scala.
  • Come accedere all'API GPT Audio 1.5

Passaggio 1: Registrarsi per ottenere la chiave API

Accedi a cometapi.com. Se non sei ancora nostro utente, registrati prima. Accedi alla tua console CometAPI. Ottieni la chiave API delle credenziali di accesso dell'interfaccia. Clicca “Add Token” nella sezione API token del centro personale, ottieni la chiave del token: sk-xxxxx e invia.

cometapi-key

Passaggio 2: Inviare richieste all'API GPT Audio 1.5

Seleziona l'endpoint “gpt-audio-1.5” per inviare la richiesta API e imposta il body della richiesta. Il metodo e il body della richiesta sono riportati nella documentazione API del nostro sito. Il nostro sito fornisce anche un test Apifox per comodità. Sostituisci <YOUR_API_KEY> con la tua chiave CometAPI effettiva del tuo account. L'URL di base è Chat Completions

Inserisci la tua domanda o richiesta nel campo content—è a questo che il modello risponderà . Elabora la risposta dell'API per ottenere la risposta generata.

Passaggio 3: Recuperare e verificare i risultati

Elabora la risposta dell'API per ottenere la risposta generata. Dopo l'elaborazione, l'API risponde con lo stato dell'attività e i dati di output.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 supporta una finestra di contesto di 128.000 token e la documentazione indica una configurazione massima dei token di output intorno a 16.384; verifica i limiti esatti per endpoint nella documentazione per sviluppatori. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Sì — accetta input audio e può restituire output audio o risposte testuali tramite gli endpoint Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Scegli gpt-audio-1.5 per un audio di qualità superiore nei flussi Chat Completions in cui è richiesto un contesto più ampio; scegli gpt-realtime-1.5 per interazioni vocali live in streaming a bassa latenza. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Sì — il modello supporta risposte audio in streaming e output strutturati/function calling per integrare strumenti e flussi di lavoro esterni. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Sì — è progettato per assistenti vocali e agenti conversazionali, ma dovresti aggiungere revisione umana/QA, logging e controlli di sicurezza prima della distribuzione in produzione. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Le considerazioni principali sono i compromessi tra calcolo e latenza per sessioni audio con contesto ampio, i guardrail di sicurezza per i contenuti vocali e la necessità di convalidare gli output ASR/TTS nel tuo dominio. :contentReference[oaicite:49]{index=49}

Funzionalità per gpt-audio-1.5

Esplora le caratteristiche principali di gpt-audio-1.5, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per gpt-audio-1.5

Esplora i prezzi competitivi per gpt-audio-1.5, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come gpt-audio-1.5 può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$2/M
Uscita:$8/M
Ingresso:$2.5/M
Uscita:$10/M
-20%

Codice di esempio e API per gpt-audio-1.5

Accedi a codice di esempio completo e risorse API per gpt-audio-1.5 per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di gpt-audio-1.5 nei tuoi progetti.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Altri modelli

O

gpt-realtime-1.5

Ingresso:$3.2/M
Uscita:$12.8/M
Il miglior modello vocale per input e output audio.
O

Whisper-1

Ingresso:$24/M
Uscita:$24/M
Da parlato a testo, creazione di traduzioni
O

TTS

Ingresso:$12/M
Uscita:$12/M
Sintesi vocale di OpenAI
K

Kling TTS

Per Richiesta:$0.006608
[Sintesi vocale] Appena lanciato: conversione da testo in audio di qualità broadcast online, con funzione di anteprima ● Può generare contemporaneamente un audio_id, utilizzabile con qualsiasi Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Per Richiesta:$0.03304
Kling da video ad audio
K

Kling text-to-audio

K

Kling text-to-audio

Per Richiesta:$0.03304
Kling da testo ad audio