What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 menyokong tetingkap konteks 128,000 token dan dokumen menyenaraikan konfigurasi token keluaran maksimum sekitar 16,384; semak had tepat bagi setiap endpoint dalam dokumentasi pembangun. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ya — ia menerima input audio dan boleh memulangkan output audio atau respons berasaskan teks melalui endpoint Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Pilih gpt-audio-1.5 untuk audio berkualiti lebih tinggi dalam aliran Chat Completions apabila konteks yang lebih besar diperlukan; pilih gpt-realtime-1.5 untuk interaksi suara penstriman langsung dengan kependaman rendah. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ya — model ini menyokong penstriman respons audio dan output berstruktur/panggilan fungsi untuk mengintegrasikan alat serta aliran kerja luaran. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ya — ia direka untuk pembantu suara dan ejen perbualan, tetapi anda harus menambah semakan manusia/QA, pembalakan, dan kawalan keselamatan sebelum pengeluaran. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Pertimbangan utama ialah pertukaran antara pengiraan/kependaman bagi sesi audio berkonteks besar, kawalan keselamatan untuk kandungan suara, serta keperluan mengesahkan output ASR/TTS dalam domain anda. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Masukan:$2/M

Keluaran:$8/M

Dilancarkan:Feb 24, 2026

Baru

Penggunaan komersial

Spesifikasi teknikal gpt-audio-1.5

Item	gpt-audio-1.5 (spesifikasi awam)
Model family	Keluarga GPT Audio (varian berteraskan audio)
Input types	Teks, audio (pertuturan masuk)
Output types	Teks, audio (pertuturan keluar), output berstruktur (panggilan fungsi disokong)
Context window	128,000 token.
Max output tokens	16,384 (didokumenkan dalam penyenaraian gpt-audio yang berkaitan).
Performance tier	Kecerdasan lebih tinggi; Kelajuan sederhana (seimbang).
Latency profile	Dioptimumkan untuk interaksi suara (kependaman sederhana/rendah bergantung pada titik akhir).
Availability	Chat Completions API (audio masuk/keluar) dan Playground platform; diintegrasikan merentas permukaan masa nyata/suara.
Safety / usage notes	Pengadang keselamatan untuk kandungan suara; perlakukan output model dengan keselamatan dan pengesahan lazim untuk ejen suara produksi.

Nota: gpt-realtime-1.5 ialah varian berasaskan masa nyata yang berkait rapat, berfokus audio/suara dan dioptimumkan untuk kependaman lebih rendah serta sesi masa nyata; bandingkan di bawah.

Apakah gpt-audio-1.5?

gpt-audio-1.5 ialah model GPT berkeupayaan audio yang menyokong kedua-dua input pertuturan dan output pertuturan melalui Chat Completions dan API berkebolehan audio yang berkaitan. Ia diposisikan sebagai model audio utama yang tersedia secara umum untuk membina ejen suara dan pengalaman berteraskan pertuturan sambil mengimbangi kualiti dan kelajuan.

Ciri utama

Sokongan pertuturan masuk/keluar: Mengendalikan input pertuturan dan mengembalikan respons bertutur atau bertulis untuk aliran suara semula jadi.
Konteks besar untuk aliran kerja audio: Menyokong konteks yang sangat besar (128k token yang didokumenkan) membolehkan sejarah perbualan berbilang giliran yang panjang atau sesi multimodal berskala besar.
Keserasian Penstriman & Chat Completions: Berfungsi dalam Chat Completions dengan respons audio penstriman dan output berstruktur panggilan fungsi.
Prestasi/kependaman seimbang: Ditala untuk memberikan respons audio berkualiti tinggi pada kadar hantaran sederhana—sesuai untuk chatbot dan pembantu suara yang mementingkan kualiti.
Ekosistem & integrasi: Disokong dalam Playground platform dan tersedia merentas titik akhir rasmi masa nyata/suara serta integrasi rakan kongsi (nota Azure/Microsoft Foundry merujuk model audio yang serupa).

gpt-audio-1.5 vs model audio berkaitan

Property	gpt-audio-1.5	gpt-realtime-1.5
Primary focus	Audio masuk/keluar berkualiti tinggi untuk Chat Completions dan aliran perbualan.	S2S masa nyata (pertuturan-ke-pertuturan) dengan kependaman lebih rendah untuk ejen suara langsung dan senario penstriman.
Context window	128k token.	32k token (varian masa nyata yang didokumenkan).
Max output tokens	16,384 (didokumenkan).	Lazimnya dikonfigurasikan untuk respons masa nyata yang lebih pendek (dokumen menyenaraikan had token maksimum yang lebih kecil).
Best use	Chatbot, pembantu berkeupayaan suara yang memerlukan semantik chat penuh + audio.	Ejen suara langsung, kios, dan antara muka perbualan berkependaman rendah.

Contoh kes penggunaan

Ejen suara perbualan untuk sokongan pelanggan dan meja bantuan dalaman.
Pembantu berkeupayaan suara yang disepadukan dalam aplikasi, peranti, dan kios.
Aliran kerja tanpa tangan (diktasi, carian suara, kebolehcapaian).
Pengalaman multimodal yang menggabungkan audio dengan teks / imej melalui Chat Completions.

Had & pertimbangan operasi

Bukan pengganti terus untuk QA manusia: Sentiasa sahkan output pertuturan dan tindakan hiliran dengan semakan manusia dalam aliran produksi.
Perancangan sumber: Konteks besar dan I/O audio boleh meningkatkan pengkomputeran dan kependaman—rangka strategi penstriman/pemenggalan untuk sesi panjang.
Sekatan keselamatan & dasar: Output suara mempunyai kuasa mempengaruhi; ikut garis panduan keselamatan dan pagar pengaman platform apabila digunakan pada skala besar.
Cara mengakses GPT Audio 1.5 API

Langkah 1: Daftar untuk Kunci API

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI console anda. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.

cometapi-key

Langkah 2: Hantar Permintaan ke GPT Audio 1.5 API

Pilih titik akhir “gpt-audio-1.5” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Chat Completions

Masukkan soalan atau permintaan anda ke dalam medan content—ini yang akan direspons oleh model. Proses respons API untuk mendapatkan jawapan yang dijana.

Langkah 3: Dapatkan dan Sahkan Keputusan

Proses respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API akan membalas dengan status tugas dan data output.

Soalan Lazim

Harga untuk gpt-audio-1.5

Terokai harga yang kompetitif untuk gpt-audio-1.5, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana gpt-audio-1.5 boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.

Harga Comet (USD / M Tokens)	Harga Rasmi (USD / M Tokens)	Diskaun
Masukan:$2/M Keluaran:$8/M	Masukan:$2.5/M Keluaran:$10/M	-20%

Kod contoh dan API untuk gpt-audio-1.5

Akses kod sampel yang komprehensif dan sumber API untuk gpt-audio-1.5 bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh gpt-audio-1.5 dalam projek anda.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"