What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 mendukung jendela konteks 128,000 token dan dokumen mencantumkan konfigurasi jumlah token keluaran maksimum sekitar 16,384; verifikasi batas pasti per endpoint di dokumentasi pengembang. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ya — model ini menerima masukan audio dan dapat mengembalikan keluaran audio atau respons teks melalui endpoint Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Pilih gpt-audio-1.5 untuk kualitas audio yang lebih tinggi dalam alur Chat Completions ketika konteks yang lebih besar diperlukan; pilih gpt-realtime-1.5 untuk interaksi suara streaming langsung berlatensi rendah. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ya — model ini mendukung streaming respons audio dan keluaran terstruktur/pemanggilan fungsi untuk mengintegrasikan alat eksternal dan alur kerja. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ya — model ini dirancang untuk asisten suara dan agen percakapan, namun Anda sebaiknya menambahkan peninjauan manusia/QA, pencatatan log, dan kontrol keamanan sebelum penerapan ke produksi. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Pertimbangan utama mencakup kompromi komputasi/latensi untuk sesi audio berkonteks besar, pembatas keamanan untuk konten suara, serta kebutuhan untuk memvalidasi keluaran ASR/TTS di domain Anda. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Masukan:$2/M

Keluaran:$8/M

Dirilis:Feb 24, 2026

Baru

Penggunaan komersial

Spesifikasi teknis gpt-audio-1.5

Item	gpt-audio-1.5 (spesifikasi publik)
Model family	Keluarga GPT Audio (varian berfokus audio)
Input types	Teks, audio (masukan ucapan)
Output types	Teks, audio (keluaran ucapan), keluaran terstruktur (mendukung pemanggilan fungsi)
Context window	128,000 token.
Max output tokens	16,384 (tercantum dalam daftar gpt-audio terkait).
Performance tier	Kecerdasan lebih tinggi; Kecepatan sedang (seimbang).
Latency profile	Dioptimalkan untuk interaksi suara (latensi menengah/rendah tergantung endpoint).
Availability	Chat Completions API (audio masuk/keluar) dan playground platform; terintegrasi di berbagai permukaan realtime/suara.
Safety / usage notes	Pembatasan untuk konten suara; perlakukan keluaran model dengan praktik keselamatan dan verifikasi yang lazim untuk agen suara produksi.

Catatan: gpt-realtime-1.5 adalah varian realtime yang terkait erat, berfokus pada audio/suara dan dioptimalkan untuk latensi lebih rendah serta sesi realtime; bandingkan di bawah.

Apa itu gpt-audio-1.5?

gpt-audio-1.5 adalah model GPT berkemampuan audio yang mendukung masukan ucapan dan keluaran ucapan melalui Chat Completions dan API terkait yang mendukung audio. Model ini diposisikan sebagai model audio utama yang tersedia secara umum untuk membangun agen suara dan pengalaman yang berfokus pada suara, sekaligus menyeimbangkan kualitas dan kecepatan.

Fitur utama

Dukungan masukan/keluaran suara: Menangani masukan yang diucapkan dan mengembalikan respons berupa ucapan atau teks untuk alur percakapan alami.
Konteks besar untuk alur kerja audio: Mendukung konteks yang sangat besar (tercantum 128k token) sehingga memungkinkan riwayat percakapan panjang, percakapan multi-giliran, atau sesi multimodal besar.
Kompatibilitas Streaming & Chat Completions: Bekerja di dalam Chat Completions dengan respons audio streaming dan keluaran terstruktur berupa pemanggilan fungsi.
Kinerja/latensi seimbang: Disetel untuk memberikan respons audio berkualitas tinggi pada throughput sedang—cocok untuk chatbot dan asisten suara di mana kualitas penting.
Ekosistem & integrasi: Didukung di playground platform dan tersedia di berbagai endpoint realtime/suara resmi serta integrasi mitra (catatan Azure/Microsoft Foundry merujuk pada model audio serupa).

gpt-audio-1.5 vs model audio terkait

Properti	gpt-audio-1.5	gpt-realtime-1.5
Fokus utama	Audio berkualitas tinggi masuk/keluar untuk Chat Completions dan alur percakapan.	Realtime S2S (speech-to-speech) dengan latensi lebih rendah untuk agen suara langsung dan skenario streaming.
Jendela konteks	128k token.	32k token (varian realtime yang didokumentasikan).
Maksimum token keluaran	16,384 (tercantum).	Umumnya dikonfigurasi untuk respons realtime yang lebih singkat (dokumen mencantumkan batas token maksimum yang lebih kecil).
Penggunaan terbaik	Chatbot, asisten berkemampuan suara yang memerlukan semantik percakapan lengkap + audio.	Agen suara langsung, kios, dan antarmuka percakapan berlatensi rendah.

Kasus penggunaan representatif

Agen suara percakapan untuk dukungan pelanggan dan help desk internal.
Asisten berkemampuan suara yang tertanam dalam aplikasi, perangkat, dan kios.
Alur kerja tanpa tangan (dikta, pencarian suara, aksesibilitas).
Pengalaman multimodal yang memadukan audio dengan teks/gambar melalui Chat Completions.

Keterbatasan & pertimbangan operasional

Bukan pengganti langsung untuk QA manusia: Selalu validasi keluaran ucapan dan tindakan turunannya dengan peninjauan manusia dalam alur produksi.
Perencanaan sumber daya: Jendela konteks besar dan I/O audio dapat meningkatkan komputasi dan latensi—rancang strategi streaming/segmentasi untuk sesi panjang.
Keterbatasan keselamatan & kebijakan: Keluaran suara dapat memiliki daya persuasif; ikuti pedoman keselamatan platform dan pembatasan saat menerapkan dalam skala besar.
Cara mengakses GPT Audio 1.5 API

Langkah 1: Daftar untuk Kunci API

Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, harap daftar terlebih dahulu. Masuk ke CometAPI console. Dapatkan kunci API kredensial akses untuk antarmuka. Klik “Add Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.

cometapi-key

Langkah 2: Kirim Permintaan ke GPT Audio 1.5 API

Pilih endpoint “gpt-audio-1.5” untuk mengirim permintaan API dan atur isi permintaan (request body). Metode permintaan dan isi permintaan diperoleh dari dokumen API di situs kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. base url adalah Chat Completions

Masukkan pertanyaan atau permintaan Anda ke bidang content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.

Langkah 3: Ambil dan Verifikasi Hasil

Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data keluaran.

FAQ

Harga untuk gpt-audio-1.5

Jelajahi harga kompetitif untuk gpt-audio-1.5, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana gpt-audio-1.5 dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.

Harga Comet (USD / M Tokens)	Harga Resmi (USD / M Tokens)	Diskon
Masukan:$2/M Keluaran:$8/M	Masukan:$2.5/M Keluaran:$10/M	-20%

Kode contoh dan API untuk gpt-audio-1.5

Akses kode sampel komprehensif dan sumber daya API untuk gpt-audio-1.5 guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh gpt-audio-1.5 dalam proyek Anda.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"