ModelSokonganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Sumber
Model AIBlogPerusahaanLog PerubahanTentang
2025 CometAPI. Hak cipta terpelihara.Dasar PrivasiTerma Perkhidmatan
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Masukan:$2/M
Keluaran:$8/M
Model suara terbaik untuk audio masuk, audio keluar dengan Chat Completions
Baru
Penggunaan komersial
Gambaran Keseluruhan
Ciri-ciri
Harga
API

Spesifikasi teknikal bagi gpt-audio-1.5

Itemgpt-audio-1.5 (spesifikasi awam)
Model familyKeluarga GPT Audio (varian mendahulukan audio)
Input typesTeks, audio (pertuturan masuk)
Output typesTeks, audio (pertuturan keluar), output berstruktur (menyokong panggilan fungsi)
Context window128,000 token.
Max output tokens16,384 (didokumentasikan dalam penyenaraian gpt-audio berkaitan).
Performance tierKecerdasan lebih tinggi; Kelajuan sederhana (seimbang).
Latency profileDioptimumkan untuk interaksi suara (pendaman sederhana/rendah bergantung pada titik akhir).
AvailabilityChat Completions API (audio masuk/keluar) dan playground platform; diintegrasikan merentas permukaan masa nyata/suara.
Safety / usage notesPenghad untuk kandungan suara; tangani output model dengan amalan keselamatan dan pengesahan lazim untuk ejen suara produksi.

Nota: gpt-realtime-1.5 ialah varian berkait rapat berasaskan audio/suara yang diutamakan masa nyata, dioptimumkan untuk pendaman lebih rendah dan sesi masa nyata; bandingkan di bawah.


Apakah itu gpt-audio-1.5?

gpt-audio-1.5 ialah model GPT berkeupayaan audio yang menyokong kedua-dua input pertuturan dan output pertuturan melalui Chat Completions dan API berkaitan yang menyokong audio. Ia diposisikan sebagai model audio utama yang umum tersedia untuk membina ejen suara dan pengalaman yang mengutamakan pertuturan sambil mengimbangi kualiti dan kelajuan.


Ciri utama

  1. Pertuturan masuk/keluar: Mengendalikan input pertuturan dan mengembalikan respons bertutur atau bertulis untuk aliran suara yang semula jadi.
  2. Konteks besar untuk aliran kerja audio: Menyokong tetingkap konteks yang sangat besar (didokumentasikan 128k token) membolehkan sejarah perbualan berbilang pusingan yang panjang atau sesi multimodal berskala besar.
  3. Keserasian penstriman & Chat Completions: Berfungsi dalam Chat Completions dengan respons audio penstriman dan output berstruktur panggilan fungsi.
  4. Prestasi/kependaman seimbang: Ditala untuk memberikan respons audio berkualiti tinggi pada kadar sederhana—sesuai untuk chatbot dan pembantu suara apabila kualiti diutamakan.
  5. Ekosistem & integrasi: Disokong dalam playground platform dan tersedia merentasi titik akhir masa nyata/suara rasmi serta integrasi rakan kongsi (nota Azure/Microsoft Foundry merujuk model audio serupa).

gpt-audio-1.5 vs model audio berkaitan

Cirigpt-audio-1.5gpt-realtime-1.5
Fokus utamaAudio berkualiti tinggi masuk/keluar untuk Chat Completions dan aliran perbualan.S2S (ucapan-ke-ucapan) masa nyata dengan pendaman lebih rendah untuk ejen suara langsung dan senario penstriman.
Tetingkap konteks128k token.32k token (varian masa nyata didokumentasikan).
Token output maksimum16,384 (didokumentasikan).Biasanya dikonfigurasikan untuk respons masa nyata yang lebih pendek (dokumen menyenaraikan had token maksimum yang lebih kecil).
Kegunaan terbaikChatbot, pembantu berdaya suara yang memerlukan semantik sembang penuh + audio.Ejen suara langsung, kios, dan antara muka perbualan berpendaman rendah.

Kes penggunaan representatif

  • Ejen suara perbualan untuk sokongan pelanggan dan meja bantuan dalaman.
  • Pembantu berdaya suara yang disepadukan dalam aplikasi, peranti dan kios.
  • Aliran kerja tanpa tangan (dikte, carian suara, kebolehcapaian).
  • Pengalaman multimodal yang menggabungkan audio dengan teks / imej melalui Chat Completions.

Had dan pertimbangan operasi

  • Bukan pengganti terus untuk QA manusia: Sentiasa sahkan output pertuturan dan tindakan hiliran dengan semakan manusia dalam aliran produksi.
  • Perancangan sumber: Tetingkap konteks besar dan I/O audio boleh meningkatkan pengiraan dan kependaman—rancang strategi penstriman/pembahagian untuk sesi yang panjang.
  • Kekangan keselamatan & dasar: Output suara boleh membawa kuasa persuasif; ikut garis panduan keselamatan platform dan penghad apabila melancarkan pada skala.
  • Cara mengakses API GPT Audio 1.5

Langkah 1: Daftar untuk Kunci API

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI. Dapatkan kunci API kelayakan akses bagi antara muka. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

kunci CometAPI

Langkah 2: Hantar Permintaan ke API GPT Audio 1.5

Pilih titik akhir “gpt-audio-1.5” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumentasi API di laman web kami. Laman kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Chat Completions

Masukkan soalan atau permintaan anda ke medan kandungan—itulah yang akan dijawab oleh model. Proses respons API untuk mendapatkan jawapan yang dijana.

Langkah 3: Dapatkan dan Sahkan Keputusan

Proses respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API akan membalas dengan status tugas dan data output.

Soalan Lazim

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 menyokong tetingkap konteks 128,000 token dan dokumentasi menyenaraikan konfigurasi token output maksimum sekitar 16,384; sahkan had tepat bagi setiap endpoint dalam dokumentasi pembangun. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Ya — ia menerima input audio dan boleh mengembalikan output audio atau respons teks melalui endpoint Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Pilih gpt-audio-1.5 untuk audio berkualiti lebih tinggi dalam aliran Chat Completions apabila konteks yang lebih besar diperlukan; pilih gpt-realtime-1.5 untuk interaksi suara penstriman langsung dengan kependaman rendah. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Ya — model ini menyokong respons audio penstriman dan output berstruktur/function calling untuk mengintegrasikan alat serta aliran kerja luaran. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Ya — ia direka untuk pembantu suara dan ejen perbualan, tetapi anda perlu menambah semakan manusia/QA, pengelogan dan kawalan keselamatan sebelum penggunaan pengeluaran. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Pertimbangan utama ialah pertukaran antara pengiraan/kependaman bagi sesi audio berkonteks besar, pagar keselamatan untuk kandungan suara, dan keperluan untuk mengesahkan output ASR/TTS dalam domain anda. :contentReference[oaicite:49]{index=49}

Ciri-ciri untuk gpt-audio-1.5

Terokai ciri-ciri utama gpt-audio-1.5, yang direka untuk meningkatkan prestasi dan kebolehgunaan. Temui bagaimana keupayaan ini boleh memberi manfaat kepada projek anda dan meningkatkan pengalaman pengguna.

Harga untuk gpt-audio-1.5

Terokai harga yang kompetitif untuk gpt-audio-1.5, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana gpt-audio-1.5 boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Masukan:$2/M
Keluaran:$8/M
Masukan:$2.5/M
Keluaran:$10/M
-20%

Kod contoh dan API untuk gpt-audio-1.5

Akses kod sampel yang komprehensif dan sumber API untuk gpt-audio-1.5 bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh gpt-audio-1.5 dalam projek anda.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Lebih Banyak Model

O

gpt-realtime-1.5

Masukan:$3.2/M
Keluaran:$12.8/M
Model suara terbaik untuk input audio dan output audio.
O

Whisper-1

Masukan:$24/M
Keluaran:$24/M
Pertuturan ke teks, menghasilkan terjemahan
O

TTS

Masukan:$12/M
Keluaran:$12/M
OpenAI Teks ke Pertuturan
K

Kling TTS

Setiap Permintaan:$0.006608
[Sintesis Pertuturan] Baru dilancarkan: teks-ke-audio untuk siaran dalam talian, dengan fungsi pratonton ● Boleh sekaligus menjana audio_id, yang boleh digunakan dengan mana-mana Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Setiap Permintaan:$0.03304
Kling video ke audio
K

Kling text-to-audio

K

Kling text-to-audio

Setiap Permintaan:$0.03304
Kling teks ke audio