Spesifikasi teknikal gpt-audio-1.5
| Item | gpt-audio-1.5 (spesifikasi awam) |
|---|---|
| Keluarga model | Keluarga GPT Audio (varian berasaskan audio) |
| Jenis input | Teks, audio (ucapan masuk) |
| Jenis output | Teks, audio (ucapan keluar), output berstruktur (panggilan fungsi disokong) |
| Tetingkap konteks | 128,000 token. |
| Token output maksimum | 16,384 (didokumenkan dalam senarai gpt-audio berkaitan). |
| Tahap prestasi | Kecerdasan lebih tinggi; Kelajuan sederhana (seimbang). |
| Profil kependaman | Dioptimumkan untuk interaksi suara (kependaman sederhana/rendah bergantung pada titik akhir). |
| Ketersediaan | API Chat Completions (audio masuk/keluar) dan playground platform; diintegrasikan merentas permukaan masa nyata/suara. |
| Keselamatan / nota penggunaan | Garis panduan keselamatan untuk kandungan suara; perlakukan output model dengan keselamatan dan pengesahan biasa untuk ejen suara produksi. |
Nota:
gpt-realtime-1.5ialah varian masa nyata audio/voice-first yang berkait rapat, dioptimumkan untuk kependaman lebih rendah dan sesi masa nyata; bandingkan di bawah.
Apakah gpt-audio-1.5?
gpt-audio-1.5 ialah model GPT berkeupayaan audio yang menyokong input ucapan dan output ucapan melalui Chat Completions dan API berkebolehan audio yang berkaitan. Ia diposisikan sebagai model audio utama yang tersedia umum untuk membina ejen suara dan pengalaman berasaskan pertuturan sambil mengimbangi kualiti dan kelajuan.
Ciri utama
- Sokongan ucapan masuk / ucapan keluar: Mengendalikan input pertuturan dan mengembalikan respons berbentuk pertuturan atau teks untuk aliran suara yang semula jadi.
- Konteks besar untuk aliran kerja audio: Menyokong konteks yang sangat besar (didokumenkan 128k token) membolehkan sejarah perbualan berbilang pusingan yang panjang atau sesi multimodal yang besar.
- Keserasian penstriman & Chat Completions: Berfungsi dalam Chat Completions dengan respons audio penstriman dan output berstruktur panggilan fungsi.
- Prestasi/kependaman seimbang: Ditala untuk memberikan respons audio berkualiti tinggi pada kadar sederhana—sesuai untuk chatbot dan pembantu suara di mana kualiti penting.
- Ekosistem & integrasi: Disokong dalam playground platform dan tersedia merentas titik akhir suara/masa nyata rasmi serta integrasi rakan kongsi (nota Azure/Microsoft Foundry merujuk model audio yang serupa).
gpt-audio-1.5 vs model audio berkaitan
| Property | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| Fokus utama | Audio berkualiti tinggi masuk/keluar untuk Chat Completions dan aliran perbualan. | S2S masa nyata (speech-to-speech) dengan kependaman lebih rendah untuk ejen suara langsung dan senario penstriman. |
| Tetingkap konteks | 128k token. | 32k token (varian masa nyata didokumenkan). |
| Token output maksimum | 16,384 (didokumenkan). | Biasanya dikonfigurasi untuk respons masa nyata yang lebih pendek (dokumen menyenaraikan token maksimum yang lebih kecil). |
| Kegunaan terbaik | Chatbot, pembantu berkeupayaan suara yang memerlukan semantik sembang penuh + audio. | Ejen suara langsung, kios, dan antara muka perbualan berkependaman rendah. |
Contoh kes penggunaan
- Ejen suara perbualan untuk sokongan pelanggan dan meja bantuan dalaman.
- Pembantu berkeupayaan suara terbina dalam aplikasi, peranti, dan kios.
- Aliran kerja bebas tangan (diktasi, carian suara, kebolehcapaian).
- Pengalaman multimodal yang menggabungkan audio dengan teks / imej melalui Chat Completions.
Batasan & pertimbangan operasi
- Bukan pengganti terus untuk QA manusia: Sentiasa sahkan output suara dan tindakan susulan dengan semakan manusia dalam aliran produksi.
- Perancangan sumber: Konteks besar dan I/O audio boleh meningkatkan pengkomputeran dan kependaman—reka strategi penstriman/pensegmenan untuk sesi panjang.
- Kekangan keselamatan & dasar: Output suara boleh membawa kuasa mempengaruhi; ikuti garis panduan keselamatan platform dan penghad apabila membuat pelepasan pada skala.
- Cara mengakses API GPT Audio 1.5
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Daftar masuk ke CometAPI console. Dapatkan kunci API kelayakan akses untuk antara muka tersebut. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

Langkah 2: Hantar Permintaan ke API GPT Audio 1.5
Pilih titik akhir “gpt-audio-1.5” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API di laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan <YOUR_API_KEY> dengan kunci CometAPI sebenar daripada akaun anda. URL asas ialah Chat Completions
Masukkan soalan atau permintaan anda ke medan kandungan—ini ialah perkara yang model akan bertindak balas. Proses respons API untuk mendapatkan jawapan yang dijana.
Langkah 3: Dapatkan dan Sahkan Keputusan
Proses respons API untuk mendapatkan jawapan yang dijana. Selepas pemprosesan, API memberikan status tugas dan data output.