API Audio GPT-4o: A bersatu /chat/completions sambungan titik akhir yang menerima input audio (dan teks) yang dikodkan Opus dan mengembalikan pertuturan atau transkrip yang disintesis dengan parameter boleh dikonfigurasikan (model=gpt-4o-audio-preview-<date>, speed, temperature) untuk interaksi suara kelompok dan penstriman.
Maklumat asas Audio GPT-4o
Pratonton Audio GPT-4o (gpt-4o-audio-preview-2025-06-03) ialah OpenAI yang terbaru model bahasa besar bertumpu pertuturan disediakan melalui piawaian API Pelengkapan Sembang dan bukannya saluran Masa Nyata kependaman ultra-rendah. Dibina pada asas "omni" yang sama seperti GPT-4o, varian ini mengkhususkan diri dalam input dan output pertuturan ketelitian tinggi untuk perbualan berasaskan giliran, penciptaan kandungan, alat kebolehaksesan dan aliran kerja agen yang tidak memerlukan pemasaan milisaat. Ia mewarisi semua kekuatan penaakulan teks bagi model kelas GPT-4 sambil menambah pertuturan ke pertuturan hujung ke hujung (S2S) saluran paip, deterministik panggilan fungsi, dan yang baru speed parameter untuk kawalan kadar suara.
Set Ciri Teras Audio GPT-4o
• Pemprosesan Pertuturan-ke-Pertuturan Bersatu – Audio ditukar terus kepada token yang kaya dengan semantik, diperakui dan disintesis semula tanpa perkhidmatan STT/TTS luaran, menghasilkan timbre suara yang konsisten, prosodi dan pengekalan konteks.
• Penambahbaikan Arahan Mengikuti – Penalaan Jun-2025 dihantar +19 pp lulus-di-1 mengenai tugas arahan suara berbanding garis dasar GPT-2024o Mei-4, mengurangkan halusinasi dalam domain seperti sokongan pelanggan dan penggubalan kandungan.
• Panggilan Alat Stabil – Model keluaran JSON berstruktur yang mematuhi skema panggilan fungsi OpenAI, membolehkan API bahagian belakang (carian, tempahan, pembayaran) dicetuskan dengan >95 % ketepatan hujah.
• speed Parameter (0.25–4×) – Pembangun boleh memodulasi main balik pertuturan untuk pembelajaran perlahan, penceritaan biasa atau mod “skim boleh didengar” pantas, tanpa mensintesis semula teks secara luaran.
• Mengambil Giliran Sampuk-Sedar – Walaupun tidak didorong kependaman seperti varian Masa Nyata, pratonton menyokong penstriman separa: token dikeluarkan sebaik sahaja ia dikira, membolehkan pengguna mengganggu awal jika perlu.
Seni Bina Teknikal GPT-4o
• Pengubah Tindanan Tunggal – Seperti semua derivatif GPT-4o, pratonton audio menggunakan a pengekod-penyahkod bersatu di mana token teks dan akustik melalui blok perhatian yang sama, menggalakkan pembumian silang modal.
• Tokenisasi Audio Hierarki – PCM 16 kHz mentah → patch log-mel → kod akustik kasar → token semantik. Mampatan berbilang peringkat ini mencapai Pengurangan lebar jalur 40–50× sambil mengekalkan nuansa, membolehkan klip berbilang minit setiap tetingkap konteks.
• NF4 Kuantiti Berat – Inferens disampaikan di 4-bit Normal-Float ketepatan, memotong memori GPU sebanyak separuh berbanding fp16 dan mengekalkan 70+ penstriman RTF (faktor masa nyata) pada nod A100-80 GB.
• Penstriman Perhatian & Caching KV – Benam putar tetingkap gelongsor mengekalkan konteks sepanjang ~30 saat pertuturan sambil mengekalkan O(L) penggunaan memori, sesuai untuk editor podcast atau alat bacaan bantuan.
Versi & Penamaan — Pratonton Trek dengan Binaan Bercop Tarikh
| Pengecam | Saluran | Tujuan | Melepaskan Tarikh | Kestabilan |
|---|---|---|---|---|
| gpt-4o-pratonton-audio-2025-06-03 | API Pelengkapan Sembang | Interaksi audio berasaskan giliran, tugas agen | Jun 03 2025 | Preview (maklum balas digalakkan) |
Elemen utama dalam nama:
- gpt-4o – Keluarga multimodal Omni.
- audio – Dioptimumkan untuk kes penggunaan pertuturan.
- preview – Kontrak API mungkin berubah; belum lagi GA.
- 2025-06-03 – Gambar latihan & penggunaan untuk kebolehulangan.
Cara memanggil API API Audio GPT-4o daripada CometAPI
GPT-4o Audio API Harga API dalam CometAPI:
- Token Input: $2 / M token
- Token Output: $8 / M token
Langkah yang Diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
- Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url tapak ini: https://api.cometapi.com/
Kaedah Penggunaan
- Pilih "
gpt-4o-audio-preview-2025-06-03” titik akhir untuk menghantar permintaan dan menetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
- . Proses respons API untuk mendapatkan jawapan yang dijana.
Untuk maklumat Akses Model dalam API Komet sila lihat Dokumen API.
Untuk maklumat Harga Model dalam API Komet sila lihat https://api.cometapi.com/pricing.
Aliran Kerja API — Selesai Sembang dengan Bahagian Audio & Cangkuk Fungsi
- Format Input -
audio/*MIME ataubase64Ketulan WAV dibenamkan ke dalammessages[].content. - Pilihan Output -
•mode: "text"→ teks tulen untuk kapsyen.
•mode: "audio"→ pulangan a streaming Muatan Opus atau µ-law dengan cap masa. - Invokasi Fungsi - Tambah
functions:skema; model memancarkanrole: "function"dengan hujah JSON; pembangun melaksanakan panggilan alat dan secara pilihan menyalurkan hasilnya kembali. - Kawalan kadar - Tetapkan
voice.speed=1.25untuk mempercepatkan main balik; julat selamat 0.25–4.0. - Had Token/Audio – 128 k konteks (~4 min ucapan) semasa pelancaran; 4096 token audio / 8192 token teks yang mana dulu.
Contoh Kod & Integrasi API
pythonimport openai
openai.api_key = "YOUR_API_KEY"
# Single-step audio completion (batch)
with open("prompt.wav", "rb") as audio:
response = openai.ChatCompletion.create(
model="gpt-4o-audio-preview-2025-06-03",
messages=[
{"role": "system", "content": "You are a helpful voice assistant."},
{"role": "user", "content": "audio", "audio": audio}
],
temperature=0.3,
speed=1.2 # 20% faster playback
)
print(response.choices.message)
- Info Terkini:
- model:
"gpt-4o-audio-preview-2025-06-03" - audio kunci masuk pengguna mesej untuk menghantar aliran binari
- kelajuan: Kawalan kadar suara antara lambat (0.5) dan cepat (2.0)
- suhu: Baki kreativiti vs konsisten
Petunjuk Teknikal — Latensi, Kualiti, Ketepatan
| metrik | Pratonton Audio | GPT-4o (Teks Sahaja) | Delta |
|---|---|---|---|
| Latensi Token Pertama (1 pukulan) | 1.2 s avg | 0.35 s | +0.85 saat |
| MOS (Kesemulajadian Pertuturan, 5-pt) | 4.43 | - | - |
| Pematuhan Arahan (Suara) | 92% | 73% | +19 ms |
| Ketepatan Panggilan Fungsi Arg | 95.8% | 87% | +8.8 ms |
| Kadar Ralat Perkataan (STT Tersirat) | 5.2% | n / a | - |
| Memori GPU / Strim (A100-80GB) | 7.1 GB | 14 GB (fp16) | −49% |
Penanda aras dilaksanakan melalui penstriman Selesai Sembang, saiz kelompok = 1.
See Also API Masa Nyata GPT-4o

