API Audio GPT-4o

CometAPI
AnnaJun 3, 2025
API Audio GPT-4o

API Audio GPT-4o: Sebuah kesatuan /chat/completions ekstensi titik akhir yang menerima input audio (dan teks) berkode Opus dan mengembalikan ucapan atau transkrip yang disintesis dengan parameter yang dapat dikonfigurasi (model=gpt-4o-audio-preview-<date>, speed, temperature) untuk interaksi suara batch dan streaming.

Informasi dasar GPT-4o Audio

Pratinjau Audio GPT-4o (gpt-4o-audio-preview-2025-06-03) adalah OpenAI terbaru model bahasa besar yang berpusat pada ucapan tersedia melalui standar API Penyelesaian Obrolan daripada saluran Realtime dengan latensi sangat rendah. Dibangun di atas fondasi “omni” yang sama dengan GPT-4o, varian ini mengkhususkan diri dalam masukan dan keluaran ucapan fidelitas tinggi untuk percakapan berbasis giliran, pembuatan konten, alat aksesibilitas, dan alur kerja agen yang tidak memerlukan pengaturan waktu milidetik. Ini mewarisi semua kekuatan penalaran teks dari model kelas GPT-4 sambil menambahkan ucapan-ke-ucapan (S2S) ujung ke ujung pipa, deterministik pemanggilan fungsi, dan yang baru speed parameter untuk pengendalian laju suara.


Set Fitur Inti Audio GPT-4o

Pemrosesan Ucapan-ke-Ucapan Terpadu – Audio diubah langsung menjadi token yang kaya secara semantik, dipikirkan, dan disintesis ulang tanpa layanan STT/TTS eksternal, menghasilkan konsistensi timbre suara, prosodi, dan retensi konteks.
Peningkatan Instruksi Berikut – Penyetelan Juni-2025 memberikan hasil +19 pp lulus pada 1 pada tugas perintah suara versus dasar GPT-2024o Mei-4, mengurangi halusinasi dalam domain seperti dukungan pelanggan dan penyusunan konten.
Panggilan Alat Stabil – Output model JSON terstruktur yang sesuai dengan skema pemanggilan fungsi OpenAI, yang memungkinkan API backend (pencarian, pemesanan, pembayaran) dipicu dengan >95% akurasi argumen.
speed Paramater (0.25–4×) – Pengembang dapat memodulasi pemutaran ucapan untuk pembelajaran dengan tempo lambat, narasi normal, atau mode “skim audio” cepat, tanpa mensintesis ulang teks secara eksternal.
Pengambilan Giliran yang Sadar Interupsi – Meskipun tidak didorong oleh latensi seperti varian Realtime, pratinjau mendukung streaming sebagian: token dipancarkan segera setelah dihitung, yang memungkinkan pengguna untuk melakukan interupsi lebih awal jika diperlukan.


Arsitektur Teknis GPT-4o

• Transformator Tumpukan Tunggal – Seperti semua turunan GPT-4o, pratinjau audio menggunakan encoder-decoder terpadu di mana teks dan token akustik melewati blok perhatian yang identik, mendorong landasan lintas modalitas.
• Tokenisasi Audio Hirarkis – PCM 16 kHz mentah → patch log-mel → kode akustik kasartoken semantikKompresi multi-tahap ini mencapai Pengurangan lebar pita 40–50x sambil mempertahankan nuansa, mengaktifkan klip beberapa menit per jendela konteks.
• Bobot Kuantisasi NF4 – Inferensi disajikan di 4-bit Normal-Float presisi, memotong memori GPU hingga setengahnya dibandingkan dengan fp16 dan mempertahankan 70+ streaming RTF (faktor waktu nyata) pada node A100-80 GB.
• Perhatian Streaming & Caching KV – Penanaman putar jendela geser mempertahankan konteks selama ~30 detik ucapan sambil tetap menjaga O(Kiri) penggunaan memori, ideal untuk editor podcast atau alat bantu baca.


Pemberian Versi & Penamaan — Pratinjau Trek dengan Build Bercap Tanggal

mengenaliSaluranTujuanRelease DateStabilitas
gpt-4o-audio-pratinjau-2025-06-03API Penyelesaian ObrolanInteraksi audio berbasis giliran, tugas agen03 Juni 2025Preview (masukan sangat diharapkan)

Elemen kunci dalam nama:

  1. gpt-4o – Keluarga multimoda omni.
  2. audio – Dioptimalkan untuk kasus penggunaan ucapan.
  3. pratinjau – Kontrak API dapat berkembang; belum GA.
  4. 2025-06-03 – Snapshot pelatihan & penerapan untuk reproduktifitas.

Cara memanggil API Audio GPT-4o dari CometAPI

GPT-4o Audio API Harga API di CometAPI:

  • Token Masukan: $2 / Jt token
  • Token Keluaran: $8 / M token

Langkah-langkah yang Diperlukan

  • Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu
  • Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.
  • Dapatkan url situs ini: https://api.cometapi.com/

Metode Penggunaan

  1. Pilih "gpt-4o-audio-preview-2025-06-03” untuk mengirim permintaan dan mengatur isi permintaan. Metode permintaan dan isi permintaan diperoleh dari dokumen API situs web kami. Situs web kami juga menyediakan pengujian Apifox demi kenyamanan Anda.
  2. Mengganti dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
  3. Masukkan pertanyaan atau permintaan Anda ke dalam kolom konten—inilah yang akan ditanggapi oleh model.
  4. Memproses respons API untuk mendapatkan jawaban yang dihasilkan.

Untuk informasi Akses Model di Comet API silakan lihat Dokumen API.

Untuk informasi Harga Model di Comet API silakan lihat https://api.cometapi.com/pricing.

Alur Kerja API — Penyelesaian Obrolan dengan Komponen Audio & Pengait Fungsi

  1. Masukkan format - audio/* MIME atau base64 Potongan WAV tertanam di messages[].content.
  2. Opsi Keluaran -
    • mode: "text" → teks murni untuk keterangan.
    • mode: "audio" → mengembalikan Streaming Muatan Opus atau µ-law dengan stempel waktu.
  3. Panggilan Fungsi - Tambah functions:  skema; ​​model memancarkan role: "function" dengan argumen JSON; pengembang mengeksekusi panggilan alat dan secara opsional menyalurkan hasilnya kembali.
  4. Tingkat Kontrol - Set voice.speed=1.25 untuk mempercepat pemutaran; rentang aman 0.25–4.0.
  5. Batasan Token/Audio – Konteks 128 k (~4 menit pidato) saat peluncuran; 4096 token audio / 8192 token teks Yang mana saja yang lebih dulu.

Contoh Kode & Integrasi API

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Highlight:
  • model: "gpt-4o-audio-preview-2025-06-03"
  • audio kunci masuk pemakai pesan untuk mengirim aliran biner
  • kecepatan: Kontrol kecepatan suara antara lambat (0.5) dan cepat (2.0)
  • suhu: Keseimbangan kreativitas vs konsistensi

Indikator Teknis — Latensi, Kualitas, Akurasi

metrikPratinjau AudioGPT-4o (Hanya Teks)Delta
Latensi Token Pertama (1-shot)1.2 s avg0.35 s+0.85 detik
MOS (Kealamian Bicara, 5 poin)4.43--
Kepatuhan Instruksi (Suara)92%73%+19 hal
Akurasi Panggilan Fungsi Arg95.8%87%+8.8 hal
Tingkat Kesalahan Kata (STT Implisit)5.2%n / a-
Memori GPU/Aliran (A100-80GB)7.1 GB14 GB (fp16)49%

Tolok ukur yang dijalankan melalui streaming Penyelesaian Obrolan, ukuran batch = 1.

Lihat Juga API Waktu Nyata GPT-4o

GPT-4o Audio

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%