API Masa Nyata GPT-4o: Titik akhir penstriman berbilang mod kependaman rendah yang membolehkan pembangun menghantar dan menerima teks, audio dan data penglihatan yang disegerakkan melalui WebRTC atau WebSocket (model=gpt-4o-realtime-preview-<date>, stream=true) untuk aplikasi masa nyata interaktif.
Maklumat Asas & Ciri
OpenAI GPT-4o Masa Nyata (ID model: gpt-4o-pratonton-masa-sebenar-2025-06-03) ialah model asas pertama yang tersedia untuk umum yang direka untuk pertuturan ke pertuturan hujung ke hujung (S2S) interaksi dengan kependaman subsaat. Diperolehi daripada keluarga GPT-4o "omni", varian Masa Nyata bergabung pengecaman pertuturan, penaakulan bahasa semula jadi, dan teks-ke-pertuturan saraf ke dalam satu rangkaian, membolehkan pembangun membina ejen suara yang bercakap dengan lancar seperti manusia. Model didedahkan melalui tujuan yang dibina API masa nyata dan disepadukan rapat dengan yang baharu RealtimeAgent abstraksi di dalam Ejen SDK (TypeScript & Python).
Set Ciri Teras — S2S Hujung ke Hujung • Pengendalian Gangguan • Panggilan Alat
• Pertuturan-ke-Pertuturan Asli: Input audio diserap sebagai strim berterusan, ditoken secara dalaman, difikirkan semula dan dikembalikan sebagai pertuturan yang disintesis. Tiada penimbal STT/TTS luaran diperlukan, menghapuskan lag saluran paip berbilang saat.
• Kependaman Skala Milisaat: Pemangkasan seni bina, penyulingan model dan daya tindanan hidangan yang dioptimumkan GPU ~300–500 ms kependaman token pertama dalam penggunaan awan biasa, mendekati norma pengambilan giliran perbualan manusia.
• Mematuhi Arahan Teguh: Ditala halus pada skrip perbualan dan jejak panggilan fungsi, GPT-4o Realtime menunjukkan a >25 % pengurangan dalam ralat pelaksanaan tugas berbanding dengan garis dasar GPT-2024o Mei-4.
• Panggilan Alat Deterministik: Model ini menghasilkan JSON berstruktur yang mematuhi OpenAI skema panggilan fungsi, membenarkan penggunaan deterministik API bahagian belakang (sistem tempahan, pangkalan data, IoT). Percubaan semula yang menyedari ralat dan pengesahan hujah terbina dalam.
• Gangguan Anggun: Pengesan aktiviti suara masa nyata yang dipasangkan dengan penyahkodan tambahan membolehkan ejen untuk jeda ucapan di tengah ayat, menelan gangguan pengguna dan menyambung semula atau merancang semula respons dengan lancar.
• Kadar Pertuturan Boleh Dikonfigurasikan: Yang baru kelajuan parameter (0.25–4× masa nyata) membolehkan pembangun menyesuaikan rentak output untuk kebolehaksesan atau aplikasi pantas.
Seni Bina Teknikal — Transformer Multimodal Bersatu
Pengekod Bersatu–Penyahkod: GPT-4o Realtime berkongsi seni bina omni pengubah tindanan tunggal di mana token audio, teks dan penglihatan (masa hadapan) wujud bersama dalam satu ruang terpendam. Pengiraan penyesuaian mengikut lapisan membuat pintasan bingkai audio terus ke blok perhatian kemudian, mencukur 20–40 ms setiap pas.
Tokenisasi Audio Hierarki: PCM 16 kHz mentah dicincang menjadi tompok log-mel → dikuantasikan menjadi token akustik berbutir kasar → dimampatkan menjadi token semantik, mengoptimumkan token-sesaat bajet tanpa mengorbankan prosodi.
Inti Inferens Bit Rendah: Berat yang digunakan berjalan pada Kuantiti NF4 4-bit melalui kernel Triton / TensorRT-LLM, menggandakan daya pemprosesan berbanding fp16 sambil mengekalkan kehilangan kualiti MOS <1 dB.
Perhatian penstriman: Pembenaman putar tetingkap gelongsor dan caching nilai kunci membolehkan model mengikuti 15 saat terakhir audio dengan memori O(L), yang penting untuk dialog panjang panggilan telefon.
Butiran Teknikal
- Versi API:
2025-06-03-preview - Protokol Pengangkutan:
- WebRTC: Kependaman sangat rendah (< 80 ms) untuk strim audio/video sebelah pelanggan
- WebSocket: Penstriman pelayan ke pelayan dengan kependaman sub-100 ms
- Pengekodan Data:
- Opus codec dalam RTP paket untuk audio
- H.264 / H.265 pembalut bingkai untuk video
- Streaming: Menyokong
stream: trueuntuk menyampaikan tambahan respons separa apabila token dijana - Palet Suara Baharu: Memperkenalkan lapan suara baharu—aloi, abu, balada, batu karang, echo, bijaksana, berkilau, dan ayat—untuk lebih lanjut ekspresif, seperti manusia interaksi..
Evolusi GPT-4o Masa Nyata
- Semoga 2024: GPT-4o Omni debut dengan sokongan multimodal untuk teks, audio dan penglihatan.
- oktober 2024: API masa nyata memasuki beta peribadi (
2024-10-01-preview), dioptimumkan untuk audio kependaman rendah. - disember 2024: Ketersediaan global diperluaskan
gpt-4o-realtime-preview-2024-12-17, Sambil menambah caching segera dan lebih banyak suara. - Jun 3, 2025: Maklumat terkini (
2025-06-03-preview) dilancarkan keluar halus palet suara dan pengoptimuman prestasi.
Prestasi Penanda Aras
- MMLU: 88.7, mengatasi 4 GPT-86.5 pada Pemahaman Bahasa Pelbagai Tugas Besar-besaran .
- Pengenalan suara: Mencapai menerajui industri kadar ralat perkataan dalam persekitaran yang bising, melebihi Whisper garis dasar.
- Ujian Latensi:
- Hujung ke hujung (ucapan masuk → teks keluar): 50-80 ms melalui WebRTC
- Audio Pergi-balik (ucapan masuk → ucapan keluar): <100 ms .
Petunjuk teknikal
- Pemprosesan: Mengekalkan 15 token/saat untuk aliran teks; Kbps 24 Opus untuk audio.
- Harga:
- teks:
5 setiap 1 M token input;20 setiap 1 M token keluaran - Audio:
100 setiap 1 M token input;200 setiap 1 M token keluaran. - Ketersediaan: Digunakan secara global di semua wilayah yang menyokong API Masa Nyata.
Cara memanggil API Masa Nyata GPT-4o daripada CometAPI
GPT-4o Realtime Harga API dalam CometAPI:
- Token Input: $2 / M token
- Token Output: $8 / M token
Langkah yang Diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
- Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url tapak ini: https://api.cometapi.com/
Kaedah Penggunaan
- Pilih "
gpt-4o-realtime-preview-2025-06-03” titik akhir untuk menghantar permintaan dan menetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
- . Proses respons API untuk mendapatkan jawapan yang dijana.
Untuk maklumat Akses Model dalam API Komet sila lihat Dokumen API.
Untuk maklumat Harga Model dalam API Komet sila lihat https://api.cometapi.com/pricing.
Contoh Kod & Integrasi API
import openai
openai.api_key = "YOUR_API_KEY"
# Establish a Realtime WebRTC connection
connection = openai.Realtime.connect(
model="gpt-4o-realtime-preview-2025-06-03",
version="2025-06-03-preview",
transport="webrtc"
)
# Stream audio frames and receive incremental text
with open("user_audio.raw", "rb") as audio_stream:
for chunk in iter(lambda: audio_stream.read(2048), b""):
result = connection.send_audio(chunk)
print("Assistant:", result)
- Parameter Utama:
model: “gpt-4o-realtime-preview-2025-06-03”version: “2025-06-03-pratonton”transport: “webrtc” khususnya kependaman minimumstream:truekhususnya tambahan update
Dengan menggabungkan State-of-the-art penaakulan multimodal, a teguh palet suara baharu, dan sangat rendah penstriman latensi, GPT-4o Masa Nyata (2025-06-03) memperkasakan pembangun untuk membina dengan benar interaktif, perbualan aplikasi AI.
See Also API o3-Pro
Keselamatan & Pematuhan
OpenAI menghantar GPT-4o Realtime dengan:
• Pengawal Peringkat Sistem: Ditala dasar untuk menolak permintaan yang tidak dibenarkan (ekstremisme, tingkah laku terlarang).
• Penapisan Kandungan Masa Nyata: Pengelas sub-100 ms menyaring kedua-dua input pengguna dan output model sebelum pancaran.
• Laluan Kelulusan Manusia: Dicetuskan pada permohonan alat berisiko tinggi (pembayaran, nasihat undang-undang), memanfaatkan primitif kelulusan baharu Agents SDK.

