API Waktu Nyata GPT-4o

API Waktu Nyata GPT-4o: Titik akhir streaming multimoda latensi rendah yang memungkinkan pengembang mengirim dan menerima teks, audio, dan data penglihatan yang disinkronkan melalui WebRTC atau WebSocket (model=gpt-4o-realtime-preview-<date>, stream=true) untuk aplikasi waktu nyata yang interaktif.

Informasi Dasar & Fitur

OpenAI GPT-4o Waktu Nyata (nomor model: gpt-4o-pratinjau-waktu-nyata-2025-06-03) adalah model pondasi pertama yang tersedia untuk umum yang dirancang untuk ucapan-ke-ucapan (S2S) ujung ke ujung interaksi dengan latensi sub-detikBerasal dari keluarga GPT-4o “omni”, varian Realtime menggabungkan pengenalan ucapan, penalaran bahasa alami, dan teks-ke-ucapan saraf menjadi satu jaringan tunggal, yang memungkinkan pengembang untuk membangun agen suara yang berkomunikasi semulus manusia. Model ini diekspos melalui tujuan yang dibangun API Waktu Nyata dan terintegrasi erat dengan yang baru Agen Waktu Nyata abstraksi di dalam Agen SDK (TypeScript dan Python).

Set Fitur Inti — S2S Ujung-ke-Ujung • Penanganan Interupsi • Pemanggilan Alat

• Ucapan-ke-Ucapan Asli: Input audio diserap sebagai aliran berkelanjutan, ditokenisasi secara internal, diolah, dan dikembalikan sebagai ucapan yang disintesis. Tidak diperlukan buffer STT/TTS eksternal, sehingga menghilangkan jeda alur kerja selama beberapa detik.
• Latensi Skala Milidetik: Pemangkasan arsitektur, distilasi model, dan tumpukan penyajian yang dioptimalkan GPU memungkinkan ~300–500 ms latensi token pertama dalam penerapan cloud pada umumnya, mendekati norma percakapan manusia.
• Instruksi yang Kuat: Disempurnakan pada skrip percakapan dan jejak pemanggilan fungsi, GPT-4o Realtime menunjukkan >25% pengurangan kesalahan eksekusi tugas dibandingkan dengan baseline GPT-2024o Mei 4.
• Pemanggilan Alat Deterministik: Model ini menghasilkan JSON terstruktur yang sesuai dengan OpenAI skema pemanggilan fungsi, yang memungkinkan pemanggilan API back-end (sistem pemesanan, basis data, IoT) secara deterministik. Uji coba ulang yang peka terhadap kesalahan dan validasi argumen sudah terpasang.
• Interupsi yang anggun: Detektor aktivitas suara waktu nyata yang dipasangkan dengan dekode tambahan memungkinkan agen untuk jeda bicara di tengah kalimat, menyerap gangguan pengguna, dan melanjutkan atau merencanakan ulang respons dengan lancar.
• Kecepatan Bicara yang Dapat Dikonfigurasi: Sebuah baru kecepatan parameter (0.25–4× waktu riil) memungkinkan pengembang menyesuaikan kecepatan keluaran untuk aksesibilitas atau aplikasi cepat.

Arsitektur Teknis — Transformator Multimoda Terpadu

Encoder-Decoder Terpadu: GPT-4o Realtime berbagi arsitektur omni transformator tumpukan tunggal di mana token audio, teks, dan visi (masa depan) hidup berdampingan dalam satu ruang laten. Komputasi adaptif lapis demi lapis mempersingkat bingkai audio secara langsung ke blok perhatian selanjutnya, memangkas 20–40 ms per lintasan.

Tokenisasi Audio Hirarkis: PCM 16 kHz mentah dibagi menjadi potongan-potongan log-mel → dikuantisasi menjadi token akustik berbutir kasar → dikompresi menjadi token semantik, mengoptimalkan token per detik anggaran tanpa mengorbankan prosodi.

Kernel Inferensi Bit Rendah: Beban yang dikerahkan dijalankan pada Kuantisasi NF4 4-bit melalui kernel Triton / TensorRT-LLM, menggandakan throughput versus fp16 sambil mempertahankan kehilangan kualitas MOS <1 dB.

Perhatian Streaming: Penanaman putar jendela geser dan penyimpanan sementara nilai kunci memungkinkan model untuk memperhatikan 15 detik terakhir audio dengan memori O(L), yang penting untuk dialog sepanjang panggilan telepon.

Rincian Teknis

Versi API: 2025-06-03-preview
Protokol Transportasi:
WebRTC: Latensi sangat rendah (< 80 ms) untuk aliran audio/video sisi klien
WebSocket: Streaming antar-server dengan latensi di bawah 100 ms
Pengkodean Data:
Karya codec dalam RTP paket untuk audio
H.264 / H.265 pembungkus bingkai untuk video
streaming: Mendukung stream: true mengantarkan inkremental tanggapan parsial saat token dibuat
Palet Suara Baru: Memperkenalkan delapan suara baru—campuran, abu, balada, karang, gema, Sage, berkilau, dan ayat—untuk informasi lebih lanjut ekspresif, mirip manusia interaksi ..

Evolusi GPT-4o Realtime

Mei 2024: GPT-4o Omni memulai debutnya dengan dukungan multimodal untuk teks, audio, dan penglihatan.
Oktober 2024: API Waktu Nyata memasuki beta pribadi (2024-10-01-preview), dioptimalkan untuk audio latensi rendah.
Desember 2024:Ketersediaan global yang diperluas gpt-4o-realtime-preview-2024-12-17, Menambahkan cache cepat dan lebih banyak suara.
Juni 3, 2025: Pembaruan terbaru (2025-06-03-preview) meluncurkan yang disempurnakan palet suara dan optimasi kinerja.

Kinerja Tolok Ukur

MMLU: 88.7, melampaui GPT-4 yang 86.5 pada Pemahaman Bahasa Multitugas yang Masif .
Speech Recognition: Mencapai industri terkemuka tingkat kesalahan kata dalam lingkungan yang bising, melampaui Berbisik garis dasar.
Tes Latensi:
Ujung ke ujung (ucapan masuk → teks keluar): 50–80 mdtk melalui WebRTC
Audio Pulang-Pergi (ucapan masuk → ucapan keluar): <100 ms .

Indikator teknis

Throughput: Berkelanjutan 15 token/detik untuk aliran teks; 24 kbps Opus untuk audio.
Harga:
Teks: $5 per 1 juta token input; $20 per 1 juta token output
Audio: $100 per 1 juta token masukan; $200 per 1 juta token keluaran.
Ketersediaan: Diterapkan secara global di semua wilayah yang mendukung Realtime API.

Cara memanggil GPT-4o Realtime API dari CometAPI

`GPT-4o Realtime` Harga API di CometAPI:

Token Masukan: $2 / Jt token
Token Keluaran: $8 / M token

Langkah-langkah yang Diperlukan

Masuk ke cometapi.comJika Anda belum menjadi pengguna kami, silakan mendaftar terlebih dahulu
Dapatkan kunci API kredensial akses antarmuka. Klik “Tambahkan Token” pada token API di pusat personal, dapatkan kunci token: sk-xxxxx dan kirimkan.
Dapatkan url situs ini: https://api.cometapi.com/

Metode Penggunaan

Pilih "gpt-4o-realtime-preview-2025-06-03” untuk mengirim permintaan dan mengatur isi permintaan. Metode permintaan dan isi permintaan diperoleh dari dokumen API situs web kami. Situs web kami juga menyediakan pengujian Apifox demi kenyamanan Anda.
Mengganti dengan kunci CometAPI Anda yang sebenarnya dari akun Anda.
Masukkan pertanyaan atau permintaan Anda ke dalam kolom konten—inilah yang akan ditanggapi oleh model.
Memproses respons API untuk mendapatkan jawaban yang dihasilkan.

Untuk informasi Akses Model di Comet API silakan lihat Dokumen API.

Untuk informasi Harga Model di Comet API silakan lihat https://api.cometapi.com/pricing.

Contoh Kode & Integrasi API

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)

Key Parameters:
model: “gpt-4o-pratinjau-waktu-nyata-2025-06-03”
version: “Pratinjau 2025-06-03”
transport: “webrtc” untuk latensi minimal
stream: true untuk inkremental update

Dengan menggabungkan state-of-the-art penalaran multimodal, kuat palet suara baru, dan sangat rendah streaming latensi, GPT-4o Waktu Nyata (2025-06-03) memberdayakan pengembang untuk membangun interaktif, percakapan Aplikasi AI.

Lihat Juga API o3-Pro

Keselamatan & Kepatuhan

OpenAI mengirimkan GPT-4o Realtime dengan:
• Pagar Pengaman Tingkat Sistem: Kebijakan yang disesuaikan untuk menolak permintaan yang tidak diizinkan (ekstremisme, perilaku terlarang).
• Penyaringan Konten Waktu Nyata: Pengklasifikasi sub-100 ms menyaring masukan pengguna dan keluaran model sebelum emisi.
• Jalur Persetujuan Manusia: Dipicu pada pemanggilan alat berisiko tinggi (pembayaran, nasihat hukum), memanfaatkan primitif persetujuan baru SDK Agen.

GPT-4o Waktu Nyata

Informasi Dasar & Fitur

Set Fitur Inti — S2S Ujung-ke-Ujung • Penanganan Interupsi • Pemanggilan Alat

Arsitektur Teknis — Transformator Multimoda Terpadu

Rincian Teknis

Evolusi GPT-4o Realtime

Kinerja Tolok Ukur

Indikator teknis

Cara memanggil GPT-4o Realtime API dari CometAPI

`GPT-4o Realtime` Harga API di CometAPI:

Langkah-langkah yang Diperlukan

Metode Penggunaan

Contoh Kode & Integrasi API

Keselamatan & Kepatuhan

Baca Selengkapnya

500+ Model dalam Satu API

API Waktu Nyata GPT-4o

Informasi Dasar & Fitur

Set Fitur Inti — S2S Ujung-ke-Ujung • Penanganan Interupsi • Pemanggilan Alat

Arsitektur Teknis — Transformator Multimoda Terpadu

Rincian Teknis

Evolusi GPT-4o Realtime

Kinerja Tolok Ukur

Indikator teknis

Cara memanggil GPT-4o Realtime API dari CometAPI

GPT-4o Realtime Harga API di CometAPI:

Langkah-langkah yang Diperlukan

Metode Penggunaan

Contoh Kode & Integrasi API

Keselamatan & Kepatuhan

Baca Selengkapnya

500+ Model dalam Satu API

`GPT-4o Realtime` Harga API di CometAPI: