Model suara GPT-Realtime sekarang tersedia, mendukung input gambar

OpenAI hari ini mengumumkan bahwa Model suara GPT-Realtime sekarang tersedia, mendukung input gambar, menandai peralihan API Realtime dari versi beta ke ketersediaan umum untuk agen suara produksi. Rilis ini memposisikan GPT-Realtime sebagai model ucapan-ke-ucapan berlatensi rendah yang dapat menjalankan percakapan suara dua arah sekaligus mendasarkan respons pada gambar yang disediakan selama sesi.

OpenAI menjelaskan gpt-waktu nyata Sebagai model ucapan-ke-ucapan tercanggihnya hingga saat ini: model ini memproses audio secara menyeluruh (alih-alih merangkai langkah-langkah ucapan-ke-teks dan teks-ke-ucapan yang terpisah), menghasilkan ucapan yang lebih alami dan ekspresif, serta menunjukkan peningkatan yang terukur dalam hal pemahaman, kepatuhan terhadap instruksi, dan pemanggilan fungsi. Perusahaan menyoroti peningkatan pada tolok ukur internal dan menyatakan bahwa model ini mampu menangkap detail-detail kecil seperti tawa, peralihan bahasa di tengah kalimat, dan akurasi yang lebih tinggi pada konten alfanumerik.

Apa yang baru

Masukan gambar dalam sesi suara langsung. Pengembang dapat melampirkan foto, tangkapan layar, atau gambar lain beserta audio atau teks; model ini dapat menjawab pertanyaan visual, membaca teks dalam tangkapan layar (gaya OCR), dan menggabungkan pemahaman adegan ke dalam balasan lisan. Hal ini memungkinkan alur kerja seperti tanya jawab visual selama panggilan atau dukungan multimodal untuk layanan pelanggan.
Ucapan ke ucapan, latensi lebih rendah, suara lebih ekspresif. GPT-Realtime menghadirkan keluaran audio asli dengan latensi bolak-balik yang lebih rendah dibandingkan dengan rantai STT→LLM→TTS yang lebih lama dan dilengkapi dengan opsi suara ekspresif (dilaporkan sebagai "Cedar" dan "Marine" dalam cakupan). Model ini disetel untuk mengikuti instruksi dan nuansa percakapan.
Fitur integrasi perusahaan. Pembaruan API Realtime menambahkan kapabilitas berorientasi perusahaan seperti dukungan server MCP dan panggilan telepon SIP sehingga agen suara dapat terhubung langsung ke jaringan telepon dan sistem PBX. Penambahan ini ditujukan untuk penerapan dukungan pelanggan dan pusat kontak.

benchmark

BigBench Audio (penalaran): 82.8% — naik dari 65.6% pada model waktu nyata OpenAI Desember 2024. Ini adalah tolok ukur penalaran utama yang dilaporkan untuk tugas-tugas penalaran yang mendukung audio.

MultiChallenge (instruksi berikut, audio): ~30.5% vs ~ 20.6% sebelumnya — menunjukkan peningkatan kepatuhan terhadap instruksi lisan yang rumit atau bertahap.

ComplexFuncBench (keberhasilan pemanggilan fungsi): ~66.5% vs ~ 49.7% sebelumnya — keandalan yang lebih baik ketika model harus memanggil alat/fungsi selama sesi audio.

Biaya & latensi: OpenAI menyatakan model baru ini mengurangi biaya audio per token (≈20% lebih rendah daripada pratinjau waktu nyata sebelumnya) dan beroperasi sebagai model ujung ke ujung tunggal (tanpa rantai STT → LM → TTS terpisah), yang menurunkan latensi ujung ke ujung dalam aliran interaktif waktu nyata.

OpenAI mengatakan bahwa gpt-realtime Model ini menunjukkan peningkatan material dalam berbagai tolok ukur objektif dan perilaku dunia nyata — skor yang lebih tinggi pada BigBench Audio dan evaluasi mengikuti instruksi/memanggil fungsi — serta penanganan alfanumerik, kata sandi, dan peralihan bahasa yang lebih baik dalam audio langsung. Perusahaan juga memperkenalkan dua suara baru (Cedar dan Marin) dan melaporkan penurunan harga sebesar 20% dibandingkan dengan model pratinjau waktu nyata sebelumnya.

API Realtime dan gpt-realtime model sekarang tersedia untuk pengembang (GA), OpenAI juga menurunkan harga API Realtime-nya dengan pembaruan ini, mengurangi masukan audio menjadi $32 per juta token dan keluaran audio menjadi $64 per juta token, pengurangan 20% dari harga sebelumnya, memberikan pengembang solusi yang lebih ekonomis.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Pengembang dapat mengakses GPT-5 melalui CometAPI, versi model terbaru yang tercantum adalah versi per tanggal publikasi artikel. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Integrasi terbaru gpt-realtime akan segera muncul di CometAPI, jadi nantikan terus！

Apa yang baru

benchmark

Mulai

Baca Selengkapnya

500+ Model dalam Satu API