Model suara GPT-Masa Nyata kini tersedia, menyokong input imej

OpenAI hari ini mengumumkannya Model suara GPT-Masa Nyata kini tersedia, menyokong input imej, menandakan peralihan API Masa Nyata daripada beta kepada ketersediaan umum untuk ejen suara pengeluaran. Keluaran ini meletakkan GPT-Realtime sebagai model kependaman rendah, pertuturan ke pertuturan yang boleh menjalankan perbualan suara dua hala sambil turut mengasaskan respons dalam imej yang dibekalkan semasa sesi.

OpenAI menerangkan gpt-masa nyata sebagai model pertuturan ke pertuturan yang paling maju setakat ini: ia memproses audio hujung ke hujung (daripada merantai langkah pertuturan ke teks dan teks ke pertuturan yang berasingan), menghasilkan pertuturan yang lebih semula jadi dan ekspresif, dan menunjukkan keuntungan yang boleh diukur dalam pemahaman, mengikut arahan dan panggilan fungsi. Syarikat itu menyerlahkan penambahbaikan pada penanda aras dalaman dan mengatakan model itu menangkap kehalusan seperti ketawa, penukaran bahasa pertengahan ayat dan ketepatan yang lebih tinggi pada kandungan alfanumerik.

Apa yang baru

Input imej dalam sesi suara langsung. Pembangun boleh melampirkan foto, tangkapan skrin atau imej lain bersama audio atau teks; model boleh menjawab soalan visual, membaca teks dalam tangkapan skrin (gaya OCR), dan menggabungkan pemahaman adegan ke dalam jawapan yang dituturkan. Ini membolehkan aliran kerja seperti Soal Jawab visual semasa panggilan atau sokongan pelbagai mod untuk perkhidmatan pelanggan.
Pertuturan ke pertuturan, kependaman yang lebih rendah, suara yang lebih ekspresif. GPT-Realtime menyampaikan output audio asli dengan kependaman pergi balik yang dikurangkan berbanding dengan rantaian STT→LLM→TTS yang lebih lama dan dihantar dengan pilihan suara ekspresif (dilaporkan sebagai "Cedar" dan "Marin" dalam liputan). Model ini ditala untuk mengikuti arahan dan nuansa perbualan.
Ciri integrasi perusahaan. Kemas kini API Masa Nyata menambah keupayaan berorientasikan perusahaan seperti sokongan pelayan MCP dan panggilan telefon SIP supaya ejen suara boleh menyambung ke rangkaian telefon dan sistem PBX secara langsung. Penambahan ini bertujuan untuk sokongan pelanggan dan penempatan pusat hubungan.

penanda aras

Audio BigBench (menaakul): 82.8% - naik dari 65.6% pada model masa nyata OpenAI Disember 2024. Ini ialah penanda aras penaakulan tajuk yang dilaporkan untuk tugas penaakulan berkeupayaan audio.

MultiChallenge (arahan mengikut, audio): ~30.5% vs ~ 20.6% sebelum ini — menunjukkan pematuhan yang lebih baik kepada arahan pertuturan berbilang langkah atau kompleks.

ComplexFuncBench (kejayaan panggilan fungsi): ~66.5% vs ~ 49.7% sebelum ini — kebolehpercayaan yang lebih baik apabila model mesti memanggil alatan/fungsi semasa sesi audio.

Kos & kependaman: OpenAI menyatakan model baharu mengurangkan kos audio setiap token (≈20% lebih rendah daripada pratonton masa nyata sebelumnya) dan beroperasi sebagai model hujung ke hujung tunggal (tiada rantaian STT → LM → TTS berasingan), yang merendahkan kependaman hujung ke hujung dalam aliran interaktif masa nyata.

OpenAI berkata gpt-realtime model menunjukkan peningkatan bahan dalam julat penanda aras objektif dan gelagat dunia sebenar — markah yang lebih tinggi pada BigBench Audio dan penilaian mengikut arahan/panggilan fungsi — dan pengendalian abjad angka, kata kod dan penukaran bahasa yang lebih baik dalam audio langsung. Syarikat itu juga memperkenalkan dua suara baharu (Cedar dan Marin) dan melaporkan pengurangan harga sebanyak 20% berbanding model pratonton masa nyata yang terdahulu.

API Masa Nyata dan gpt-realtime model kini tersedia untuk pembangun (GA), OpenAI juga menurunkan harga API Masa Nyatanya dengan kemas kini ini, mengurangkan input audio kepada $32 setiap juta token dan output audio kepada $64 setiap juta token, pengurangan 20% daripada harga sebelumnya, memberikan pembangun penyelesaian yang lebih menjimatkan.

Bermula

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

Pembangun boleh mengakses GPT-5 melalui CometAPI, versi model terkini yang disenaraikan adalah pada tarikh penerbitan artikel. Untuk memulakan, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan.

Penyepaduan terkini gpt-realtime akan muncul di CometAPI tidak lama lagi, jadi nantikan！

Apa yang baru

penanda aras

Bermula

Baca Lagi

500+ Model dalam Satu API