GPT-Realtime語音模型現已發布，支援影像輸入

OpenAI 今天宣布 GPT-Realtime語音模型現已發布，支援影像輸入標誌著 Realtime API 從 Beta 版邁向正式版，正式面向生產級語音代理。此次發布將 GPT-Realtime 定位為低延遲的語音對語音模型，可進行雙向語音對話，同時也能根據會話期間提供的影像回應。

OpenAI 描述 GPT實時 作為其迄今為止最先進的語音轉語音模型：它能夠端到端地處理音訊（而非將語音轉文字和文字轉語音的步驟串聯起來），產生更自然、更富有表現力的語音，並在理解、指令執行和函數呼叫方面展現出顯著的提升。該公司強調了內部基準測試的改進，並表示該模型能夠捕捉到諸如笑聲、句中語言切換等細微之處，並且提高了字母數字內容的準確率。

什麼是新的

即時語音會話中的影像輸入。 開發者可以將照片、螢幕截圖或其他圖像與音訊或文字一起添加；該模型可以回答視覺問題，讀取螢幕截圖中的文字（OCR 格式），並將場景理解融入語音回覆中。這支援諸如通話期間的視覺問答或客戶服務的多模式支援等工作流程。
語音到語音，更低的延遲，更具表現力的聲音。 與舊版 STT→LLM→TTS 鏈相比，GPT-Realtime 可提供原生音訊輸出，並降低往返延遲，並附帶富有表現力的語音選項（報道中稱其為“Cedar”和“Marine”）。該模型針對指令遵循和對話細微差別進行了調整。
企業整合功能。 Realtime API 更新增加了企業導向的功能，例如 MCP 伺服器支援和 SIP 電話呼叫，使語音代理可以直接連接到電話網路和 PBX 系統。這些新增功能旨在用於客戶支援和聯絡中心部署。

基準

BigBench Audio（推理）：82.8% — 從 65.6% 基於 OpenAI 2024 年 XNUMX 月的即時模型。這是目前已報告的音訊推理任務的頂級推理基準。

多重挑戰（指令跟隨，音訊）：~30.5% vs 〜20.6％ 之前－表現出對多步驟或複雜口頭指令的遵守能力有所提升。

ComplexFuncBench（函數呼叫成功）：~66.5% vs 〜49.7％ 以前－當模型必須在音訊會話期間呼叫工具/功能時，可靠性更高。

成本和延遲： OpenAI 表示，新模型降低了每個令牌的音訊成本（比先前的即時預覽低 20%），並且作為單一端對端模型運行（沒有單獨的 STT → LM → TTS 鏈），從而降低了即時交互流中的端到端延遲。

OpenAI 表示 gpt-realtime 該模型在一系列客觀基準測試和實際行為中展現出實質性的改進——在 BigBench Audio 和指令執行/函數調用評估中得分更高——並且能夠更好地處理實時音頻中的字母數字、代碼字和語言切換。該公司還推出了兩種新的語音（Cedar 和 Marin），並報告稱其價格與先前的即時預覽模型相比降低了 20%。

即時 API 和 gpt-realtime 模型現已開放給開發者（GA），OpenAI 也透過本次更新降低了其 Realtime API 的價格，將音訊輸入降至每百萬代幣 32 美元，音訊輸出降至每百萬代幣 64 美元，較之前的價格降低了 20%，為開發者提供了更經濟的解決方案。

入門

CometAPI 是一個統一的 API 平台，它將來自領先供應商（例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等）的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理，CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家，還是資料驅動的分析流程，CometAPI 都能讓您更快地迭代、控製成本，並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。

開發人員可以訪問 GPT-5 透過 CometAPI，列出的最新模型版本截至本文發布之日。首先，探索模型的功能游乐场並諮詢 API指南以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。彗星API 提供遠低於官方價格的價格，幫助您整合。

最新整合 gpt-realtime 即將出現在 CometAPI 上，敬請期待！

什麼是新的

基準

入門

閱讀更多

一個 API 中超過 500 個模型