O

gpt-realtime-1.5

輸入:$3.2/M
輸出:$12.8/M
上下文:32,000
最大輸出:4,096
用於音訊輸入、音訊輸出的最佳語音模型。
商業用途

gpt-realtime-1.5 的技術規格

項目gpt-realtime-1.5(公開定位)
模型系列GPT Realtime 1.5(針對語音優化的變體)
主要模態語音到語音(S2S)
輸入類型音訊(串流)、文字
輸出類型音訊(串流)、文字、結構化工具呼叫
APIRealtime API(WebRTC / 持續串流工作階段)
延遲特性為低延遲、即時對話互動進行優化
會話模型具狀態的串流工作階段
工具使用支援函式呼叫與工具整合
目標使用情境即時語音代理、助理、互動系統

注意:公開摘要中未明確記載確切的 token 上限與上下文視窗大小;該模型定位於即時響應,而非極長上下文工作階段。


什麼是 gpt-realtime-1.5?

gpt-realtime-1.5 是一款低延遲、針對語音到語音優化的模型,為即時對話系統而設計。不同於傳統的請求-回應模式,它透過持續的串流工作階段運作,能實現自然的輪流發言、打斷處理與動態語音互動。

它專為那些會話流暢度與速度比最大上下文長度更重要的應用場景而打造。


主要功能

  1. 真正的語音到語音互動——可接收即時音訊輸入並以串流方式回傳口語回應。
  2. 低延遲架構——為亞秒級對話回應的語音代理而設計。
  3. 串流優先設計——透過持續工作階段(WebRTC 或串流協議)運作。
  4. 自然輪流發言——支援打斷處理與動態對話流程。
  5. 支援工具呼叫——可在即時工作階段觸發結構化函式呼叫。
  6. 適用於生產環境的語音代理基礎——專為互動助理、資訊亭與嵌入式裝置打造。

基準與效能定位

OpenAI 將 gpt-realtime-1.5 定位為早期實時模型的進化版,較以往在指令遵循、長時語音會話的穩定性以及語音韻律的自然度方面皆有所提升。

不同於偏重程式碼的模型(例如 Codex 變體),其表現更注重對話延遲、語音自然度與會話穩定性,而非榜單式的基準測試。


gpt-realtime-1.5 與相關模型比較

功能gpt-realtime-1.5gpt-audio-1.5
主要目標即時語音互動支援音訊的聊天流程
延遲針對最低延遲優化品質/速度均衡
工作階段類型持續串流工作階段標準 Chat Completions 流程
上下文大小針對回應速度優化較大的上下文支援
最佳使用情境即時語音代理帶音訊的對話助理

選用時機

  • 若用於客服中心、資訊亭、AI 接待員或即時嵌入式助理,選擇 gpt-realtime-1.5。
  • 若需要較長對話記憶或多模態流程的語音化聊天應用,選擇 gpt-audio-1.5。

代表性用例

  • AI 客服中心代理
  • 智慧裝置助理
  • 互動式資訊亭
  • 即時輔導系統
  • 即時語言練習工具
  • 語音控制應用
  • 如何存取 GPT realtime 1.5 API

步驟 1:註冊取得 API 金鑰

登入 cometapi.com。若尚未成為使用者,請先註冊。登入你的 CometAPI console。取得介面的存取憑證 API 金鑰。在個人中心的 API token 處點擊 “Add Token”,取得 token 金鑰:sk-xxxxx 並提交。

CometAPI 金鑰

步驟 2:向 GPT realtime 1.5 API 發送請求

選擇 “gpt-realtime-1.5” 端點發送 API 請求並設定請求內容。請求方法與請求體可從我們的網站 API 文件取得。網站同時提供 Apifox 測試以方便使用。將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI 金鑰。基礎 URL 為 Chat Completions

在 content 欄位插入你的問題或請求——模型會回應該內容。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題