模型支援企業部落格
500+ AI 模型 API,全部整合在一個 API 中。就在 CometAPI
模型 API
開發者
快速入門說明文件API 儀表板
資源
AI模型部落格企業更新日誌關於
2025 CometAPI. 保留所有權利。隱私政策服務條款
Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

輸入:$3.2/M
輸出:$12.8/M
上下文:32,000
最大輸出:4,096
用於音訊輸入、音訊輸出的最佳語音模型。
新
商業用途
概覽
功能
定價
API

gpt-realtime-1.5 的技術規格

項目gpt-realtime-1.5(公開定位)
模型系列GPT Realtime 1.5(針對語音優化的變體)
主要模態語音到語音(S2S)
輸入類型音訊(串流)、文字
輸出類型音訊(串流)、文字、結構化工具呼叫
APIRealtime API(WebRTC / 持續串流工作階段)
延遲特性為低延遲、即時對話互動進行優化
會話模型具狀態的串流工作階段
工具使用支援函式呼叫與工具整合
目標使用情境即時語音代理、助理、互動系統

注意:公開摘要中未明確記載確切的 token 上限與上下文視窗大小;該模型定位於即時響應,而非極長上下文工作階段。


什麼是 gpt-realtime-1.5?

gpt-realtime-1.5 是一款低延遲、針對語音到語音優化的模型,為即時對話系統而設計。不同於傳統的請求-回應模式,它透過持續的串流工作階段運作,能實現自然的輪流發言、打斷處理與動態語音互動。

它專為那些會話流暢度與速度比最大上下文長度更重要的應用場景而打造。


主要功能

  1. 真正的語音到語音互動——可接收即時音訊輸入並以串流方式回傳口語回應。
  2. 低延遲架構——為亞秒級對話回應的語音代理而設計。
  3. 串流優先設計——透過持續工作階段(WebRTC 或串流協議)運作。
  4. 自然輪流發言——支援打斷處理與動態對話流程。
  5. 支援工具呼叫——可在即時工作階段觸發結構化函式呼叫。
  6. 適用於生產環境的語音代理基礎——專為互動助理、資訊亭與嵌入式裝置打造。

基準與效能定位

OpenAI 將 gpt-realtime-1.5 定位為早期實時模型的進化版,較以往在指令遵循、長時語音會話的穩定性以及語音韻律的自然度方面皆有所提升。

不同於偏重程式碼的模型(例如 Codex 變體),其表現更注重對話延遲、語音自然度與會話穩定性,而非榜單式的基準測試。


gpt-realtime-1.5 與相關模型比較

功能gpt-realtime-1.5gpt-audio-1.5
主要目標即時語音互動支援音訊的聊天流程
延遲針對最低延遲優化品質/速度均衡
工作階段類型持續串流工作階段標準 Chat Completions 流程
上下文大小針對回應速度優化較大的上下文支援
最佳使用情境即時語音代理帶音訊的對話助理

選用時機

  • 若用於客服中心、資訊亭、AI 接待員或即時嵌入式助理,選擇 gpt-realtime-1.5。
  • 若需要較長對話記憶或多模態流程的語音化聊天應用,選擇 gpt-audio-1.5。

代表性用例

  • AI 客服中心代理
  • 智慧裝置助理
  • 互動式資訊亭
  • 即時輔導系統
  • 即時語言練習工具
  • 語音控制應用
  • 如何存取 GPT realtime 1.5 API

步驟 1:註冊取得 API 金鑰

登入 cometapi.com。若尚未成為使用者,請先註冊。登入你的 CometAPI console。取得介面的存取憑證 API 金鑰。在個人中心的 API token 處點擊 “Add Token”,取得 token 金鑰:sk-xxxxx 並提交。

CometAPI 金鑰

步驟 2:向 GPT realtime 1.5 API 發送請求

選擇 “gpt-realtime-1.5” 端點發送 API 請求並設定請求內容。請求方法與請求體可從我們的網站 API 文件取得。網站同時提供 Apifox 測試以方便使用。將 <YOUR_API_KEY> 替換為你帳戶中的實際 CometAPI 金鑰。基礎 URL 為 Chat Completions

在 content 欄位插入你的問題或請求——模型會回應該內容。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題

What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 專為使用持久串流工作階段的低延遲語音對語音互動而設計,因此非常適合即時語音代理與互動式助理。

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 著重於延遲極低的即時串流語音對話,而 gpt-audio-1.5 則針對具有更高上下文能力的音訊增強聊天工作流程進行最佳化。

Does gpt-realtime-1.5 API support function calling during live sessions?

是,gpt-realtime-1.5 支援在進行中的即時工作階段中進行結構化工具呼叫,從而能夠與外部系統整合。

Is gpt-realtime-1.5 suitable for customer support voice bots?

是,它特別針對互動式、低延遲的對話系統進行最佳化,例如呼叫中心代理與虛擬接待員。

Can gpt-realtime-1.5 handle interruptions during conversation?

是,該模型專為自然輪流發言而設計,並且能夠在串流語音工作階段中處理打斷情況。

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 優先考量對話回應速度與低延遲,而非極大的上下文視窗。

What infrastructure is required to integrate gpt-realtime-1.5 API?

開發人員在整合 gpt-realtime-1.5 API 時,通常會使用 WebRTC 或基於串流的連線來維持持久的音訊工作階段。

gpt-realtime-1.5 的功能

探索 gpt-realtime-1.5 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

gpt-realtime-1.5 的定價

探索 gpt-realtime-1.5 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 gpt-realtime-1.5 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$3.2/M
輸出:$12.8/M
輸入:$4/M
輸出:$16/M
-20%

gpt-realtime-1.5 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 gpt-realtime-1.5 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 gpt-realtime-1.5 的潛力。

更多模型

O

gpt-audio-1.5

輸入:$2/M
輸出:$8/M
搭配 Chat Completions 進行音訊輸入、音訊輸出的最佳語音模型。
O

Whisper-1

輸入:$24/M
輸出:$24/M
語音轉文字,生成翻譯
O

TTS

輸入:$12/M
輸出:$12/M
OpenAI 文字轉語音
K

Kling TTS

每次請求:$0.006608
[語音合成] 全新上線:線上文字轉廣播級音訊,支援預覽功能 ● 可同時生成 audio_id,適用於任何 Keling API。
K

Kling video-to-audio

K

Kling video-to-audio

每次請求:$0.03304
Kling 影片轉音訊
K

Kling text-to-audio

K

Kling text-to-audio

每次請求:$0.03304
Kling 文字轉音訊