gpt-realtime-1.5 的技術規格
| 項目 | gpt-realtime-1.5(公開定位) |
|---|---|
| 模型系列 | GPT Realtime 1.5(針對語音優化的變體) |
| 主要模態 | 語音到語音(S2S) |
| 輸入類型 | 音訊(串流)、文字 |
| 輸出類型 | 音訊(串流)、文字、結構化工具呼叫 |
| API | Realtime API(WebRTC/持續性串流工作階段) |
| 延遲表現 | 針對低延遲、即時對話互動進行最佳化 |
| 工作階段模型 | 具狀態的串流工作階段 |
| 工具使用 | 支援函式呼叫與工具整合 |
| 目標使用場景 | 即時語音代理、助理、互動式系統 |
注意:公眾摘要中未明確記載精確的 token 限額與上下文視窗大小;該模型更側重即時回應能力,而非極長上下文工作階段。
什麼是 gpt-realtime-1.5?
gpt-realtime-1.5 是一款低延遲、針對語音到語音優化的模型,專為即時對話系統而設計。不同於傳統的請求—回應模型,它透過持續性的串流工作階段運作,實現自然的輪流發言、打斷處理與動態語音互動。
它特別適用於對話流暢度與速度比上下文長度更重要的應用。
主要功能
- 真正的語音到語音互動 — 接受即時音訊輸入,並以即時串流輸出語音回應。
- 低延遲架構 — 為語音代理在次秒級回應而設計。
- 串流優先的設計 — 透過持續性工作階段運作(WebRTC 或串流協定)。
- 自然的輪流發言 — 支援打斷處理與動態對話流程。
- 支援工具呼叫 — 可在即時工作階段觸發結構化函式呼叫。
- 可投入生產的語音代理基礎 — 專為互動式助理、服務亭與嵌入式裝置打造。
基準與效能定位
OpenAI 將 gpt-realtime-1.5 定位為早期即時模型的演進版本,較先前版本在指令遵循能力、長時語音工作階段的穩定性,以及更自然的語調方面均有所提升。
不同於偏重程式碼的模型(例如 Codex 系列),其效能更著重於對話延遲、語音自然度與工作階段穩定性,而非排行榜式的基準測試。
gpt-realtime-1.5 與相關模型對比
| 特性 | gpt-realtime-1.5 | gpt-audio-1.5 |
|---|---|---|
| 主要目標 | 即時語音互動 | 支援音訊的聊天工作流程 |
| 延遲 | 為最低延遲最佳化 | 品質/速度平衡 |
| 工作階段類型 | 持續性串流工作階段 | 標準 Chat Completions 流程 |
| 上下文大小 | 為回應速度最佳化 | 支援較大上下文 |
| 最佳使用情境 | 即時語音代理 | 具音訊能力的對話助理 |
何時選擇各自模型
- 若用於呼叫中心、服務亭、AI 接待或即時嵌入式助理,選擇 gpt-realtime-1.5。
- 若需要較長對話記憶或多模態工作流程的語音化聊天應用,選擇 gpt-audio-1.5。
典型使用案例
- AI 呼叫中心代理
- 智慧裝置助理
- 互動式服務亭
- 即時教學系統
- 即時語言練習工具
- 語音控制應用
- 如何存取 GPT realtime 1.5 API
步驟 1:註冊取得 API 金鑰
登入 cometapi.com。若您尚未成為我們的用戶,請先註冊。登入您的 CometAPI 控制台。取得該介面的存取憑證 API 金鑰。在個人中心的 API Token 處點擊 “Add Token”,獲取 Token 金鑰:sk-xxxxx,並提交。

步驟 2:向 GPT realtime 1.5 API 發送請求
選擇 “gpt-realtime-1.5” 端點以發送 API 請求並設定請求主體。請求方法與請求主體可從我們網站的 API 文件取得。我們的網站亦提供 Apifox 測試以方便使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI 金鑰。基底 URL 為 Chat Completions
在 content 欄位插入您的問題或需求——模型將回應此內容。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。