Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

輸入:$3.2/M
輸出:$12.8/M
上下文:32,000
最大輸出:4,096
用於音訊輸入、音訊輸出的最佳語音模型。
新
商業用途
概覽
功能
定價
API

gpt-realtime-1.5 的技術規格

項目gpt-realtime-1.5(公開定位)
模型系列GPT Realtime 1.5(針對語音優化的變體)
主要模態語音到語音(S2S)
輸入類型音訊(串流)、文字
輸出類型音訊(串流)、文字、結構化工具呼叫
APIRealtime API(WebRTC/持續性串流工作階段)
延遲表現針對低延遲、即時對話互動進行最佳化
工作階段模型具狀態的串流工作階段
工具使用支援函式呼叫與工具整合
目標使用場景即時語音代理、助理、互動式系統

注意:公眾摘要中未明確記載精確的 token 限額與上下文視窗大小;該模型更側重即時回應能力,而非極長上下文工作階段。


什麼是 gpt-realtime-1.5?

gpt-realtime-1.5 是一款低延遲、針對語音到語音優化的模型,專為即時對話系統而設計。不同於傳統的請求—回應模型,它透過持續性的串流工作階段運作,實現自然的輪流發言、打斷處理與動態語音互動。

它特別適用於對話流暢度與速度比上下文長度更重要的應用。


主要功能

  1. 真正的語音到語音互動 — 接受即時音訊輸入,並以即時串流輸出語音回應。
  2. 低延遲架構 — 為語音代理在次秒級回應而設計。
  3. 串流優先的設計 — 透過持續性工作階段運作(WebRTC 或串流協定)。
  4. 自然的輪流發言 — 支援打斷處理與動態對話流程。
  5. 支援工具呼叫 — 可在即時工作階段觸發結構化函式呼叫。
  6. 可投入生產的語音代理基礎 — 專為互動式助理、服務亭與嵌入式裝置打造。

基準與效能定位

OpenAI 將 gpt-realtime-1.5 定位為早期即時模型的演進版本,較先前版本在指令遵循能力、長時語音工作階段的穩定性,以及更自然的語調方面均有所提升。

不同於偏重程式碼的模型(例如 Codex 系列),其效能更著重於對話延遲、語音自然度與工作階段穩定性,而非排行榜式的基準測試。


gpt-realtime-1.5 與相關模型對比

特性gpt-realtime-1.5gpt-audio-1.5
主要目標即時語音互動支援音訊的聊天工作流程
延遲為最低延遲最佳化品質/速度平衡
工作階段類型持續性串流工作階段標準 Chat Completions 流程
上下文大小為回應速度最佳化支援較大上下文
最佳使用情境即時語音代理具音訊能力的對話助理

何時選擇各自模型

  • 若用於呼叫中心、服務亭、AI 接待或即時嵌入式助理,選擇 gpt-realtime-1.5。
  • 若需要較長對話記憶或多模態工作流程的語音化聊天應用,選擇 gpt-audio-1.5。

典型使用案例

  • AI 呼叫中心代理
  • 智慧裝置助理
  • 互動式服務亭
  • 即時教學系統
  • 即時語言練習工具
  • 語音控制應用
  • 如何存取 GPT realtime 1.5 API

步驟 1:註冊取得 API 金鑰

登入 cometapi.com。若您尚未成為我們的用戶,請先註冊。登入您的 CometAPI 控制台。取得該介面的存取憑證 API 金鑰。在個人中心的 API Token 處點擊 “Add Token”,獲取 Token 金鑰:sk-xxxxx,並提交。

cometapi-key

步驟 2:向 GPT realtime 1.5 API 發送請求

選擇 “gpt-realtime-1.5” 端點以發送 API 請求並設定請求主體。請求方法與請求主體可從我們網站的 API 文件取得。我們的網站亦提供 Apifox 測試以方便使用。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI 金鑰。基底 URL 為 Chat Completions

在 content 欄位插入您的問題或需求——模型將回應此內容。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題

What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 is designed for low-latency speech-to-speech interactions using persistent streaming sessions, making it ideal for live voice agents and interactive assistants.

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 focuses on real-time streaming voice conversations with minimal delay, while gpt-audio-1.5 is optimized for higher-context audio-enabled chat workflows.

Does gpt-realtime-1.5 API support function calling during live sessions?

Yes, gpt-realtime-1.5 supports structured tool calls within an active realtime session, enabling integration with external systems.

Is gpt-realtime-1.5 suitable for customer support voice bots?

Yes, it is specifically optimized for interactive, low-latency conversational systems such as call center agents and virtual receptionists.

Can gpt-realtime-1.5 handle interruptions during conversation?

Yes, the model is designed for natural turn-taking and can manage interruptions within a streaming voice session.

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 prioritizes conversational responsiveness and low latency rather than extremely large context windows.

What infrastructure is required to integrate gpt-realtime-1.5 API?

Developers typically use WebRTC or streaming-based connections to maintain persistent audio sessions when integrating the gpt-realtime-1.5 API.

gpt-realtime-1.5 的功能

探索 gpt-realtime-1.5 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

gpt-realtime-1.5 的定價

探索 gpt-realtime-1.5 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 gpt-realtime-1.5 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$3.2/M
輸出:$12.8/M
輸入:$4/M
輸出:$16/M
-20%

gpt-realtime-1.5 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 gpt-realtime-1.5 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 gpt-realtime-1.5 的潛力。

更多模型