O

gpt-realtime-1.5

輸入:$3.2/M
輸出:$12.8/M
上下文:32,000
最大输出:4,096
用于音频输入与音频输出的最佳语音模型。
商用

gpt-realtime-1.5 的技术规格

项目gpt-realtime-1.5(公开定位)
模型家族GPT Realtime 1.5(语音优化变体)
主要模态语音到语音(S2S)
输入类型音频(流式)、文本
输出类型音频(流式)、文本、结构化工具调用
API实时 API(WebRTC / 持久化流式会话)
延迟特性针对低延迟、实时对话交互进行优化
会话模型有状态的流式会话
工具使用支持函数调用与工具集成
目标用例实时语音代理、助理、交互式系统

注意:确切的 token 限制与上下文窗口大小未在公开摘要中显著记录;该模型更侧重实时响应,而非极长的上下文会话。


什么是 gpt-realtime-1.5?

gpt-realtime-1.5 是一款低延迟、面向语音到语音优化的模型,专为实时对话系统设计。与传统的请求-响应模型不同,它通过持久化流式会话运行,支持自然的轮流发言、打断处理与动态语音交互。

它专为对话流速度比最大上下文长度更重要的应用而构建。


主要特性

  1. 真正的语音到语音交互 — 接受实时音频输入并实时流式输出口语化响应。
  2. 低延迟架构 — 为语音代理中的亚秒级对话响应而设计。
  3. 流式优先设计 — 通过持久化会话(WebRTC 或流式协议)运行。
  4. 自然轮次 — 支持打断处理与动态对话流程。
  5. 工具调用支持 — 可在实时会话中触发结构化函数调用。
  6. 面向生产的语音代理基础 — 专为交互式助理、自助终端与嵌入式设备构建。

基准与性能定位

OpenAI 将 gpt-realtime-1.5 定位为早期实时模型的演进版本,在较长语音会话期间的指令遵循能力、稳定性以及语调自然度方面有所提升。

不同于以编程为重点的模型(如 Codex 变体),其性能更侧重以对话延迟、语音自然度与会话稳定性来衡量,而不是排行榜式基准测试。


gpt-realtime-1.5 与相关模型对比

特性gpt-realtime-1.5gpt-audio-1.5
主要目标实时语音交互支持音频的聊天工作流
延迟为最小延迟优化质量/速度平衡
会话类型持久化流式会话标准 Chat Completions 流程
上下文大小为响应速度优化支持更大上下文
最佳用例实时语音代理带音频的对话助理

何时选择各模型

  • 选择 gpt-realtime-1.5:呼叫中心、自助终端、AI 前台或实时嵌入式助理。
  • 选择 gpt-audio-1.5:需要更长对话记忆或多模态工作流的语音增强聊天应用。

代表性用例

  • AI 呼叫中心坐席
  • 智能设备助理
  • 交互式自助终端
  • 实时辅导系统
  • 实时语言练习工具
  • 语音控制应用
  • 如何访问 GPT realtime 1.5 API

步骤 1:注册获取 API 密钥

登录 cometapi.com。如果您尚未成为我们的用户,请先注册。登录您的 CometAPI console。获取该接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。

cometapi-key

步骤 2:向 GPT realtime 1.5 API 发送请求

选择“gpt-realtime-1.5”端点发送 API 请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站也提供 Apifox 测试以供方便。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI 密钥。基础 URL 为 Chat Completions

将您的问题或请求插入 content 字段——模型将对此进行响应。处理 API 响应以获取生成的答案。

步骤 3:检索并验证结果

处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态与输出数据。

常见问题

更多模型