模型支持企业博客
500+ AI 模型 API,一次搞定,就在 CometAPI
模型 API
开发者
快速入门文档API 仪表板
资源
AI 模型博客企业更新日志关于
2025 CometAPI。保留所有权利。隐私政策服务条款
Home/Models/OpenAI/gpt-realtime-1.5
O

gpt-realtime-1.5

输入:$3.2/M
输出:$12.8/M
上下文:32,000
最大输出:4,096
用于音频输入与音频输出的最佳语音模型。
新
商用
概览
功能亮点
定价
API

gpt-realtime-1.5 技术规格

项目gpt-realtime-1.5(公开定位)
模型家族GPT Realtime 1.5(语音优化变体)
主要模态语音到语音(S2S)
输入类型音频(流式)、文本
输出类型音频(流式)、文本、结构化工具调用
API实时 API(WebRTC/持久化流式会话)
延迟特性为低延迟、实时对话交互优化
会话模型有状态的流式会话
工具使用支持函数调用与工具集成
目标用例实时语音代理、助手、交互式系统

注:公开摘要中未明显记录确切的 token 限制与上下文窗口大小;该模型更侧重实时响应能力,而非极长上下文会话。


什么是 gpt-realtime-1.5?

gpt-realtime-1.5 是一款面向实时对话系统的低延迟、语音到语音优化模型。与传统的请求-响应模型不同,它通过持久化的流式会话运行,使自然的轮流发言、打断处理和动态语音交互成为可能。

它专为对话流畅性和速度比最大上下文长度更重要的应用而打造。


主要特性

  1. 真实的语音到语音交互——接受实时音频输入并以流式方式输出口语化响应。
  2. 低延迟架构——为语音代理提供亚秒级对话响应而设计。
  3. 流式优先设计——通过持久化会话(WebRTC 或流式协议)工作。
  4. 自然的轮流发言——支持打断处理与动态对话流。
  5. 支持工具调用——可在实时会话中触发结构化函数调用。
  6. 面向生产的语音代理基础——专为交互式助手、信息亭与嵌入式设备构建。

基准与性能定位

OpenAI 将 gpt-realtime-1.5 定位为早期实时模型的演进版本,在较长时长的语音会话中具备更好的指令遵循能力、更高的稳定性,以及比早期版本更自然的韵律。

不同于以编程为重点的模型(如 Codex 变体),其性能更多以对话延迟、语音自然度与会话稳定性来衡量,而非排行榜式基准。


gpt-realtime-1.5 与相关模型对比

特性gpt-realtime-1.5gpt-audio-1.5
主要目标实时语音交互支持音频的聊天工作流
延迟面向最小延迟优化质量/速度平衡
会话类型持久化流式会话标准 Chat Completions 流程
上下文大小为响应速度优化支持更大的上下文
最佳用例实时语音代理具备音频能力的会话助手

选择指南

  • 对于呼叫中心、信息亭、AI 接待或实时嵌入式助手,选择 gpt-realtime-1.5。
  • 对于需要更长对话记忆或多模态工作流的语音聊天应用,选择 gpt-audio-1.5。

典型用例

  • AI 呼叫中心座席
  • 智能设备助手
  • 交互式信息亭
  • 实时辅导系统
  • 实时语言练习工具
  • 语音控制应用
  • 如何访问 GPT realtime 1.5 API

步骤 1:注册获取 API 密钥

登录 cometapi.com。若您尚未成为我们的用户,请先注册。登录您的 CometAPI 控制台。获取接口访问凭证 API Key。在个人中心的 API token 处点击“Add Token”,获取令牌 Key:sk-xxxxx 并提交。

cometapi-key

步骤 2:向 GPT realtime 1.5 API 发送请求

选择 “gpt-realtime-1.5” 端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便调试。将 <YOUR_API_KEY> 替换为你账户中的实际 CometAPI 密钥。base url 为 Chat Completions

将你的问题或请求填入 content 字段——模型将对其作出响应。处理 API 响应以获取生成的答案。

步骤 3:检索与验证结果

处理 API 响应以获取生成的答案。处理完成后,API 会返回任务状态与输出数据。

常见问题

What is gpt-realtime-1.5 used for in the Realtime API?

gpt-realtime-1.5 旨在通过持久化的流式会话实现低延迟的语音到语音交互,非常适合实时语音坐席和交互式助手。

How is gpt-realtime-1.5 different from gpt-audio-1.5 API?

gpt-realtime-1.5 专注于具有极低延迟的实时流式语音对话,而 gpt-audio-1.5 则针对支持音频的高上下文聊天工作流进行了优化。

Does gpt-realtime-1.5 API support function calling during live sessions?

是的,gpt-realtime-1.5 在活跃的实时会话中支持结构化的工具调用,从而实现与外部系统的集成。

Is gpt-realtime-1.5 suitable for customer support voice bots?

是的,它专为交互式、低延迟的对话系统优化,例如呼叫中心坐席和虚拟前台。

Can gpt-realtime-1.5 handle interruptions during conversation?

是的,该模型旨在实现自然的轮流发言,并且能够在流式语音会话中处理打断。

Does gpt-realtime-1.5 prioritize latency or long context memory?

gpt-realtime-1.5 更优先考虑对话响应性和低延迟,而非极大的上下文窗口。

What infrastructure is required to integrate gpt-realtime-1.5 API?

开发者通常使用 WebRTC 或基于流的连接来维持持久的音频会话,以集成 gpt-realtime-1.5 API。

gpt-realtime-1.5 的功能

了解 gpt-realtime-1.5 的核心能力,帮助提升性能与可用性,并改善整体体验。

gpt-realtime-1.5 的定价

查看 gpt-realtime-1.5 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
输入:$3.2/M
输出:$12.8/M
输入:$4/M
输出:$16/M
-20%

gpt-realtime-1.5 的示例代码与 API

获取完整示例代码与 API 资源,简化 gpt-realtime-1.5 的集成流程,我们提供逐步指导,助你发挥模型潜能。

更多模型

O

gpt-audio-1.5

输入:$2/M
输出:$8/M
用于在 Chat Completions 中实现音频输入与音频输出的最佳语音模型。
O

Whisper-1

输入:$24/M
输出:$24/M
Speech to text, creating translations
O

TTS

输入:$12/M
输出:$12/M
OpenAI Text-to-Speech
K

Kling TTS

每次请求:$0.006608
[Speech Synthesis] Newly launched: text-to-broadcast audio online, with preview function ● Can simultaneously generate audio_id, usable with any Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

每次请求:$0.03304
Kling video-to-audio
K

Kling text-to-audio

K

Kling text-to-audio

每次请求:$0.03304
Kling text-to-audio