OpenAI 今日宣布,GPT-Realtime 语音模型现已可用,并支持图像输入,这标志着 Realtime API 从测试版迈向面向生产语音代理的全面可用。此次发布将 GPT-Realtime 定位为一款低延迟的语音到语音模型,既可运行双向语音对话,又能将会话期间提供的图像作为依据来支撑回答。
OpenAI 将gpt-realtime描述为迄今最先进的语音到语音模型:它以端到端方式处理音频(而非串联独立的语音转文本与文本转语音步骤),生成更自然、更具表现力的语音,并在理解力、指令遵循与函数调用方面展现出可量化的提升。公司强调了在内部基准上的改进,并表示该模型能捕捉到笑声、句中切换语言等细微之处,并在字母数字内容上的准确率更高。
新增内容
- 实时语音会话中的图像输入。 开发者可在音频或文本旁附加照片、截图或其他图像;模型能够回答视觉问题、读取截图中的文本(类似 OCR),并将场景理解融入语音回复。这使得诸如通话中的视觉 Q&A,或客服的多模态支持等工作流成为可能。
- 语音到语音、更低延迟、更具表现力的声音。 与早期的 STT→LLM→TTS 串联方案相比,GPT-Realtime 提供原生音频输出并降低往返延迟,同时附带更具表现力的语音选项(媒体报道为“Cedar”和“Marine”)。该模型针对指令遵循与对话细腻度进行了调优。
- 企业级集成功能。 此次 Realtime API 更新新增面向企业的能力,如支持 MCP 服务器与 SIP 电话呼叫,使语音代理可直接连接电话网络与 PBX 系统。这些新增功能面向客服与联络中心场景的部署。
基准测试
BigBench Audio(推理):82.8% — 高于 65.6%(OpenAI 2024 年 12 月实时模型)。这是针对具备音频能力的推理任务所报告的核心推理基准。
MultiChallenge(指令遵循,音频):约 30.5% vs 约 20.6% — 显示对多步骤或复杂口头指令的遵循性有所提升。
ComplexFuncBench(函数调用成功率):约 66.5% vs 约 49.7% — 在音频会话中需要调用工具/函数时,可靠性更高。
成本与延迟: OpenAI 表示,新模型降低了音频的每 token 成本(≈比先前的实时预览版本低 20%),并作为单一的端到端模型运行(不再需要独立的 STT → LM → TTS 串联),从而降低实时交互流程中的端到端延迟。
OpenAI 称,gpt-realtime 模型在多项客观基准与真实世界行为上都有实质性改进——在 BigBench Audio 以及指令遵循/函数调用评测中的得分更高——并在实时音频中更好地处理字母数字、代号与语言切换。公司还推出了两种新声音(Cedar 和 Marin),并报告相较早期的实时预览模型降价 20%。
Realtime API 与 gpt-realtime 模型现已(GA)向开发者开放,OpenAI 还下调了其 Realtime API 的价格,将音频输入降至 $32/百万 tokens、音频输出降至 $64/百万 tokens,较此前价格下降 20%,为开发者提供更经济的方案。
入门指南
CometAPI 是一个统一的 API 平台,将来自领先提供商的 500 多个 AI 模型——如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到单一且对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到应用中的过程。无论你在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析流水线,CometAPI 都能让你更快迭代、控制成本并保持供应商无关性,同时获取整个 AI 生态的最新突破。
开发者可通过 CometAPI 访问 GPT-5,所列最新模型版本以本文发布之日为准。开始之前,可在 Playground 体验模型能力,并查阅 API 指南 获取详细说明。访问前,请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案,助你完成集成。
最新集成的 gpt-realtime 将很快登陆 CometAPI,敬请期待!
