GPT-Realtime 语音模型现已可用，支持图像输入

OpenAI 今日宣布，GPT-Realtime 语音模型现已可用，并支持图像输入，这标志着 Realtime API 从测试版迈向面向生产语音代理的全面可用。此次发布将 GPT-Realtime 定位为一款低延迟的语音到语音模型，既可运行双向语音对话，又能将会话期间提供的图像作为依据来支撑回答。

OpenAI 将gpt-realtime描述为迄今最先进的语音到语音模型：它以端到端方式处理音频（而非串联独立的语音转文本与文本转语音步骤），生成更自然、更具表现力的语音，并在理解力、指令遵循与函数调用方面展现出可量化的提升。公司强调了在内部基准上的改进，并表示该模型能捕捉到笑声、句中切换语言等细微之处，并在字母数字内容上的准确率更高。

新增内容

实时语音会话中的图像输入。 开发者可在音频或文本旁附加照片、截图或其他图像；模型能够回答视觉问题、读取截图中的文本（类似 OCR），并将场景理解融入语音回复。这使得诸如通话中的视觉 Q&A，或客服的多模态支持等工作流成为可能。
语音到语音、更低延迟、更具表现力的声音。 与早期的 STT→LLM→TTS 串联方案相比，GPT-Realtime 提供原生音频输出并降低往返延迟，同时附带更具表现力的语音选项（媒体报道为“Cedar”和“Marine”）。该模型针对指令遵循与对话细腻度进行了调优。
企业级集成功能。 此次 Realtime API 更新新增面向企业的能力，如支持 MCP 服务器与 SIP 电话呼叫，使语音代理可直接连接电话网络与 PBX 系统。这些新增功能面向客服与联络中心场景的部署。

基准测试

BigBench Audio（推理）：82.8% — 高于 65.6%（OpenAI 2024 年 12 月实时模型）。这是针对具备音频能力的推理任务所报告的核心推理基准。

MultiChallenge（指令遵循，音频）：约 30.5% vs 约 20.6% — 显示对多步骤或复杂口头指令的遵循性有所提升。

ComplexFuncBench（函数调用成功率）：约 66.5% vs 约 49.7% — 在音频会话中需要调用工具/函数时，可靠性更高。

成本与延迟： OpenAI 表示，新模型降低了音频的每 token 成本（≈比先前的实时预览版本低 20%），并作为单一的端到端模型运行（不再需要独立的 STT → LM → TTS 串联），从而降低实时交互流程中的端到端延迟。

OpenAI 称，gpt-realtime 模型在多项客观基准与真实世界行为上都有实质性改进——在 BigBench Audio 以及指令遵循/函数调用评测中的得分更高——并在实时音频中更好地处理字母数字、代号与语言切换。公司还推出了两种新声音（Cedar 和 Marin），并报告相较早期的实时预览模型降价 20%。

Realtime API 与 gpt-realtime 模型现已（GA）向开发者开放，OpenAI 还下调了其 Realtime API 的价格，将音频输入降至 $32/百万 tokens、音频输出降至 $64/百万 tokens，较此前价格下降 20%，为开发者提供更经济的方案。

入门指南

CometAPI 是一个统一的 API 平台，将来自领先提供商的 500 多个 AI 模型——如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等——聚合到单一且对开发者友好的接口中。通过提供一致的认证、请求格式与响应处理，CometAPI 大幅简化了将 AI 能力集成到应用中的过程。无论你在构建聊天机器人、图像生成器、音乐创作工具，还是数据驱动的分析流水线，CometAPI 都能让你更快迭代、控制成本并保持供应商无关性，同时获取整个 AI 生态的最新突破。

开发者可通过 CometAPI 访问 GPT-5，所列最新模型版本以本文发布之日为准。开始之前，可在 Playground 体验模型能力，并查阅 API 指南获取详细说明。访问前，请确保已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的方案，助你完成集成。

最新集成的 gpt-realtime 将很快登陆 CometAPI，敬请期待！

新增内容

基准测试

入门指南

阅读更多

一个 API 中超 500 个模型