GPT-4o 实时 API

GPT-4o Realtime API： 一个低延迟的多模态流式端点，使开发者能够通过 WebRTC 或 WebSocket 发送与接收同步的文本、音频和视觉数据（model=gpt-4o-realtime-preview-<date>，stream=true），用于交互式实时应用。

基本信息与特性

OpenAI 的 GPT-4o Realtime（模型 ID：gpt-4o-realtime-preview-2025-06-03）是首个面向公众的基础模型，面向端到端语音到语音（S2S）交互并实现亚秒级延迟。该模型源自 “omni” GPT-4o 家族，Realtime 变体将语音识别、自然语言推理与神经文本转语音融合为单一网络，使开发者能够构建如人类般流畅对话的语音代理。模型通过专用的 Realtime API 对外提供，并与 Agents SDK（TypeScript 与 Python）中的全新 RealtimeAgent 抽象深度集成。

核心功能集 — 端到端 S2S • 中断处理 • 工具调用

• 原生语音到语音： 连续音频输入以流式方式摄取，内部进行分词、推理，并以合成语音返回。无需外部 STT/TTS 缓冲，消除多秒级流水线延迟。
• 毫秒级延迟： 通过架构裁剪、模型蒸馏与 GPU 优化的服务栈，实现典型云部署下约 300–500 ms 的首 Token 延迟，接近人类对话的轮流发言节奏。
• 稳健的指令遵循： 在会话脚本与函数调用轨迹上微调，相较 2024 年 5 月的 GPT-4o 基线，GPT-4o Realtime 的任务执行错误降低 >25%。
• 确定性的工具调用： 模型生成符合 OpenAI function-calling schema 的结构化 JSON，可确定性调用后端 API（预订系统、数据库、IoT）。内置错误感知重试与参数验证。
• 优雅的中断处理： 实时语音活动检测器与增量解码配合，使代理可在句中暂停发声，摄取用户打断，并无缝恢复或重规划回复。
• 可配置的语速： 新增 speed 参数（0.25–4× 实时），满足无障碍或高速应用的节奏需求。

技术架构 — 统一的多模态 Transformer

统一的编码器–解码器： GPT-4o Realtime 采用 omni 架构的单栈 Transformer，在同一潜空间内共置音频、文本与（未来的）视觉 Token。分层自适应计算将音频帧直通至后期注意力模块，每次前向传播可节省 20–40 ms。

分层音频分词： 原始 16 kHz PCM 被切分为对数梅尔谱片段 → 量化为粗粒度声学 Token → 压缩为语义 Token，在不牺牲韵律的前提下优化每秒令牌预算。

低比特推理内核： 部署权重采用 4-bit NF4 量化，通过 Triton / TensorRT-LLM 内核运行，与 fp16 相比吞吐翻倍，同时维持 <1 dB 的 MOS 质量损失。

流式注意力： 滑动窗口旋转嵌入与键值缓存使模型可在 O(L) 内存下关注最近 15 s 的音频，对电话通话长度的对话至关重要。

技术细节

API 版本：2025-06-03-preview
传输协议：
WebRTC：客户端音视频流的超低延迟（< 80 ms）
WebSocket：服务端到服务端的流式传输，延迟低于 100 ms
数据编码：
音频使用 Opus 编码并封装于 RTP 包中
视频采用 H.264/H.265 帧封装
流式传输：支持 stream: true 以在生成 Token 的同时交付增量部分响应
全新语音音色库：引入八种新声音——alloy、ash、ballad、coral、echo、sage、shimmer 和 verse——实现更富表现力、更拟人化的交互。

GPT-4o Realtime 的演进

2024 年 5 月：GPT-4o Omni 首次亮相，支持文本、音频与视觉的多模态。
2024 年 10 月：Realtime API 进入私测（2024-10-01-preview），针对低延迟音频优化。
2024 年 12 月：推出 gpt-4o-realtime-preview-2024-12-17 的全球可用性，新增提示缓存与更多声音。
2025 年 6 月 3 日：最新更新（2025-06-03-preview）发布，优化声音音色库与性能。

基准表现

MMLU：88.7，超越 GPT-4 在大规模多任务语言理解上的 86.5。
语音识别：在嘈杂环境中实现行业领先的词错误率，优于 Whisper 基线。
延迟测试：
端到端（语音输入 → 文本输出）：通过 WebRTC 实现 50–80 ms
音频往返（语音输入 → 语音输出）：< 100 ms

技术指标

吞吐：文本流维持15 tokens/sec；音频为 24 kbps Opus。
定价：
文本：每 1 M 输入令牌 $5；每 1 M 输出令牌 $20
音频：每 1 M 输入令牌 $100；每 1 M 输出令牌 $200。
可用性：在所有支持 Realtime API 的区域全球部署。

如何通过 CometAPI 调用 GPT-4o Realtime API

`GPT-4o Realtime` 在 CometAPI 的 API 定价：

输入令牌：$2 / M 令牌
输出令牌：$8 / M 令牌

必要步骤

登录 cometapi.com。若您尚未成为我们的用户，请先注册
获取接口访问凭证 API Key。在个人中心的 API Token 处点击“Add Token”，获取令牌密钥：sk-xxxxx 并提交。
获取本站的 URL：https://api.cometapi.com/

使用方法

选择 “gpt-4o-realtime-preview-2025-06-03” 端点发送请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。
将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI Key。
将您的问题或请求插入到 content 字段中——模型将对此作出响应。
. 处理 API 响应以获取生成的答案。

有关在 Comet API 中访问模型的信息，请参见 API 文档。

有关模型价格的信息，请参见 https://api.cometapi.com/pricing。

示例代码与 API 集成

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)

关键参数：
model：“gpt-4o-realtime-preview-2025-06-03”
version：“2025-06-03-preview”
transport：“webrtc”，实现最低延迟
stream：true，用于增量更新

通过结合最先进的多模态推理、强大的新语音音色库与超低延迟流式能力，GPT-4o Realtime（2025-06-03）助力开发者构建真正互动、对话式的 AI 应用。

另见 o3-Pro API

安全与合规

OpenAI 为 GPT-4o Realtime 提供：
• 系统级护栏： 基于策略调整，拒绝不合规请求（极端主义、非法行为）。
• 实时内容过滤： 子 100 ms 分类器在输出前对用户输入与模型输出进行筛查。
• 人工审批路径： 在高风险工具调用（支付、法律建议）时触发，利用 Agents SDK 的新审批基元。

GPT-4o Realtime

基本信息与特性

核心功能集 — 端到端 S2S • 中断处理 • 工具调用

技术架构 — 统一的多模态 Transformer

技术细节

GPT-4o Realtime 的演进

基准表现

技术指标

如何通过 CometAPI 调用 GPT-4o Realtime API

`GPT-4o Realtime` 在 CometAPI 的 API 定价：

必要步骤

使用方法

示例代码与 API 集成

安全与合规

阅读更多

一个 API 中超 500 个模型

GPT-4o 实时 API

基本信息与特性

核心功能集 — 端到端 S2S • 中断处理 • 工具调用

技术架构 — 统一的多模态 Transformer

技术细节

GPT-4o Realtime 的演进

基准表现

技术指标

如何通过 CometAPI 调用 GPT-4o Realtime API

GPT-4o Realtime 在 CometAPI 的 API 定价：

必要步骤

使用方法

示例代码与 API 集成

安全与合规

阅读更多

一个 API 中超 500 个模型

`GPT-4o Realtime` 在 CometAPI 的 API 定价：