GPT-4o 实时 API

CometAPI
AnnaJun 3, 2025
GPT-4o 实时 API

GPT-4o Realtime API: 一个低延迟的多模态流式端点,使开发者能够通过 WebRTC 或 WebSocket 发送与接收同步的文本、音频和视觉数据(model=gpt-4o-realtime-preview-<date>stream=true),用于交互式实时应用。


基本信息与特性

OpenAI 的 GPT-4o Realtime(模型 ID:gpt-4o-realtime-preview-2025-06-03)是首个面向公众的基础模型,面向端到端语音到语音(S2S)交互并实现亚秒级延迟。该模型源自 “omni” GPT-4o 家族,Realtime 变体将语音识别、自然语言推理与神经文本转语音融合为单一网络,使开发者能够构建如人类般流畅对话的语音代理。模型通过专用的 Realtime API 对外提供,并与 Agents SDK(TypeScript 与 Python)中的全新 RealtimeAgent 抽象深度集成。


核心功能集 — 端到端 S2S • 中断处理 • 工具调用

原生语音到语音: 连续音频输入以流式方式摄取,内部进行分词、推理,并以合成语音返回。无需外部 STT/TTS 缓冲,消除多秒级流水线延迟。
毫秒级延迟: 通过架构裁剪、模型蒸馏与 GPU 优化的服务栈,实现典型云部署下约 300–500 ms 的首 Token 延迟,接近人类对话的轮流发言节奏。
稳健的指令遵循: 在会话脚本与函数调用轨迹上微调,相较 2024 年 5 月的 GPT-4o 基线,GPT-4o Realtime 的任务执行错误降低 >25%
确定性的工具调用: 模型生成符合 OpenAI function-calling schema 的结构化 JSON,可确定性调用后端 API(预订系统、数据库、IoT)。内置错误感知重试与参数验证。
优雅的中断处理: 实时语音活动检测器与增量解码配合,使代理可在句中暂停发声,摄取用户打断,并无缝恢复或重规划回复。
可配置的语速: 新增 speed 参数(0.25–4× 实时),满足无障碍或高速应用的节奏需求。


技术架构 — 统一的多模态 Transformer

统一的编码器–解码器: GPT-4o Realtime 采用 omni 架构的单栈 Transformer,在同一潜空间内共置音频、文本与(未来的)视觉 Token。分层自适应计算将音频帧直通至后期注意力模块,每次前向传播可节省 20–40 ms。

分层音频分词: 原始 16 kHz PCM 被切分为对数梅尔谱片段 → 量化为粗粒度声学 Token → 压缩为语义 Token,在不牺牲韵律的前提下优化每秒令牌预算

低比特推理内核: 部署权重采用 4-bit NF4 量化,通过 Triton / TensorRT-LLM 内核运行,与 fp16 相比吞吐翻倍,同时维持 <1 dB 的 MOS 质量损失。

流式注意力: 滑动窗口旋转嵌入与键值缓存使模型可在 O(L) 内存下关注最近 15 s 的音频,对电话通话长度的对话至关重要。


技术细节

  • API 版本2025-06-03-preview
  • 传输协议
  • WebRTC:客户端音视频流的超低延迟(< 80 ms)
  • WebSocket:服务端到服务端的流式传输,延迟低于 100 ms
  • 数据编码
  • 音频使用 Opus 编码并封装于 RTP 包中
  • 视频采用 H.264/H.265 帧封装
  • 流式传输:支持 stream: true 以在生成 Token 的同时交付增量部分响应
  • 全新语音音色库:引入八种新声音——alloyashballadcoralechosageshimmerverse——实现更富表现力、更拟人化的交互。

GPT-4o Realtime 的演进

  • 2024 年 5 月GPT-4o Omni 首次亮相,支持文本、音频与视觉的多模态。
  • 2024 年 10 月Realtime API 进入私测(2024-10-01-preview),针对低延迟音频优化。
  • 2024 年 12 月:推出 gpt-4o-realtime-preview-2024-12-17 的全球可用性,新增提示缓存与更多声音。
  • 2025 年 6 月 3 日最新更新2025-06-03-preview)发布,优化声音音色库与性能。

基准表现

  • MMLU88.7,超越 GPT-4 在大规模多任务语言理解上的 86.5。
  • 语音识别:在嘈杂环境中实现行业领先的词错误率,优于 Whisper 基线。
  • 延迟测试
  • 端到端(语音输入 → 文本输出):通过 WebRTC 实现 50–80 ms
  • 音频往返(语音输入 → 语音输出):< 100 ms

技术指标

  • 吞吐:文本流维持15 tokens/sec;音频为 24 kbps Opus。
  • 定价
  • 文本:每 1 M 输入令牌 $5;每 1 M 输出令牌 $20
  • 音频:每 1 M 输入令牌 $100;每 1 M 输出令牌 $200。
  • 可用性:在所有支持 Realtime API 的区域全球部署。

如何通过 CometAPI 调用 GPT-4o Realtime API

GPT-4o Realtime 在 CometAPI 的 API 定价:

  • 输入令牌:$2 / M 令牌
  • 输出令牌:$8 / M 令牌

必要步骤

  • 登录 cometapi.com。若您尚未成为我们的用户,请先注册
  • 获取接口访问凭证 API Key。在个人中心的 API Token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。
  • 获取本站的 URL:https://api.cometapi.com/

使用方法

  1. 选择 “gpt-4o-realtime-preview-2025-06-03” 端点发送请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。
  2. 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI Key。
  3. 将您的问题或请求插入到 content 字段中——模型将对此作出响应。
  4. . 处理 API 响应以获取生成的答案。

有关在 Comet API 中访问模型的信息,请参见 API 文档

有关模型价格的信息,请参见 https://api.cometapi.com/pricing


示例代码与 API 集成

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • 关键参数
  • model“gpt-4o-realtime-preview-2025-06-03”
  • version“2025-06-03-preview”
  • transport“webrtc”,实现最低延迟
  • streamtrue,用于增量更新

通过结合最先进的多模态推理、强大的新语音音色库与超低延迟流式能力,GPT-4o Realtime(2025-06-03)助力开发者构建真正互动对话式的 AI 应用。

另见 o3-Pro API

安全与合规

OpenAI 为 GPT-4o Realtime 提供:
系统级护栏: 基于策略调整,拒绝不合规请求(极端主义、非法行为)。
实时内容过滤: 子 100 ms 分类器在输出前对用户输入与模型输出进行筛查。
人工审批路径: 在高风险工具调用(支付、法律建议)时触发,利用 Agents SDK 的新审批基元。

GPT-4o Realtime

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣