GPT-4o 音频 API

GPT-4o Audio API: 一个统一的 /chat/completions 端点扩展，可接受 Opus 编码的音频（以及文本）输入，并返回可配置参数的合成语音或转录（model=gpt-4o-audio-preview-<date>、speed、temperature），适用于批量与流式语音交互。

GPT-4o Audio 的基本信息

GPT-4o Audio Preview（gpt-4o-audio-preview-2025-06-03）是 OpenAI 最新的以语音为中心的大型语言模型，通过标准的 Chat Completions API 提供，而非超低延迟的 Realtime 通道。基于与 GPT-4o 相同的“omni”基础，这一变体专注于高保真语音输入与输出，适用于不需要毫秒级时序的回合制对话、内容创作、无障碍工具与代理式工作流。它继承了 GPT-4 级模型的文本推理能力，并新增端到端的语音到语音（S2S）管线、确定性的函数调用，以及用于控制语速的新 speed 参数。

GPT-4o Audio 的核心功能集

• 统一的语音到语音处理 – 音频被直接转换为语义丰富的令牌，经推理处理后无需外部 STT/TTS 服务即可重新合成，带来一致的音色、韵律与上下文保留。
• 改进的指令遵从 – 2025 年 6 月的调优在语音指令任务上相较 2024 年 5 月的 GPT-4o 基线实现了**+19 个百分点的 pass-at-1**，降低了在客服与内容撰写等领域的幻觉。
• 稳定的工具调用 – 模型输出符合 OpenAI 函数调用模式的结构化 JSON，使后端 API（搜索、预订、支付）能够以**>95 % 参数准确率被触发。
• speed 参数（0.25–4×） – 开发者可调节语音播放速度，覆盖慢速学习、正常叙述或快速“可听略读”模式，且无需外部重新合成文本。
• 感知中断的轮换对话 – 虽不如 Realtime 变体那样以延迟为核心，但该预览版支持部分流式**：令牌一经计算即开始输出，必要时允许用户提前打断。

GPT-4o 的技术架构

• 单栈 Transformer – 与所有 GPT-4o 衍生模型一致，音频预览采用统一的编码器–解码器，文本与声学令牌通过相同的注意力块处理，促进跨模态对齐。
• 层级化音频令牌化 – 原始 16 kHz PCM → log-mel patches → 粗粒度声学码 → 语义令牌。该多阶段压缩实现40–50× 带宽降低且保持细微差异，使每个上下文窗口可容纳多分钟音频片段。
• NF4 量化权重 – 推理采用4-bit Normal-Float精度，相比 fp16 将 GPU 内存占用减半，并在 A100-80 GB 节点上维持70+ 流式 RTF（实时因子）。
• 流式注意力与 KV 缓存 – 滑动窗旋转嵌入在约 30 s 语音内维持上下文，同时保持O(L) 的内存用量，非常适合播客编辑或辅助阅读工具。

版本与命名 — 带日期戳的预览版本

Identifier	Channel	Purpose	Release Date	Stability
gpt-4o-audio-preview-2025-06-03	Chat Completions API	回合制音频交互、代理式任务	03 Jun 2025	预览（欢迎反馈）

名称中的关键元素：

gpt-4o — Omni 多模态家族。
audio — 为语音用例优化。
preview — API 合同可能演进；尚未 GA。
2025-06-03 — 为可复现性提供训练与部署快照。

如何通过 CometAPI 调用 GPT-4o Audio API

`GPT-4o Audio API` 在 CometAPI 的定价：

输入令牌：$2 / 每百万令牌
输出令牌：$8 / 每百万令牌

必要步骤

登录 cometapi.com。如果您尚未成为我们的用户，请先注册。
获取接口的访问凭证 API Key。在个人中心的 API token 处点击“Add Token”，获取令牌密钥：sk-xxxxx 并提交。
获取本站点的 url：https://api.cometapi.com/

使用方法

选择 “gpt-4o-audio-preview-2025-06-03” 端点发送请求并设置请求体。请求方法与请求体可从我们的网站 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。
将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI Key。
将您的问题或请求插入到 content 字段——模型会对此作出响应。
. 处理 API 响应以获取生成的答案。

有关模型访问的信息请参见 API doc。

有关模型价格的信息请参见 https://api.cometapi.com/pricing。

API 工作流 — 带音频部件与函数钩子的 Chat Completions

输入格式 — 在 messages[].content 中嵌入 audio/* MIME 或 base64 WAV 分片。
输出选项 —
• mode: "text" → 用于字幕的纯文本。
• mode: "audio" → 返回带时间戳的流式 Opus 或 µ-law 负载。
函数调用 — 添加 functions: 模式；模型以 role: "function" 输出带 JSON 参数；开发者执行工具调用，并可选择将结果回传。
速率控制 — 设置 voice.speed=1.25 以加速播放；安全范围 0.25–4.0。
令牌/音频限制 — 初始为 128 k 上下文（约 ~4 分钟语音）；4096 audio tokens / 8192 text tokens，以先达到者为准。

示例代码与 API 集成

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)

亮点：
model："gpt-4o-audio-preview-2025-06-03"
在 user 消息中使用 audio 键发送二进制流
speed：控制语速，介于慢速（0.5）与快速（2.0）之间
temperature：在创造性与一致性之间取得平衡

技术指标 — 延迟、质量、准确性

Metric	Audio Preview	GPT-4o (仅文本)	Delta
First Token Latency (1-shot)	1.2 s 平均	0.35 s	+0.85 s
MOS (Speech Naturalness, 5-pt)	4.43	—	—
Instruction Compliance (Voice)	92 %	73 %	+19 pp
Function Call Arg Accuracy	95.8 %	87 %	+8.8 pp
Word Error Rate (Implicit STT)	5.2 %	n/a	—
GPU Memory / Stream (A100-80GB)	7.1 GB	14 GB (fp16)	−49 %

基准通过 Chat Completions 流式执行，批大小 = 1。

另见 GPT-4o Realtime API

GPT-4o Audio

GPT-4o Audio 的基本信息

GPT-4o Audio 的核心功能集

GPT-4o 的技术架构

版本与命名 — 带日期戳的预览版本

如何通过 CometAPI 调用 GPT-4o Audio API

`GPT-4o Audio API` 在 CometAPI 的定价：

必要步骤

使用方法

API 工作流 — 带音频部件与函数钩子的 Chat Completions

示例代码与 API 集成

技术指标 — 延迟、质量、准确性

阅读更多

一个 API 中超 500 个模型

GPT-4o 音频 API

GPT-4o Audio 的基本信息

GPT-4o Audio 的核心功能集

GPT-4o 的技术架构

版本与命名 — 带日期戳的预览版本

如何通过 CometAPI 调用 GPT-4o Audio API

GPT-4o Audio API 在 CometAPI 的定价：

必要步骤

使用方法

API 工作流 — 带音频部件与函数钩子的 Chat Completions

示例代码与 API 集成

技术指标 — 延迟、质量、准确性

阅读更多

一个 API 中超 500 个模型

`GPT-4o Audio API` 在 CometAPI 的定价：