Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

輸入:$2/M
輸出:$8/M
用于在 Chat Completions 中实现音频输入与音频输出的最佳语音模型。
新
商用
概览
功能亮点
定价
API

gpt-audio-1.5 的技术规格

项目gpt-audio-1.5(公开规格)
模型家族GPT Audio 家族(音频优先变体)
输入类型文本、音频(语音输入)
输出类型文本、音频(语音输出)、结构化输出(支持函数调用)
上下文窗口128,000 个 token。
最大输出 token16,384(在相关 gpt-audio 列表中有说明)。
性能等级更高智能;中等速度(均衡)。
时延特性针对语音交互优化(具体端点下为中/低时延)。
可用性通过 Chat Completions API(音频输入/输出)与平台 playgrounds 提供;集成于各类实时/语音界面。
安全/使用说明对语音内容设置护栏;在生产级语音代理中按常规安全与校验标准对模型输出进行处理。

注:gpt-realtime-1.5 是密切相关的实时音频/语音优先变体,针对更低时延与实时会话优化;详见下文对比。


什么是 gpt-audio-1.5?

gpt-audio-1.5 是一款具备音频能力的 GPT 模型,通过 Chat Completions 及相关支持音频的 API 同时支持语音输入与语音输出。其定位为面向普遍可用的主要音频模型,用于构建语音代理和语音优先体验,同时在质量与速度之间取得平衡。


主要特性

  1. 语音输入/语音输出支持:处理口语输入,并返回语音或文本响应,形成自然的语音交互流程。
  2. 面向音频流程的大上下文:支持超大上下文(文档标注为 128k token),可支撑多轮、长对话历史或大型多模态会话。
  3. 流式与 Chat Completions 兼容:在 Chat Completions 中工作,支持流式音频响应与函数调用的结构化输出。
  4. 性能/时延均衡:调优以在中等吞吐下提供高质量音频响应——适用于注重质量的聊天机器人与语音助手。
  5. 生态与集成:在平台的 playgrounds 中提供支持,并可用于官方实时/语音端点及合作方集成(Azure/Microsoft Foundry 相关说明亦提及类似音频模型)。

gpt-audio-1.5 与相关音频模型对比

属性gpt-audio-1.5gpt-realtime-1.5
主要侧重面向 Chat Completions 与会话流程的高质量音频输入/输出。面向实时语音代理与流式场景的低时延实时 S2S(语音到语音)。
上下文窗口128k token。32k token(实时变体文档所示)。
最大输出 token16,384(文档说明)。通常配置为更短的实时响应(文档列出了更小的最大 token)。
最佳适用需要完整聊天语义与音频的聊天机器人、语音助手。实时语音代理、自助终端,以及低时延对话界面。

典型用例

  • 用于客户支持与内部帮助台的会话式语音代理。
  • 嵌入应用、设备与自助终端的语音助手。
  • 免手操作的工作流(听写、语音搜索、无障碍)。
  • 通过 Chat Completions 将音频与文本/图像混合的多模态体验。

限制与运营考量

  • 并非人类 QA 的即插即用替代:在生产流程中始终使用人工审核验证语音输出及后续动作。
  • 资源规划:大上下文与音频 I/O 会增加计算与时延——为长会话设计流式/分段策略。
  • 安全与政策约束:语音输出具有说服力;大规模部署时应遵循平台的安全指南与护栏。
  • 如何访问 GPT Audio 1.5 API

步骤 1:注册获取 API 密钥

登录到 cometapi.com。如果您还不是我们的用户,请先注册。登录您的 CometAPI 控制台。获取接口的访问凭证 API 密钥。在个人中心的 API Token 处点击“Add Token”,获取令牌密钥:sk-xxxxx 并提交。

CometAPI 密钥

步骤 2:向 GPT Audio 1.5 API 发送请求

选择 “gpt-audio-1.5” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便您使用。将 <YOUR_API_KEY> 替换为您账号中的实际 CometAPI 密钥。基础 URL 为 Chat Completions

将您的问题或请求写入 content 字段——模型将对其进行响应。处理 API 响应以获取生成的答案。

步骤 3:检索并验证结果

处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态与输出数据。

常见问题

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 supports a 128,000-token context window and documents list a max output token configuration around 16,384; verify exact limits per endpoint in the developer docs. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Yes — it accepts audio inputs and can return audio outputs or textual responses via the Chat Completions/audio endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Choose gpt-audio-1.5 for higher-quality audio in Chat Completions flows where larger context is required; choose gpt-realtime-1.5 for low-latency, live streaming voice interactions. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Yes — the model supports streaming audio responses and structured outputs/function calling to integrate external tools and workflows. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Yes — it's designed for voice assistants and conversational agents, but you should add human review/QA, logging, and safety controls before production deployment. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Key considerations are compute/latency tradeoffs for large context audio sessions, safety guardrails for voice content, and the need to validate ASR/TTS outputs in your domain. :contentReference[oaicite:49]{index=49}

gpt-audio-1.5 的功能

了解 gpt-audio-1.5 的核心能力,帮助提升性能与可用性,并改善整体体验。

gpt-audio-1.5 的定价

查看 gpt-audio-1.5 的竞争性定价,满足不同预算与使用需求,灵活方案确保随需求扩展。
Comet 价格 (USD / M Tokens)官方定价 (USD / M Tokens)折扣
輸入:$2/M
輸出:$8/M
輸入:$2.5/M
輸出:$10/M
-20%

gpt-audio-1.5 的示例代码与 API

获取完整示例代码与 API 资源,简化 gpt-audio-1.5 的集成流程,我们提供逐步指导,助你发挥模型潜能。
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

更多模型