GPT-4o 音訊 API

GPT-4o 音訊 API： 統一的 /chat/completions 端點擴展，接受 Opus 編碼的音訊（和文字）輸入並傳回具有可設定參數的合成語音或文字記錄（模型=gpt-4o-audio-preview-<date>, speed, temperature) 進行批量和串流語音互動。

GPT-4o Audio 的基本訊息

GPT-4o 音訊預覽 (gpt-4o-audio-preview-2025-06-03) 是 OpenAI 最新的 以語音為中心的大型語言模型 透過標準提供 聊天完成 API 而不是超低延遲即時通道。該變體與 GPT-4o 一樣，建立在相同的“全能”基礎上，專注於 高保真語音輸入和輸出 適用於回合製對話、內容建立、輔助工具以及無需毫秒計時的代理工作流程。它繼承了 GPT-4 類別模型的所有文本推理優勢，同時添加了 端對端語音到語音（S2S） 管道，確定性 函數呼叫和新的 speed 參數 用於語音速率控制。

GPT-4o 音訊的核心功能集

• 統一語音轉語音處理 – 音訊直接轉換為語義豐富的標記，經過推理，並重新合成，無需外部 STT/TTS 服務，從而產生 一致的音色、韻律和語境保留.
• 改進指令遵循 – 2025 年 XNUMX 月調整交付 +19 pp 傳球-1 與 2024 年 4 月的 GPT-XNUMXo 基準相比，語音命令任務的成績有所提高，減少了客戶支援和內容起草等領域的幻覺。
• 穩定工具調用 – 模型輸出 結構化 JSON 符合 OpenAI 函數呼叫模式，支援觸發後端 API（搜尋、預訂、支付） 論證準確率 >95%.
• speed 參數（0.25–4×） - 開發人員可以調節語音播放，以實現慢節奏學習、正常敘述或快速「可聽瀏覽」模式，無在外部重新合成文字。
• 中斷感知輪流 – 雖然不像即時版本那樣受延遲驅動，但預覽支持 部分串流媒體：令牌在計算後立即發出，以便用戶在必要時儘早中斷。

GPT-4o的技術架構

• 單堆變壓器 與所有 GPT-4o 衍生產品一樣，音訊預覽採用 統一編碼器-解碼器 其中文本和聲學標記通過相同的注意力塊，促進跨模式基礎。
• 分層音訊標記化 – 原始 16 kHz PCM → log-mel 補丁 → 粗聲學代碼 → 語意標記。這種多級壓縮實現了 頻寬減少 40–50 倍 同時保留細微差別，實現每個上下文視窗的多分鐘剪輯。
• NF4 量化權重 – 推理發生在 4 位正常浮點數 精度，與 fp16 相比，GPU 記憶體減少了一半，並且保持 70+ 串流 RTF（即時因素） 在 A100-80 GB 節點上。
• 串流注意力機制和鍵值緩存 – 滑動視窗旋轉嵌入可以在約 30 秒的語音中保持上下文，同時保持 O(L) 記憶體使用情況，非常適合播客編輯器或輔助閱讀工具。

版本控制與命名 — 帶有日期標記的預覽軌道

識別碼	渠道	目的	發布日期	穩定性
GPT-4O-音訊預覽-2025-06-03	聊天完成 API	回合製音訊互動、代理任務	六月03 2025	預覽（鼓勵回饋）

名稱中的關鍵要素：

GPT-4O – 全方位多式聯運系列。
音頻 – 針對語音用例進行了最佳化。
預習 – API 合約可能會演變；尚未正式發布。
2025-06-03 – 訓練和部署快照以實現可重複性。

如何從 CometAPI 呼叫 GPT-4o Audio API

`GPT-4o Audio API` CometAPI 中的 API 定價：

輸入代幣：2 美元/百萬個代幣
輸出代幣：8 美元/百萬代幣

所需步驟

登錄到 cometapi.com。如果您還不是我們的用戶，請先註冊
取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”，取得Token金鑰：sk-xxxxx並提交。
取得此網站的 URL： https://api.cometapi.com/

使用方法

選擇“gpt-4o-audio-preview-2025-06-03「端點傳送請求並設定請求體。請求方法和請求體可從我們網站的API文件取得。為了方便您使用，我們網站也提供了Apifox測試。
代替使用您帳戶中的實際 CometAPI 金鑰。
將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
。處理 API 回應以取得產生的答案。

有關 Comet API 中的模型存取信息，請參閱 API 文件.

有關 Comet API 中的模型價格信息，請參閱 https://api.cometapi.com/pricing.

API 工作流程 — 使用音訊部分和功能掛鉤完成聊天

輸入格式 - audio/* MIME 或 base64 嵌入的 WAV 區塊 messages[].content.
輸出選項 -
• mode: "text" → 純文字字幕。
• mode: "audio" → 返回流帶有時間戳記的 Opus 或 µ-law 酬載。
函數呼叫 -添加 functions: 模式；模型發出 role: "function" 使用 JSON 參數；開發人員執行工具呼叫並可選擇將結果透過管道傳回。
速率控制 –設置 voice.speed=1.25 加速播放；安全範圍 0.25–4.0。
令牌/音訊限制 – 啟動時有 128 k 個上下文（約 4 分鐘語音）； 4096 個音訊標記 / 8192 個文字標記 以先到者為準。

範例程式碼和 API 集成

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)

‎ :
模型: "gpt-4o-audio-preview-2025-06-03"
音頻鍵入用戶訊息發送二進位流
速度：控件 語音速率 介於慢（0.5）和快（2.0）之間
溫度: 餘額 創造力 與 一致性

技術指標 — 延遲、品質、準確性

公制	音訊預覽	GPT-4o（純文字）	三角洲
第一個令牌延遲（1 次）	1.2小號平均	0.35小號	+0.85秒
MOS（語音自然度，5分）	4.43	-	-
指令合規性（語音）	92％	73％	+19個百分點
函數呼叫參數準確度	95.8％	87％	+8.8個百分點
字錯誤率（隱式 STT）	5.2％	不承保	-
GPU 記憶體/串流 (A100-80GB)	GB 7.1	14 GB（fp16）	−49%

透過聊天完成流程執行的基準測試，批量大小 = 1。

參見 GPT-4o 即時 API

GPT-4o 音頻

GPT-4o Audio 的基本訊息

GPT-4o 音訊的核心功能集

GPT-4o的技術架構

版本控制與命名 — 帶有日期標記的預覽軌道

如何從 CometAPI 呼叫 GPT-4o Audio API

`GPT-4o Audio API` CometAPI 中的 API 定價：

所需步驟

使用方法

API 工作流程 — 使用音訊部分和功能掛鉤完成聊天

範例程式碼和 API 集成

技術指標 — 延遲、品質、準確性

閱讀更多

一個 API 中超過 500 個模型

GPT-4o 音訊 API

GPT-4o Audio 的基本訊息

GPT-4o 音訊的核心功能集

GPT-4o的技術架構

版本控制與命名 — 帶有日期標記的預覽軌道

如何從 CometAPI 呼叫 GPT-4o Audio API

GPT-4o Audio API CometAPI 中的 API 定價：

所需步驟

使用方法

API 工作流程 — 使用音訊部分和功能掛鉤完成聊天

範例程式碼和 API 集成

技術指標 — 延遲、品質、準確性

閱讀更多

一個 API 中超過 500 個模型

`GPT-4o Audio API` CometAPI 中的 API 定價：