GPT-4o 音訊 API

CometAPI
AnnaJun 3, 2025
GPT-4o 音訊 API

GPT-4o 音訊 API: 統一的 /chat/completions 端點擴展,接受 Opus 編碼的音訊(和文字)輸入並傳回具有可設定參數的合成語音或文字記錄(模型=gpt-4o-audio-preview-<date>, speed, temperature) 進行批量和串流語音互動。

GPT-4o Audio 的基本訊息

GPT-4o 音訊預覽 (gpt-4o-audio-preview-2025-06-03) 是 OpenAI 最新的 以語音為中心的大型語言模型 透過標準提供 聊天完成 API 而不是超低延遲即時通道。該變體與 GPT-4o 一樣,建立在相同的“全能”基礎上,專注於 高保真語音輸入和輸出 適用於回合製對話、內容建立、輔助工具以及無需毫秒計時的代理工作流程。它繼承了 GPT-4 類別模型的所有文本推理優勢,同時添加了 端對端語音到語音(S2S) 管道,確定性 函數呼叫和新的 speed 參數 用於語音速率控制。


GPT-4o 音訊的核心功能集

統一語音轉語音處理 – 音訊直接轉換為語義豐富的標記,經過推理,並重新合成,無需外部 STT/TTS 服務,從而產生 一致的音色、韻律和語境保留.
改進指令遵循 – 2025 年 XNUMX 月調整交付 +19 pp 傳球-1 與 2024 年 4 月的 GPT-XNUMXo 基準相比,語音命令任務的成績有所提高,減少了客戶支援和內容起草等領域的幻覺。
穩定工具調用 – 模型輸出 結構化 JSON 符合 OpenAI 函數呼叫模式,支援觸發後端 API(搜尋、預訂、支付) 論證準確率 >95%.
speed 參數(0.25–4×) - 開發人員可以調節語音播放,以實現慢節奏學習、正常敘述或快速「可聽瀏覽」模式, 在外部重新合成文字。
中斷感知輪流 – 雖然不像即時版本那樣受延遲驅動,但預覽支持 部分串流媒體:令牌在計算後立即發出,以便用戶在必要時儘早中斷。


GPT-4o的技術架構

• 單堆變壓器 與所有 GPT-4o 衍生產品一樣,音訊預覽採用 統一編碼器-解碼器 其中文本和聲學標記通過相同的注意力塊,促進跨模式基礎。
• 分層音訊標記化 – 原始 16 kHz PCM → log-mel 補丁 → 粗聲學代碼語意標記。這種多級壓縮實現了 頻寬減少 40–50 倍 同時保留細微差別,實現每個上下文視窗的多分鐘剪輯。
• NF4 量化權重 – 推理發生在 4 位正常浮點數 精度,與 fp16 相比,GPU 記憶體減少了一半,並且保持 70+ 串流 RTF(即時因素) 在 A100-80 GB 節點上。
• 串流注意力機制和鍵值緩存 – 滑動視窗旋轉嵌入可以在約 30 秒的語音中保持上下文,同時保持 O(L) 記憶體使用情況,非常適合播客編輯器或輔助閱讀工具。


版本控制與命名 — 帶有日期標記的預覽軌道

識別碼渠道目的發布日期穩定性
GPT-4O-音訊預覽-2025-06-03聊天完成 API回合製音訊互動、代理任務六月03 2025預覽 (鼓勵回饋)

名稱中的關鍵要素:

  1. GPT-4O – 全方位多式聯運系列。
  2. 音頻 – 針對語音用例進行了最佳化。
  3. 預習 – API 合約可能會演變;尚未正式發布。
  4. 2025-06-03 – 訓練和部署快照以實現可重複性。

如何從 CometAPI 呼叫 GPT-4o Audio API

GPT-4o Audio API CometAPI 中的 API 定價:

  • 輸入代幣:2 美元/百萬個代幣
  • 輸出代幣:8 美元/百萬代幣

所需步驟

  • 登錄到 cometapi.com。如果您還不是我們的用戶,請先註冊
  • 取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”,取得Token金鑰:sk-xxxxx並提交。
  • 取得此網站的 URL: https://api.cometapi.com/

使用方法

  1. 選擇“gpt-4o-audio-preview-2025-06-03「端點傳送請求並設定請求體。請求方法和請求體可從我們網站的API文件取得。為了方便您使用,我們網站也提供了Apifox測試。
  2. 代替使用您帳戶中的實際 CometAPI 金鑰。
  3. 將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
  4. 。處理 API 回應以取得產生的答案。

有關 Comet API 中的模型存取信息,請參閱 API 文件.

有關 Comet API 中的模型價格信息,請參閱 https://api.cometapi.com/pricing.

API 工作流程 — 使用音訊部分和功能掛鉤完成聊天

  1. 輸入格式  -  audio/* MIME 或 base64 嵌入的 WAV 區塊 messages[].content.
  2. 輸出選項  -
    • mode: "text" → 純文字字幕。
    • mode: "audio" → 返回  帶有時間戳記的 Opus 或 µ-law 酬載。
  3. 函數呼叫 -添加 functions:  模式;模型發出 role: "function" 使用 JSON 參數;開發人員執行工具呼叫並可選擇將結果透過管道傳回。
  4. 速率控制 –設置 voice.speed=1.25 加速播放;安全範圍 0.25–4.0。
  5. 令牌/音訊限制 – 啟動時有 128 k 個上下文(約 4 分鐘語音); 4096 個音訊標記 / 8192 個文字標記 以先到者為準。

範例程式碼和 API 集成

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • :
  • 模型: "gpt-4o-audio-preview-2025-06-03"
  • 音頻 鍵入 用戶 訊息發送二進位流
  • 速度:控件 語音速率 介於慢(0.5)和快(2.0)之間
  • 溫度: 餘額 創造力一致性

技術指標 — 延遲、品質、準確性

公制音訊預覽GPT-4o(純文字)三角洲
第一個令牌延遲(1 次)1.2小號 平均0.35小號+0.85秒
MOS(語音自然度,5分)4.43--
指令合規性(語音)92%73%+19個百分點
函數呼叫參數準確度95.8%87%+8.8個百分點
字錯誤率(隱式 STT)5.2%不承保-
GPU 記憶體/串流 (A100-80GB)GB 7.114 GB(fp16)−49%

透過聊天完成流程執行的基準測試,批量大小 = 1。

參見 GPT-4o 即時 API

GPT-4o 音頻

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣