O

gpt-audio-1.5

輸入:$2/M
輸出:$8/M
搭配 Chat Completions 進行音訊輸入、音訊輸出的最佳語音模型。
商業用途

gpt-audio-1.5 的技術規格

項目gpt-audio-1.5(公開規格)
模型家族GPT Audio 家族(音訊優先變體)
輸入類型文字、音訊(語音輸入)
輸出類型文字、音訊(語音輸出)、結構化輸出(支援函式呼叫)
上下文視窗128,000 tokens。
最大輸出 tokens16,384(於相關 gpt-audio 清單中有文件記載)。
效能層級較高智慧;中等速度(平衡型)。
延遲特性針對語音互動進行最佳化(依端點而定,為中/低延遲)。
可用性Chat Completions API(音訊輸入/輸出)與平台 playground;整合於 realtime/voice 相關介面中。
安全性/使用注意事項針對語音內容設有防護機制;在生產級語音代理中,仍應依一般安全與驗證流程審慎處理模型輸出。

注意:gpt-realtime-1.5 是一個密切相關的即時音訊/語音優先變體,針對更低延遲與即時工作階段進行最佳化;請見下方比較。


什麼是 gpt-audio-1.5?

gpt-audio-1.5 是一個具備音訊能力的 GPT 模型,支援透過 Chat Completions 與相關音訊 API 進行語音輸入與語音輸出。它被定位為建構語音代理與語音優先體驗的主要通用可用音訊模型,同時兼顧品質與速度。


主要功能

  1. 語音輸入/語音輸出支援: 可處理口語輸入,並回傳語音或文字回應,以實現自然的語音互動流程。
  2. 適用於音訊工作流程的大型上下文: 支援非常大的上下文(文件記載為 128k tokens),可支援多輪對話、長對話歷史或大型多模態工作階段。
  3. 串流與 Chat Completions 相容性: 可在 Chat Completions 中運作,支援串流音訊回應與函式呼叫結構化輸出。
  4. 平衡的效能/延遲: 針對在中等吞吐量下提供高品質音訊回應進行調校——適合重視品質的聊天機器人與語音助理。
  5. 生態系與整合: 支援平台 playground,並可於官方 realtime/voice 端點與合作夥伴整合中使用(Azure/Microsoft Foundry 的說明中也提及類似音訊模型)。

gpt-audio-1.5 與相關音訊模型比較

屬性gpt-audio-1.5gpt-realtime-1.5
主要定位用於 Chat Completions 與對話流程的高品質音訊輸入/輸出。用於即時語音代理與串流情境的低延遲 Realtime S2S(speech-to-speech)。
上下文視窗128k tokens。32k tokens(文件記載的即時變體)。
最大輸出 tokens16,384(有文件記載)。通常設定為較短的即時回應(文件列出較小的最大 tokens)。
最佳使用情境需要完整聊天語義加上音訊能力的聊天機器人與語音助理。即時語音代理、資訊亭與低延遲對話介面。

代表性使用案例

  • 用於客服與內部服務台的對話式語音代理。
  • 內嵌於應用程式、裝置與資訊亭中的語音助理。
  • 免手持工作流程(聽寫、語音搜尋、無障礙存取)。
  • 透過 Chat Completions 混合音訊與文字/圖片的多模態體驗。

限制與操作注意事項

  • 不能直接取代人工 QA: 在生產流程中,應始終以人工審核驗證語音輸出與下游動作。
  • 資源規劃: 大型上下文與音訊 I/O 可能增加運算需求與延遲——請為長時間工作階段設計串流/分段策略。
  • 安全與政策限制: 語音輸出可能具有說服力;大規模部署時請遵循平台安全指南與防護機制。
  • 如何存取 GPT Audio 1.5 API

步驟 1:註冊 API 金鑰

登入 cometapi.com。若您尚未成為我們的使用者,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 中點擊「Add Token」,取得 token key:sk-xxxxx 並提交。

cometapi-key

步驟 2:向 GPT Audio 1.5 API 發送請求

選擇「gpt-audio-1.5」端點以發送 API 請求,並設定 request body。請求方法與 request body 可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試供您使用。請將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。base url 為 Chat Completions

將您的問題或請求插入 content 欄位——模型將針對此內容進行回應。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題