gpt-audio-1.5 的技術規格
| 項目 | gpt-audio-1.5(公開規格) |
|---|---|
| 模型家族 | GPT Audio 家族(音訊優先變體) |
| 輸入類型 | 文字、音訊(語音輸入) |
| 輸出類型 | 文字、音訊(語音輸出)、結構化輸出(支援函式呼叫) |
| 上下文視窗 | 128,000 tokens。 |
| 最大輸出 tokens | 16,384(於相關 gpt-audio 清單中有文件記載)。 |
| 效能層級 | 較高智慧;中等速度(平衡型)。 |
| 延遲特性 | 針對語音互動進行最佳化(依端點而定,為中/低延遲)。 |
| 可用性 | Chat Completions API(音訊輸入/輸出)與平台 playground;整合於 realtime/voice 相關介面中。 |
| 安全性/使用注意事項 | 針對語音內容設有防護機制;在生產級語音代理中,仍應依一般安全與驗證流程審慎處理模型輸出。 |
注意:
gpt-realtime-1.5是一個密切相關的即時音訊/語音優先變體,針對更低延遲與即時工作階段進行最佳化;請見下方比較。
什麼是 gpt-audio-1.5?
gpt-audio-1.5 是一個具備音訊能力的 GPT 模型,支援透過 Chat Completions 與相關音訊 API 進行語音輸入與語音輸出。它被定位為建構語音代理與語音優先體驗的主要通用可用音訊模型,同時兼顧品質與速度。
主要功能
- 語音輸入/語音輸出支援: 可處理口語輸入,並回傳語音或文字回應,以實現自然的語音互動流程。
- 適用於音訊工作流程的大型上下文: 支援非常大的上下文(文件記載為 128k tokens),可支援多輪對話、長對話歷史或大型多模態工作階段。
- 串流與 Chat Completions 相容性: 可在 Chat Completions 中運作,支援串流音訊回應與函式呼叫結構化輸出。
- 平衡的效能/延遲: 針對在中等吞吐量下提供高品質音訊回應進行調校——適合重視品質的聊天機器人與語音助理。
- 生態系與整合: 支援平台 playground,並可於官方 realtime/voice 端點與合作夥伴整合中使用(Azure/Microsoft Foundry 的說明中也提及類似音訊模型)。
gpt-audio-1.5 與相關音訊模型比較
| 屬性 | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| 主要定位 | 用於 Chat Completions 與對話流程的高品質音訊輸入/輸出。 | 用於即時語音代理與串流情境的低延遲 Realtime S2S(speech-to-speech)。 |
| 上下文視窗 | 128k tokens。 | 32k tokens(文件記載的即時變體)。 |
| 最大輸出 tokens | 16,384(有文件記載)。 | 通常設定為較短的即時回應(文件列出較小的最大 tokens)。 |
| 最佳使用情境 | 需要完整聊天語義加上音訊能力的聊天機器人與語音助理。 | 即時語音代理、資訊亭與低延遲對話介面。 |
代表性使用案例
- 用於客服與內部服務台的對話式語音代理。
- 內嵌於應用程式、裝置與資訊亭中的語音助理。
- 免手持工作流程(聽寫、語音搜尋、無障礙存取)。
- 透過 Chat Completions 混合音訊與文字/圖片的多模態體驗。
限制與操作注意事項
- 不能直接取代人工 QA: 在生產流程中,應始終以人工審核驗證語音輸出與下游動作。
- 資源規劃: 大型上下文與音訊 I/O 可能增加運算需求與延遲——請為長時間工作階段設計串流/分段策略。
- 安全與政策限制: 語音輸出可能具有說服力;大規模部署時請遵循平台安全指南與防護機制。
- 如何存取 GPT Audio 1.5 API
步驟 1:註冊 API 金鑰
登入 cometapi.com。若您尚未成為我們的使用者,請先註冊。登入您的 CometAPI console。取得介面的存取憑證 API key。在個人中心的 API token 中點擊「Add Token」,取得 token key:sk-xxxxx 並提交。

步驟 2:向 GPT Audio 1.5 API 發送請求
選擇「gpt-audio-1.5」端點以發送 API 請求,並設定 request body。請求方法與 request body 可從我們網站的 API 文件取得。我們的網站也提供 Apifox 測試供您使用。請將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI key。base url 為 Chat Completions
將您的問題或請求插入 content 欄位——模型將針對此內容進行回應。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。