gpt-audio-1.5 的技術規格
| 項目 | gpt-audio-1.5(公開規格) |
|---|---|
| 模型家族 | GPT Audio 家族(音訊優先變體) |
| 輸入類型 | 文字,音訊(語音輸入) |
| 輸出類型 | 文字,音訊(語音輸出),結構化輸出(支援函式呼叫) |
| 上下文視窗 | 128,000 個 token。 |
| 最大輸出 token | 16,384(在相關 gpt-audio 清單中有記載)。 |
| 效能等級 | 較高智慧;中等速度(平衡)。 |
| 延遲特性 | 針對語音互動最佳化(中/低延遲,取決於端點)。 |
| 可用性 | Chat Completions API(音訊輸入/輸出)與平台試玩環境;整合於即時/語音介面。 |
| 安全 / 使用注意事項 | 對語音內容設置護欄;在生產級語音代理中,請以常規的安全與驗證來對待模型輸出。 |
注意:
gpt-realtime-1.5是一個密切相關的即時音訊/語音優先變體,針對較低延遲與即時會話進行最佳化;詳見下方比較。
什麼是 gpt-audio-1.5?
gpt-audio-1.5 是一個具備音訊能力的 GPT 模型,透過 Chat Completions 與相關具備音訊能力的 API,同時支援語音輸入與語音輸出。它定位為主要、普遍可用的音訊模型,用於打造語音代理與語音優先體驗,並在品質與速度間取得平衡。
主要功能
- 支援語音輸入/輸出: 能夠處理口語輸入並回傳語音或文字回應,實現自然的語音互動流程。
- 大型上下文(適用於音訊工作流程): 支援超大上下文(記載為 128k token),可用於多輪、長對話歷史或大型多模態會話。
- 串流與 Chat Completions 相容性: 支援在 Chat Completions 中產生串流音訊回應與函式呼叫的結構化輸出。
- 性能/延遲平衡: 經過調校以在中等吞吐量下提供高品質音訊回應——適合重視品質的聊天機器人與語音助理。
- 生態系與整合: 在平台試玩環境中提供支援,並可用於官方即時/語音端點與合作夥伴整合(Azure/Microsoft Foundry 說明提及相似的音訊模型)。
gpt-audio-1.5 與相關音訊模型的比較
| 屬性 | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| 主要側重 | 針對 Chat Completions 與對話流程的高品質音訊輸入/輸出。 | 即時 S2S(語音到語音),以較低延遲支援即時語音代理與串流情境。 |
| 上下文視窗 | 128k token。 | 32k token(即時變體有記載)。 |
| 最大輸出 token 數 | 16,384(有記載)。 | 通常配置為較短的即時回應(文件列出較小的最大 token 數)。 |
| 最佳用途 | 需要完整聊天語義與音訊的聊天機器人、語音助理。 | 即時語音代理、自助服務亭(kiosk)、低延遲對話介面。 |
代表性使用案例
- 客戶支援與內部服務台的對話式語音代理。
- 嵌入於應用程式、裝置與自助服務亭的語音助理。
- 免手操作流程(聽寫、語音搜尋、無障礙)。
- 透過 Chat Completions 混合音訊與文字/圖像的多模態體驗。
限制與營運考量
- 並非人為 QA 的即插即用替代品: 在生產流程中,務必以人工審核驗證語音輸出與後續動作。
- 資源規劃: 大型上下文與音訊 I/O 可能增加運算與延遲——為長時段會話設計串流/分段策略。
- 安全與政策限制: 語音輸出具有說服力;大規模部署時請遵循平台安全指引與防護措施。
- 如何存取 GPT Audio 1.5 API
步驟 1:註冊取得 API 金鑰
登入 cometapi.com。若您尚非我們的用戶,請先註冊。登入您的 CometAPI console。獲取介面的存取憑證 API 金鑰。在個人中心的 API token 處點擊“Add Token”,取得 token 金鑰:sk-xxxxx 並送出。

步驟 2:向 GPT Audio 1.5 API 發送請求
選擇“gpt-audio-1.5”端點發送 API 請求並設定請求本文。請求方法與本文可從我們的網站 API 文件獲得。我們的網站亦提供 Apifox 測試以供參考。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI 金鑰。基本 URL 為 Chat Completions
將您的問題或請求插入 content 欄位——模型會對該內容做出回應。處理 API 回應以取得生成的答案。
步驟 3:擷取並驗證結果
處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。