Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

輸入:$2/M
輸出:$8/M
搭配 Chat Completions 進行音訊輸入、音訊輸出的最佳語音模型。
新
商業用途
概覽
功能
定價
API

gpt-audio-1.5 的技術規格

項目gpt-audio-1.5(公開規格)
模型家族GPT Audio 家族(音訊優先變體)
輸入類型文字,音訊(語音輸入)
輸出類型文字,音訊(語音輸出),結構化輸出(支援函式呼叫)
上下文視窗128,000 個 token。
最大輸出 token16,384(在相關 gpt-audio 清單中有記載)。
效能等級較高智慧;中等速度(平衡)。
延遲特性針對語音互動最佳化(中/低延遲,取決於端點)。
可用性Chat Completions API(音訊輸入/輸出)與平台試玩環境;整合於即時/語音介面。
安全 / 使用注意事項對語音內容設置護欄;在生產級語音代理中,請以常規的安全與驗證來對待模型輸出。

注意:gpt-realtime-1.5 是一個密切相關的即時音訊/語音優先變體,針對較低延遲與即時會話進行最佳化;詳見下方比較。


什麼是 gpt-audio-1.5?

gpt-audio-1.5 是一個具備音訊能力的 GPT 模型,透過 Chat Completions 與相關具備音訊能力的 API,同時支援語音輸入與語音輸出。它定位為主要、普遍可用的音訊模型,用於打造語音代理與語音優先體驗,並在品質與速度間取得平衡。


主要功能

  1. 支援語音輸入/輸出: 能夠處理口語輸入並回傳語音或文字回應,實現自然的語音互動流程。
  2. 大型上下文(適用於音訊工作流程): 支援超大上下文(記載為 128k token),可用於多輪、長對話歷史或大型多模態會話。
  3. 串流與 Chat Completions 相容性: 支援在 Chat Completions 中產生串流音訊回應與函式呼叫的結構化輸出。
  4. 性能/延遲平衡: 經過調校以在中等吞吐量下提供高品質音訊回應——適合重視品質的聊天機器人與語音助理。
  5. 生態系與整合: 在平台試玩環境中提供支援,並可用於官方即時/語音端點與合作夥伴整合(Azure/Microsoft Foundry 說明提及相似的音訊模型)。

gpt-audio-1.5 與相關音訊模型的比較

屬性gpt-audio-1.5gpt-realtime-1.5
主要側重針對 Chat Completions 與對話流程的高品質音訊輸入/輸出。即時 S2S(語音到語音),以較低延遲支援即時語音代理與串流情境。
上下文視窗128k token。32k token(即時變體有記載)。
最大輸出 token 數16,384(有記載)。通常配置為較短的即時回應(文件列出較小的最大 token 數)。
最佳用途需要完整聊天語義與音訊的聊天機器人、語音助理。即時語音代理、自助服務亭(kiosk)、低延遲對話介面。

代表性使用案例

  • 客戶支援與內部服務台的對話式語音代理。
  • 嵌入於應用程式、裝置與自助服務亭的語音助理。
  • 免手操作流程(聽寫、語音搜尋、無障礙)。
  • 透過 Chat Completions 混合音訊與文字/圖像的多模態體驗。

限制與營運考量

  • 並非人為 QA 的即插即用替代品: 在生產流程中,務必以人工審核驗證語音輸出與後續動作。
  • 資源規劃: 大型上下文與音訊 I/O 可能增加運算與延遲——為長時段會話設計串流/分段策略。
  • 安全與政策限制: 語音輸出具有說服力;大規模部署時請遵循平台安全指引與防護措施。
  • 如何存取 GPT Audio 1.5 API

步驟 1:註冊取得 API 金鑰

登入 cometapi.com。若您尚非我們的用戶,請先註冊。登入您的 CometAPI console。獲取介面的存取憑證 API 金鑰。在個人中心的 API token 處點擊“Add Token”,取得 token 金鑰:sk-xxxxx 並送出。

cometapi-key

步驟 2:向 GPT Audio 1.5 API 發送請求

選擇“gpt-audio-1.5”端點發送 API 請求並設定請求本文。請求方法與本文可從我們的網站 API 文件獲得。我們的網站亦提供 Apifox 測試以供參考。將 <YOUR_API_KEY> 替換為您帳戶中的實際 CometAPI 金鑰。基本 URL 為 Chat Completions

將您的問題或請求插入 content 欄位——模型會對該內容做出回應。處理 API 回應以取得生成的答案。

步驟 3:擷取並驗證結果

處理 API 回應以取得生成的答案。處理完成後,API 會回傳任務狀態與輸出資料。

常見問題

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 supports a 128,000-token context window and documents list a max output token configuration around 16,384; verify exact limits per endpoint in the developer docs. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Yes — it accepts audio inputs and can return audio outputs or textual responses via the Chat Completions/audio endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Choose gpt-audio-1.5 for higher-quality audio in Chat Completions flows where larger context is required; choose gpt-realtime-1.5 for low-latency, live streaming voice interactions. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Yes — the model supports streaming audio responses and structured outputs/function calling to integrate external tools and workflows. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Yes — it's designed for voice assistants and conversational agents, but you should add human review/QA, logging, and safety controls before production deployment. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Key considerations are compute/latency tradeoffs for large context audio sessions, safety guardrails for voice content, and the need to validate ASR/TTS outputs in your domain. :contentReference[oaicite:49]{index=49}

gpt-audio-1.5 的功能

探索 gpt-audio-1.5 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

gpt-audio-1.5 的定價

探索 gpt-audio-1.5 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 gpt-audio-1.5 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$2/M
輸出:$8/M
輸入:$2.5/M
輸出:$10/M
-20%

gpt-audio-1.5 的範例程式碼和 API

存取完整的範例程式碼和 API 資源,以簡化您的 gpt-audio-1.5 整合流程。我們詳盡的文件提供逐步指引,協助您在專案中充分發揮 gpt-audio-1.5 的潛力。
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

更多模型