`gpt-4o-mini-audio-preview` 的技術規格

規格	詳細資訊
模型 ID	`gpt-4o-mini-audio-preview`
模型類型	輕量化多模態音訊預覽模型
核心模態	文字輸入/輸出、語音輸入、語音輸出
主要互動模式	以聊天為基礎的互動，支援多模態訊息內容
音訊能力	語音辨識、語音合成、文字與音訊混合對話
串流支援	是，適用於即時對話流程
工具／函式呼叫	支援結構化動作與工作流程整合
最適用於	語音助理、串流轉錄、IVR、呼叫機器人工作流程、應用程式內音訊助理
互動風格	可遵循指示的對話模型，支援多模態輪次
整合模式	透過 CometAPI 使用 `gpt-4o-mini-audio-preview` 模型 ID 進行 API 存取

什麼是 `gpt-4o-mini-audio-preview`？

gpt-4o-mini-audio-preview 是一款為希望打造對話式音訊體驗的開發者而設計的輕量化多模態模型。除了標準的文字互動之外，它同時支援語音輸入與語音輸出，非常適合用戶以自然語音交流並期望獲得語音或文字回覆的應用程式。

當產品需要在單一對話循環中結合自動語音辨識、自然語言理解與語音合成時，此模型特別有用。gpt-4o-mini-audio-preview 讓文字與音訊混合的對話可以以統一的流程進行，而非將轉錄、推理與回應生成視為彼此獨立的元件。

由於它同時支援工具與函式呼叫，模型不僅能進行對話。它還能觸發結構化動作，例如查詢帳戶資訊、分派客服請求、更新紀錄，或在大型應用程式中呼叫商業邏輯。因此，它非常適合用於生產級語音系統，例如虛擬助理、電話客服代理、互動式語音回應系統、含摘要的轉錄管線，以及支援音訊的產品助理。

`gpt-4o-mini-audio-preview` 的主要特性

語音輸入支援：接受以音訊為主的使用者互動，讓應用程式能自然地處理口語請求。
語音輸出生成：為助理、呼叫自動化與語音導引體驗產生音訊回應。
文字與音訊混合對話：支援部分輪次為語音、部分為文字的流程，適用於混合式介面。
輕量化多模態設計：以較輕量的模型規模提供音訊能力，適合需快速回應的應用。
串流回應：支援低延遲、即時體驗，如即時助理與串流轉錄系統。
工具／函式呼叫：讓模型能呼叫結構化工具或商業函式，處理超越開放式對話的任務。
遵循指示：依循應用層面的指引，使回應與產品行為與流程需求保持一致。
轉錄與摘要工作流程：有助於將口語互動轉為結構化文字輸出、摘要或後續動作。
適用 IVR 與呼叫機器人：適合以語音互動與任務分派為核心的客服與電信情境。
應用程式內音訊助理：可嵌入需語音協助、導覽或引導操作的軟體產品中。

如何存取並整合 `gpt-4o-mini-audio-preview`

步驟 1：註冊取得 API 金鑰

要開始使用 gpt-4o-mini-audio-preview，請先在 CometAPI 建立帳戶，並在儀表板產生 API 金鑰。此金鑰用於驗證每個請求，安全地將您的應用程式連線到該模型。

步驟 2：向 `gpt-4o-mini-audio-preview` API 發送請求

使用 CometAPI 與 OpenAI 相容的端點，且支援音訊輸入/輸出。

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

步驟 3：擷取並驗證結果

API 會回傳標準的聊天完成回應，並包含額外的 audio 欄位，其中為以 base64 編碼的音訊輸出。在投入正式環境前，請解碼音訊資料並驗證品質。

`gpt-4o-mini-audio-preview` 的技術規格

規格	詳細資訊
模型 ID	`gpt-4o-mini-audio-preview`
模型類型	輕量化多模態音訊預覽模型
核心模態	文字輸入/輸出、語音輸入、語音輸出
主要互動模式	以聊天為基礎的互動，支援多模態訊息內容
音訊能力	語音辨識、語音合成、文字與音訊混合對話
串流支援	是，適用於即時對話流程
工具／函式呼叫	支援結構化動作與工作流程整合
最適用於	語音助理、串流轉錄、IVR、呼叫機器人工作流程、應用程式內音訊助理
互動風格	可遵循指示的對話模型，支援多模態輪次
整合模式	透過 CometAPI 使用 `gpt-4o-mini-audio-preview` 模型 ID 進行 API 存取

什麼是 `gpt-4o-mini-audio-preview`？

`gpt-4o-mini-audio-preview` 的主要特性

語音輸入支援：接受以音訊為主的使用者互動，讓應用程式能自然地處理口語請求。
語音輸出生成：為助理、呼叫自動化與語音導引體驗產生音訊回應。
文字與音訊混合對話：支援部分輪次為語音、部分為文字的流程，適用於混合式介面。
輕量化多模態設計：以較輕量的模型規模提供音訊能力，適合需快速回應的應用。
串流回應：支援低延遲、即時體驗，如即時助理與串流轉錄系統。
工具／函式呼叫：讓模型能呼叫結構化工具或商業函式，處理超越開放式對話的任務。
遵循指示：依循應用層面的指引，使回應與產品行為與流程需求保持一致。
轉錄與摘要工作流程：有助於將口語互動轉為結構化文字輸出、摘要或後續動作。
適用 IVR 與呼叫機器人：適合以語音互動與任務分派為核心的客服與電信情境。
應用程式內音訊助理：可嵌入需語音協助、導覽或引導操作的軟體產品中。

如何存取並整合 `gpt-4o-mini-audio-preview`

步驟 1：註冊取得 API 金鑰

步驟 2：向 `gpt-4o-mini-audio-preview` API 發送請求

使用 CometAPI 與 OpenAI 相容的端點，且支援音訊輸入/輸出。

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

步驟 3：擷取並驗證結果

API 會回傳標準的聊天完成回應，並包含額外的 audio 欄位，其中為以 base64 編碼的音訊輸出。在投入正式環境前，請解碼音訊資料並驗證品質。

GPT-4o mini Audio Preview

`gpt-4o-mini-audio-preview` 的技術規格

什麼是 `gpt-4o-mini-audio-preview`？

`gpt-4o-mini-audio-preview` 的主要特性

如何存取並整合 `gpt-4o-mini-audio-preview`

步驟 1：註冊取得 API 金鑰

步驟 2：向 `gpt-4o-mini-audio-preview` API 發送請求

步驟 3：擷取並驗證結果

GPT-4o mini Audio Preview 的定價

GPT-4o mini Audio Preview 的範例程式碼和 API

GPT-4o mini Audio Preview的版本

GPT-4o mini Audio Preview

`gpt-4o-mini-audio-preview` 的技術規格

什麼是 `gpt-4o-mini-audio-preview`？

`gpt-4o-mini-audio-preview` 的主要特性

如何存取並整合 `gpt-4o-mini-audio-preview`

步驟 1：註冊取得 API 金鑰

步驟 2：向 `gpt-4o-mini-audio-preview` API 發送請求

步驟 3：擷取並驗證結果

GPT-4o mini Audio Preview 的定價

GPT-4o mini Audio Preview 的範例程式碼和 API

GPT-4o mini Audio Preview的版本

version
gpt-4o-mini-audio-preview
gpt-4o-mini-audio-preview-2024-12-17

version
gpt-4o-mini-audio-preview
gpt-4o-mini-audio-preview-2024-12-17

GPT-4o mini Audio Preview

gpt-4o-mini-audio-preview 的技術規格

什麼是 gpt-4o-mini-audio-preview？

gpt-4o-mini-audio-preview 的主要特性

如何存取並整合 gpt-4o-mini-audio-preview

步驟 1：註冊取得 API 金鑰

步驟 2：向 gpt-4o-mini-audio-preview API 發送請求

步驟 3：擷取並驗證結果

GPT-4o mini Audio Preview 的定價

GPT-4o mini Audio Preview 的範例程式碼和 API

GPT-4o mini Audio Preview的版本

GPT-4o mini Audio Preview

gpt-4o-mini-audio-preview 的技術規格

什麼是 gpt-4o-mini-audio-preview？

gpt-4o-mini-audio-preview 的主要特性

如何存取並整合 gpt-4o-mini-audio-preview

步驟 1：註冊取得 API 金鑰

步驟 2：向 gpt-4o-mini-audio-preview API 發送請求

步驟 3：擷取並驗證結果

GPT-4o mini Audio Preview 的定價

GPT-4o mini Audio Preview 的範例程式碼和 API

GPT-4o mini Audio Preview的版本

`gpt-4o-mini-audio-preview` 的技術規格

什麼是 `gpt-4o-mini-audio-preview`？

`gpt-4o-mini-audio-preview` 的主要特性

如何存取並整合 `gpt-4o-mini-audio-preview`

步驟 2：向 `gpt-4o-mini-audio-preview` API 發送請求

`gpt-4o-mini-audio-preview` 的技術規格

什麼是 `gpt-4o-mini-audio-preview`？

`gpt-4o-mini-audio-preview` 的主要特性

如何存取並整合 `gpt-4o-mini-audio-preview`

步驟 2：向 `gpt-4o-mini-audio-preview` API 發送請求