`gpt-4o-mini-realtime-preview` 的技術規格

規格	詳細資訊
模型 ID	`gpt-4o-mini-realtime-preview`
提供方	OpenAI via CometAPI
模態	文字、音訊、影像
輸入類型	串流音訊、文字訊息、影像輸入
輸出類型	串流文字、合成/串流音訊、結構化函式呼叫
核心優勢	低延遲互動、多模態理解、即時對話、工具使用
最佳適用	語音助理、即時支援通話、字幕生成、視覺問答、互動代理
函式呼叫	支援
串流	支援
即時工作階段	支援
典型互動模式	具有增量輸入與輸出的持續雙向工作階段

什麼是 `gpt-4o-mini-realtime-preview`？

gpt-4o-mini-realtime-preview 是一款為快速、互動式體驗而設計的即時多模態模型，用於使用者透過語音、文字或視覺輸入進行交流並期望即時回應的情境。它非常適合需要即時來回互動、而非標準單輪請求/回應流程的應用。

該模型能在同一體驗中同時處理語音、文字與影像，使其可用於助理在通話中聆聽來電者、檢視螢幕或相機內容，並以自然語言或音訊回應。由於支援輸入與輸出的串流，開發者可以在持續互動期間提供更即時的回饋，而不必等待完整的結果產生。

它同時支援工具或函式呼叫，讓模型能觸發結構化動作，例如查詢資料、呼叫後端服務或執行工作流程步驟。這使得 gpt-4o-mini-realtime-preview 成為在客戶支援、營運、生產力與多模態助理場景中，具備實作能力且可落地的動作導向代理的理想選擇。

`gpt-4o-mini-realtime-preview` 的主要功能

即時多模態互動：可在語音、文字與影像間收發訊息，提供流暢的即時體驗。
雙向音訊：支援對話式語音介面，可串流輸入音訊並串流回傳回應。
串流回應：以增量方式輸出部分結果，降低感知延遲、提升回應速度。
視覺理解：能在即時工作階段中解讀相機畫面、螢幕截圖或其他影像。
函式與工具呼叫：輸出結構化呼叫，讓應用程式連接商業邏輯、資料庫或外部工具。
互動代理行為：在主動工作階段中維持逐輪上下文，適合需要連續互動的助理。
即時通話處理：適用於電話或網路通話場景，快速理解語音並即刻回應。
即時字幕與轉錄流程：可在近即時情況下將持續語音轉為可用文字。
動作的結構化輸出：協助應用將對話意圖轉化為可靠的機器可讀指令。
低延遲使用者體驗：針對重視回應速度的場景（如支援、教練、監控、引導式流程）進行優化。

如何存取與整合 `gpt-4o-mini-realtime-preview`

步驟 1：註冊並取得 API 金鑰

首先，在 CometAPI 建立帳號，並從儀表板產生 API 金鑰。此金鑰用於驗證每個請求。請安全儲存，避免將其暴露於用戶端程式碼或公開儲存庫。

步驟 2：連線至 `gpt-4o-mini-realtime-preview` API

Realtime API 使用 WebSocket 連線。連線至 CometAPI 的 WebSocket 端點：

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-mini-realtime-preview",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

步驟 3：擷取並驗證結果

Realtime API 會透過 WebSocket 連線以伺服器傳送事件的形式串流回應。針對音訊輸出監聽 response.audio.delta 事件，針對文字監聽 response.text.delta。驗證工作階段是否已建立，並確認回應是否正確地以串流方式傳送。

`gpt-4o-mini-realtime-preview` 的技術規格

規格	詳細資訊
模型 ID	`gpt-4o-mini-realtime-preview`
提供方	OpenAI via CometAPI
模態	文字、音訊、影像
輸入類型	串流音訊、文字訊息、影像輸入
輸出類型	串流文字、合成/串流音訊、結構化函式呼叫
核心優勢	低延遲互動、多模態理解、即時對話、工具使用
最佳適用	語音助理、即時支援通話、字幕生成、視覺問答、互動代理
函式呼叫	支援
串流	支援
即時工作階段	支援
典型互動模式	具有增量輸入與輸出的持續雙向工作階段

什麼是 `gpt-4o-mini-realtime-preview`？

`gpt-4o-mini-realtime-preview` 的主要功能

即時多模態互動：可在語音、文字與影像間收發訊息，提供流暢的即時體驗。
雙向音訊：支援對話式語音介面，可串流輸入音訊並串流回傳回應。
串流回應：以增量方式輸出部分結果，降低感知延遲、提升回應速度。
視覺理解：能在即時工作階段中解讀相機畫面、螢幕截圖或其他影像。
函式與工具呼叫：輸出結構化呼叫，讓應用程式連接商業邏輯、資料庫或外部工具。
互動代理行為：在主動工作階段中維持逐輪上下文，適合需要連續互動的助理。
即時通話處理：適用於電話或網路通話場景，快速理解語音並即刻回應。
即時字幕與轉錄流程：可在近即時情況下將持續語音轉為可用文字。
動作的結構化輸出：協助應用將對話意圖轉化為可靠的機器可讀指令。
低延遲使用者體驗：針對重視回應速度的場景（如支援、教練、監控、引導式流程）進行優化。

如何存取與整合 `gpt-4o-mini-realtime-preview`

步驟 1：註冊並取得 API 金鑰

首先，在 CometAPI 建立帳號，並從儀表板產生 API 金鑰。此金鑰用於驗證每個請求。請安全儲存，避免將其暴露於用戶端程式碼或公開儲存庫。

步驟 2：連線至 `gpt-4o-mini-realtime-preview` API

Realtime API 使用 WebSocket 連線。連線至 CometAPI 的 WebSocket 端點：

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-mini-realtime-preview",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

GPT-4o mini Realtime Preview

`gpt-4o-mini-realtime-preview` 的技術規格

什麼是 `gpt-4o-mini-realtime-preview`？

`gpt-4o-mini-realtime-preview` 的主要功能

如何存取與整合 `gpt-4o-mini-realtime-preview`

步驟 1：註冊並取得 API 金鑰

步驟 2：連線至 `gpt-4o-mini-realtime-preview` API

步驟 3：擷取並驗證結果

GPT-4o mini Realtime Preview 的定價

GPT-4o mini Realtime Preview 的範例程式碼和 API

GPT-4o mini Realtime Preview的版本

GPT-4o mini Realtime Preview

`gpt-4o-mini-realtime-preview` 的技術規格

什麼是 `gpt-4o-mini-realtime-preview`？

`gpt-4o-mini-realtime-preview` 的主要功能

如何存取與整合 `gpt-4o-mini-realtime-preview`

步驟 1：註冊並取得 API 金鑰

步驟 2：連線至 `gpt-4o-mini-realtime-preview` API

步驟 3：擷取並驗證結果

GPT-4o mini Realtime Preview 的定價

GPT-4o mini Realtime Preview 的範例程式碼和 API

GPT-4o mini Realtime Preview的版本

version
gpt-4o-mini-realtime-preview
gpt-4o-mini-realtime-preview-2024-12-17

version
gpt-4o-mini-realtime-preview
gpt-4o-mini-realtime-preview-2024-12-17

GPT-4o mini Realtime Preview

gpt-4o-mini-realtime-preview 的技術規格

什麼是 gpt-4o-mini-realtime-preview？

gpt-4o-mini-realtime-preview 的主要功能

如何存取與整合 gpt-4o-mini-realtime-preview

步驟 1：註冊並取得 API 金鑰

步驟 2：連線至 gpt-4o-mini-realtime-preview API

步驟 3：擷取並驗證結果

GPT-4o mini Realtime Preview 的定價

GPT-4o mini Realtime Preview 的範例程式碼和 API

GPT-4o mini Realtime Preview的版本

GPT-4o mini Realtime Preview

gpt-4o-mini-realtime-preview 的技術規格

什麼是 gpt-4o-mini-realtime-preview？

gpt-4o-mini-realtime-preview 的主要功能

如何存取與整合 gpt-4o-mini-realtime-preview

步驟 1：註冊並取得 API 金鑰

步驟 2：連線至 gpt-4o-mini-realtime-preview API

步驟 3：擷取並驗證結果

GPT-4o mini Realtime Preview 的定價

GPT-4o mini Realtime Preview 的範例程式碼和 API

GPT-4o mini Realtime Preview的版本

`gpt-4o-mini-realtime-preview` 的技術規格

什麼是 `gpt-4o-mini-realtime-preview`？

`gpt-4o-mini-realtime-preview` 的主要功能

如何存取與整合 `gpt-4o-mini-realtime-preview`

步驟 2：連線至 `gpt-4o-mini-realtime-preview` API

`gpt-4o-mini-realtime-preview` 的技術規格

什麼是 `gpt-4o-mini-realtime-preview`？

`gpt-4o-mini-realtime-preview` 的主要功能

如何存取與整合 `gpt-4o-mini-realtime-preview`

步驟 2：連線至 `gpt-4o-mini-realtime-preview` API