GPT-4o 即時 API: 低延遲、多模式串流端點,允許開發人員透過 WebRTC 或 WebSocket 發送和接收同步文字、音訊和視覺資料(模型=gpt-4o-realtime-preview-<date>, stream=true) 用於互動式即時應用程式。
基本資訊和功能
OpenAI的 GPT-4o 實時 (型號編號: GPT-4O-即時預覽-2025-06-03) 是第一個公開可用的基礎模型,專為 端對端語音到語音(S2S) 與互動 亞秒延遲。源自「全能」 GPT-4o 家族的 Realtime 變體融合了 語音辨識、自然語言推理與神經文本轉語音 整合到一個網路中,讓開發者能夠建立像人類一樣流暢對話的語音代理。該模型透過專門建造的 即時API 並與新的 即時代理 內在的抽象 代理 SDK (TypeScript 和 Python)。
核心功能集 — 端對端 S2S • 中斷處理 • 工具調用
• 母語語音轉語音: 音頻輸入以連續流的形式被提取,經過內部標記、推理,最終返回合成語音。無需外部 STT/TTS 緩衝區,從而消除了數秒的管線延遲。
• 毫秒延遲: 架構修剪、模型蒸餾和 GPU 最佳化的服務堆疊使 第一個令牌延遲約為 300–500 毫秒 在典型的雲端部署中,接近人類對話輪流規範。
• 強大的指令遵循能力: GPT-4o Realtime 針對對話腳本和函數呼叫軌跡進行了微調,演示了 任務執行錯誤減少 25% 以上 與 2024 年 4 月的 GPT-XNUMXo 基線相比。
• 確定性工具呼叫: 此模型生成符合 OpenAI 的結構化 JSON 函數呼叫模式,允許確定性地呼叫後端 API(預訂系統、資料庫、物聯網)。內建錯誤感知重試和參數驗證功能。
• 優雅的打斷: 即時語音活動偵測器與增量解碼相結合,使代理程式能夠 說話時停頓,接收用戶中斷,並無縫恢復或重新計劃回應。
• 可設定的語速: 速度 參數(0.25-4×即時)讓開發人員可以根據可訪問性或快速應用程式自訂輸出節奏。
技術架構 — 統一多模態變換器
統一編碼器-解碼器: GPT-4o Realtime 共享 omni 架構的 單堆變壓器 音訊、文字和(未來)願景標記共存於一個潛在空間。逐層自適應計算將音訊幀直接快速傳輸到後續的注意力模組,每次傳輸可節省 20-40 毫秒。
分層音訊標記化: 原始 16 kHz PCM 被分塊成 log-mel 塊 → 量化成粗粒度的聲學標記 → 壓縮成語意標記,從而最佳化 每秒令牌數 預算而不犧牲韻律。
低位推理內核: 部署的權重運行於 4位NF4量化 透過 Triton / TensorRT-LLM 內核,與 fp16 相比吞吐量翻倍,同時保持 <1 dB MOS 品質損失。
串流關注: 滑動視窗旋轉嵌入和鍵值快取允許模型使用 O(L) 記憶體關注最後 15 秒的音頻,這對於電話長度的對話至關重要。
技術細節
- API版本:
2025-06-03-preview - 傳輸協定:
- 實現WebRTC:客戶端音訊/視訊串流的超低延遲(<80毫秒)
- WebSocket的:伺服器到伺服器的串流傳輸,延遲低於 100 毫秒
- 數據編碼:
- 作品 編解碼器內 RTP 音訊資料包
- H.264 / H.265 影片的幀包裝器
- 流:支持
stream: true交付 增量 產生令牌時的部分回應 - 新的聲音調色板:引入八個新聲音—合金, 灰, 民謠, 珊瑚, 錯過, 聖人, 發微光和 詩—更多信息 表達的, 像人的 互動..
GPT-4o 即時演進
- 2024 年 5 月: GPT-4o Omni 首次推出文字、音訊和視覺的多模式支援。
- 2024 年 10 月: 即時API 進入私人測試版(
2024-10-01-preview),針對低延遲音訊進行了最佳化。 - 2024 年 12 月:擴大全球可用性
gpt-4o-realtime-preview-2024-12-17,添加 提示快取 以及更多的聲音。 - 2025 年 6 月 3 日: 最新更新 (
2025-06-03-preview)推出精煉 語音調色板 和性能優化。
基準性能
- 百萬美元: 88.7,超過了 GPT-4 的 86.5 大規模多工語言理解 .
- 語音識別:實現 行業領先 吵雜環境中的單字錯誤率超過 耳語 基線。
- 延遲測試:
- 全方位 (語音輸入→文字輸出): 50–80 毫秒 透過 WebRTC
- 往返音訊 (語音輸入 → 語音輸出): <100毫秒 .
技術指標
- 倉庫工作量統計:維持 15 個令牌/秒 對於文字流; 24 kbps的 音頻作品。
- 定價:
- 文本:每 5 萬個輸入令牌 1 美元;每 20 萬個輸出令牌 1 美元
- 音頻:每 100 萬個輸入令牌 1 美元;每 200 萬個輸出令牌 1 美元。
- 庫存情況:在全球所有支援即時 API 的地區部署。
如何從 CometAPI 呼叫 GPT-4o 即時 API
GPT-4o Realtime CometAPI 中的 API 定價:
- 輸入代幣:2 美元/百萬個代幣
- 輸出代幣:8 美元/百萬代幣
所需步驟
- 登錄到 cometapi.com。如果您還不是我們的用戶,請先註冊
- 取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”,取得Token金鑰:sk-xxxxx並提交。
- 取得此網站的 URL: https://api.cometapi.com/
使用方法
- 選擇“
gpt-4o-realtime-preview-2025-06-03「端點傳送請求並設定請求體。請求方法和請求體可從我們網站的API文件取得。為了方便您使用,我們網站也提供了Apifox測試。 - 代替使用您帳戶中的實際 CometAPI 金鑰。
- 將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
- 。處理 API 回應以取得產生的答案。
有關 Comet API 中的模型存取信息,請參閱 API 文件.
有關 Comet API 中的模型價格信息,請參閱 https://api.cometapi.com/pricing.
範例程式碼和 API 集成
import openai
openai.api_key = "YOUR_API_KEY"
# Establish a Realtime WebRTC connection
connection = openai.Realtime.connect(
model="gpt-4o-realtime-preview-2025-06-03",
version="2025-06-03-preview",
transport="webrtc"
)
# Stream audio frames and receive incremental text
with open("user_audio.raw", "rb") as audio_stream:
for chunk in iter(lambda: audio_stream.read(2048), b""):
result = connection.send_audio(chunk)
print("Assistant:", result)
- 關鍵參數:
model: “GPT-4O-即時預覽-2025-06-03”version: “2025-06-03-預覽”transport: “webrtc” 對於 最小延遲stream:true對於 增量 更新
通過結合 國家的最先進的 多模態推理 健壯 新的語音調色板,以及 超低 延遲流, GPT-4o 實時 (2025-06-03) 賦能開發者建構真正 互動, 對話的 人工智慧應用。
參見 o3-Pro API
安全與合規
OpenAI 推出的 GPT-4o Realtime 版本包含:
• 系統等級護欄: 調整政策以拒絕不允許的請求(極端主義、非法行為)。
• 即時內容過濾: 低於 100 毫秒的分類器在發射之前篩選使用者輸入和模型輸出。
• 人工批准路徑: 在高風險工具呼叫(付款、法律諮詢)時觸發,利用 Agents SDK 的新核准原語。

