GPT-4o 即時 API

CometAPI
AnnaJun 11, 2025
GPT-4o 即時 API

GPT-4o 即時 API: 低延遲、多模式串流端點,允許開發人員透過 WebRTC 或 WebSocket 發送和接收同步文字、音訊和視覺資料(模型=gpt-4o-realtime-preview-<date>, stream=true) 用於互動式即時應用程式。


基本資訊和功能

OpenAI的 GPT-4o 實時 (型號編號: GPT-4O-即時預覽-2025-06-03) 是第一個公開可用的基礎模型,專為 端對端語音到語音(S2S) 與互動 亞秒延遲。源自「全能」 GPT-4o 家族的 Realtime 變體融合了 語音辨識、自然語言推理與神經文本轉語音 整合到一個網路中,讓開發者能夠建立像人類一樣流暢對話的語音代理。該模型透過專門建造的 即時API 並與新的 即時代理 內在的抽象 代理 SDK (TypeScript 和 Python)。


核心功能集 — 端對端 S2S • 中斷處理 • 工具調用

• 母語語音轉語音: 音頻輸入以連續流的形式被提取,經過內部標記、推理,最終返回合成語音。無需外部 STT/TTS 緩衝區,從而消除了數秒的管線延遲。
• 毫秒延遲: 架構修剪、模型蒸餾和 GPU 最佳化的服務堆疊使 第一個令牌延遲約為 300–500 毫秒 在典型的雲端部署中,接近人類對話輪流規範。
• 強大的指令遵循能力: GPT-4o Realtime 針對對話腳本和函數呼叫軌跡進行了微調,演示了 任務執行錯誤減少 25% 以上 與 2024 年 4 月的 GPT-XNUMXo 基線相比。
• 確定性工具呼叫: 此模型生成符合 OpenAI 的結構化 JSON 函數呼叫模式,允許確定性地呼叫後端 API(預訂系統、資料庫、物聯網)。內建錯誤感知重試和參數驗證功能。
• 優雅的打斷: 即時語音活動偵測器與增量解碼相結合,使代理程式能夠 說話時停頓,接收用戶中斷,並無縫恢復或重新計劃回應。
• 可設定的語速: 速度 參數(0.25-4×即時)讓開發人員可以根據可訪問性或快速應用程式自訂輸出節奏。


技術架構 — 統一多模態變換器

統一編碼器-解碼器: GPT-4o Realtime 共享 omni 架構的 單堆變壓器 音訊、文字和(未來)願景標記共存於一個潛在空間。逐層自適應計算將音訊幀直接快速傳輸到後續的注意力模組,每次傳輸可節省 20-40 毫秒。

分層音訊標記化: 原始 16 kHz PCM 被分塊成 log-mel 塊 → 量化成粗粒度的聲學標記 → 壓縮成語意標記,從而最佳化 每秒令牌數 預算而不犧牲韻律。

低位推理內核: 部署的權重運行於 4位NF4量化 透過 Triton / TensorRT-LLM 內核,與 fp16 相比吞吐量翻倍,同時保持 <1 dB MOS 品質損失。

串流關注: 滑動視窗旋轉嵌入和鍵值快取允許模型使用 O(L) 記憶體關注最後 15 秒的音頻,這對於電話長度的對話至關重要。


技術細節

  • API版本: 2025-06-03-preview
  • 傳輸協定:
  • 實現WebRTC:客戶端音訊/視訊串流的超低延遲(<80毫秒)
  • WebSocket的:伺服器到伺服器的串流傳輸,延遲低於 100 毫秒
  • 數據編碼:
  • 作品 編解碼器內 RTP 音訊資料包
  • H.264 / H.265 影片的幀包裝器
  • :支持 stream: true 交付 增量 產生令牌時的部分回應
  • 新的聲音調色板:引入八個新聲音—合金, , 民謠, 珊瑚, 錯過, 聖人, 發微光—更多信息 表達的, 像人的 互動..

GPT-4o 即時演進

  • 2024 年 5 月: GPT-4o Omni 首次推出文字、音訊和視覺的多模式支援。
  • 2024 年 10 月: 即時API 進入私人測試版(2024-10-01-preview),針對低延遲音訊進行了最佳化。
  • 2024 年 12 月:擴大全球可用性 gpt-4o-realtime-preview-2024-12-17,添加 提示快取 以及更多的聲音。
  • 2025 年 6 月 3 日: 最新更新 (2025-06-03-preview)推出精煉 語音調色板 和性能優化。

基準性能

  • 百萬美元: 88.7,超過了 GPT-4 的 86.5 大規模多工語言理解 .
  • 語音識別:實現 行業領先 吵雜環境中的單字錯誤率超過 耳語 基線。
  • 延遲測試:
  • 全方位 (語音輸入→文字輸出): 50–80 毫秒 透過 WebRTC
  • 往返音訊 (語音輸入 → 語音輸出): <100毫秒 .

技術指標

  • 倉庫工作量統計:維持 15 個令牌/秒 對於文字流; 24 kbps的 音頻作品。
  • 定價:
  • 文本:每 5 萬個輸入令牌 1 美元;每 20 萬個輸出令牌 1 美元
  • 音頻:每 100 萬個輸入令牌 1 美元;每 200 萬個輸出令牌 1 美元。
  • 庫存情況:在全球所有支援即時 API 的地區部署。

如何從 CometAPI 呼叫 GPT-4o 即時 API

GPT-4o Realtime CometAPI 中的 API 定價:

  • 輸入代幣:2 美元/百萬個代幣
  • 輸出代幣:8 美元/百萬代幣

所需步驟

  • 登錄到 cometapi.com。如果您還不是我們的用戶,請先註冊
  • 取得介面的存取憑證API key。在個人中心的API token處點選“新增Token”,取得Token金鑰:sk-xxxxx並提交。
  • 取得此網站的 URL: https://api.cometapi.com/

使用方法

  1. 選擇“gpt-4o-realtime-preview-2025-06-03「端點傳送請求並設定請求體。請求方法和請求體可從我們網站的API文件取得。為了方便您使用,我們網站也提供了Apifox測試。
  2. 代替使用您帳戶中的實際 CometAPI 金鑰。
  3. 將您的問題或請求插入內容欄位 - 這是模型將會回應的內容。
  4. 。處理 API 回應以取得產生的答案。

有關 Comet API 中的模型存取信息,請參閱 API 文件.

有關 Comet API 中的模型價格信息,請參閱 https://api.cometapi.com/pricing.


範例程式碼和 API 集成

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • 關鍵參數:
  • model: “GPT-4O-即時預覽-2025-06-03”
  • version: “2025-06-03-預覽”
  • transport: “webrtc” 對於 最小延遲
  • stream: true 對於 增量 更新

通過結合 國家的最先進的 多模態推理 健壯 新的語音調色板,以及 超低 延遲流, GPT-4o 實時 (2025-06-03) 賦能開發者建構真正 互動, 對話的 人工智慧應用。

參見 o3-Pro API

安全與合規

OpenAI 推出的 GPT-4o Realtime 版本包含:
系統等級護欄: 調整政策以拒絕不允許的請求(極端主義、非法行為)。
即時內容過濾: 低於 100 毫秒的分類器在發射之前篩選使用者輸入和模型輸出。
人工批准路徑: 在高風險工具呼叫(付款、法律諮詢)時觸發,利用 Agents SDK 的新核准原語。

GPT-4o 實時

SHARE THIS BLOG

一個 API 中超過 500 個模型

最高 20% 折扣