GPT-4o リアルタイム API

CometAPI
AnnaJun 11, 2025
GPT-4o リアルタイム API

GPT-4o リアルタイム API: 開発者がWebRTCまたはWebSocketを介して同期されたテキスト、オーディオ、およびビジョンデータを送受信できる、低遅延のマルチモーダルストリーミングエンドポイント(モデル=gpt-4o-realtime-preview-<date>, stream=true) インタラクティブなリアルタイム アプリケーション向け。


基本情報と機能

OpenAI GPT-4o リアルタイム (モデルID: gpt-4o-リアルタイムプレビュー-2025-06-03)は、初めて公開された基礎モデルです。 エンドツーエンドの音声対音声(S2S) との相互作用 1秒未満の遅延「オムニ」GPT-4oファミリーから派生したリアルタイムバリアントは、 音声認識、自然言語推論、ニューラルテキスト読み上げ 単一のネットワークに統合することで、開発者は人間と同じようにスムーズに会話する音声エージェントを構築できます。このモデルは、専用の リアルタイムAPI そして新しい リアルタイムエージェント 内部の抽象化 エージェント SDK (TypeScript と Python)。


コア機能セット — エンドツーエンドのS2S • 割り込み処理 • ツール呼び出し

• ネイティブ音声合成: 音声入力は連続ストリームとして取り込まれ、内部でトークン化、推論処理され、合成音声として返されます。外部のSTT/TTSバッファは不要で、数秒のパイプライン遅延を排除します。
• ミリ秒単位のレイテンシ: アーキテクチャのプルーニング、モデルの蒸留、GPUに最適化されたサービングスタックにより、 最初のトークンのレイテンシは約300~500ミリ秒 一般的なクラウド展開では、人間の会話の順番交代の規範に近づきます。
• 堅牢な指示遵守: 会話スクリプトと関数呼び出しトレースを微調整したGPT-4o Realtimeは、 タスク実行エラーが25%以上削減 2024 年 4 月の GPT-XNUMXo ベースラインと比較。
• 決定論的なツール呼び出し: このモデルはOpenAIの 関数呼び出しスキーマバックエンドAPI(予約システム、データベース、IoT)の確定的な呼び出しを可能にします。エラーを考慮した再試行と引数の検証が組み込まれています。
• 適切な中断: リアルタイム音声アクティビティ検出器と増分デコードを組み合わせることで、エージェントは 文の途中で一時停止するユーザーの中断を取り込み、応答をシームレスに再開または再計画します。
• 設定可能な音声速度: 新しい スピード パラメーター (0.25~4 倍の実時間) を使用すると、開発者はアクセシビリティや連射アプリケーションに合わせて出力ペースを調整できます。


技術アーキテクチャ — 統合マルチモーダルトランスフォーマー

統合エンコーダー・デコーダー: GPT-4o Realtimeはオムニアーキテクチャの シングルスタック変圧器 音声、テキスト、そして(未来の)視覚トークンが一つの潜在空間に共存する。レイヤーごとの適応計算により、音声フレームが後続のアテンションブロックに直接ショートカットされ、パスごとに20~40ミリ秒の計算時間を短縮する。

階層的オーディオトークン化: 16kHzのPCMをログメルパッチに分割→粗粒度の音響トークンに量子化→意味トークンに圧縮し、 1秒あたりのトークン数 韻律を犠牲にすることなく予算を抑える。

低ビット推論カーネル: 展開された重みは 4ビットNF4量子化 Triton / TensorRT-LLM カーネルを使用すると、MOS 品質の損失を 16 dB 未満に抑えながら、fp1 と比較してスループットが XNUMX 倍になります。

ストリーミングの注意: スライディングウィンドウの回転埋め込みとキー値キャッシュにより、モデルはO(L)メモリで最後の15秒間のオーディオに対応でき、これは電話の通話長の対話にとって重要です。


技術的詳細

  • APIのバージョン: 2025-06-03-preview
  • トランスポートプロトコル:
  • WebRTC: クライアント側のオーディオ/ビデオ ストリームの超低遅延 (< 80 ミリ秒)
  • WebSocketの: 100ミリ秒未満の遅延でサーバー間ストリーミング
  • データエンコーディング:
  • 作品 コーデック内 RTP オーディオ用パケット
  • H.264 / H.265 ビデオ用のフレームラッパー
  • ストリーミング:サポート stream: true コンパクトで インクリメンタル トークンが生成されると部分的な応答が返される
  • 新しいボイスパレット: 8つの新しい声を紹介—合金, , バラード, コー​​ラル, echo, セージ, きらめく, —詳細については 表現力豊かな, 人間のような 相互作用..

GPT-4oリアルタイムの進化

  • 2024年5月: GPT-4o オムニ テキスト、オーディオ、ビジョンのマルチモーダル サポートを搭載してデビューします。
  • 2024年10月: リアルタイムAPI プライベートベータ版に移行(2024-10-01-preview)、低遅延オーディオ向けに最適化されています。
  • 2024年12月: グローバル展開を拡大 gpt-4o-realtime-preview-2024-12-17追加、 プロンプトキャッシュ そしてさらに多くの声。
  • 2025 年 6 月 3 日: 最新のアップデート (2025-06-03-preview)は改良版を展開 音声パレット およびパフォーマンスの最適化。

ベンチマークパフォーマンス

  • MMLU: 88.7GPT-4の86.5を上回り、 大規模マルチタスク言語理解 .
  • 音声認識: 達成 業界をリードする ノイズの多い環境での単語誤り率は、 ウィスパー ベースライン。
  • レイテンシーテスト:
  • End-to-End (音声入力 → テキスト出力): 50〜80ミリ秒 WebRTC経由
  • 往復オーディオ (音声入力→音声出力): 100ミリ秒未満 .

テクニカル指標

  • スループット: 持続する 15トークン/秒 テキスト ストリームの場合。 24のkbps オーディオ用の Opus。
  • 価格:
  • テキスト: 5万入力トークンあたり1ドル、20万出力トークンあたり1ドル
  • オーディオ: 100 万入力トークンあたり 1 ドル、200 万出力トークンあたり 1 ドル。
  • 利用状況: Realtime API をサポートするすべてのリージョンにグローバルに展開されています。

CometAPIからGPT-4o Realtime APIを呼び出す方法

GPT-4o Realtime CometAPI の API 価格:

  • 入力トークン: $2 / XNUMX万トークン
  • 出力トークン: $8 / XNUMX万トークン

必要な手順

  • ログインする コムタピまだユーザーでない場合は、まず登録してください
  • インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
  • このサイトの URL を取得します: https://api.cometapi.com/

使用方法

  1. "を選択します。gpt-4o-realtime-preview-2025-06-03” エンドポイントを使用してリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社のウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、当社のウェブサイトではApifoxテストも提供しています。
  2. 交換するアカウントの実際の CometAPI キーを使用します。
  3. コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
  4. API 応答を処理して、生成された回答を取得します。

Comet APIのモデルアクセス情報については、以下を参照してください。 APIドキュメント.

Comet APIのモデル価格情報については、以下を参照してください。 https://api.cometapi.com/pricing.


サンプルコードとAPI統合

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Key Parameters:
  • model: 「gpt-4o-リアルタイムプレビュー-2025-06-03」
  • version: 「2025年06月03日プレビュー」
  • transport: 「ウェブRTC」最小の待ち時間
  • stream: trueインクリメンタル アップデート

組み合わせることにより 最先端の マルチモーダル推論、 堅牢な 新しい音声パレット、そして 超低 レイテンシーストリーミング、 GPT-4o リアルタイム (2025-06-03) 開発者が真に 相互作用的, 会話 AIアプリケーション。

も参照してください o3-Pro API

安全とコンプライアンス

OpenAI は GPT-4o Realtime を以下の機能とともに出荷します。
システムレベルのガードレール: 許可されていないリクエスト(過激主義、違法行為)を拒否するようにポリシーが調整されています。
リアルタイムコンテンツフィルタリング: 100 ミリ秒未満の分類器は、出力前にユーザー入力とモデル出力の両方をスクリーニングします。
人間による承認パス: エージェント SDK の新しい承認プリミティブを活用して、高リスク ツールの呼び出し (支払い、法的アドバイス) でトリガーされます。

GPT-4o リアルタイム

SHARE THIS BLOG

1つのAPIで500以上のモデル

最大20%オフ