GPT-4o リアルタイム API: 開発者がWebRTCまたはWebSocketを介して同期されたテキスト、オーディオ、およびビジョンデータを送受信できる、低遅延のマルチモーダルストリーミングエンドポイント(モデル=gpt-4o-realtime-preview-<date>, stream=true) インタラクティブなリアルタイム アプリケーション向け。
基本情報と機能
OpenAI GPT-4o リアルタイム (モデルID: gpt-4o-リアルタイムプレビュー-2025-06-03)は、初めて公開された基礎モデルです。 エンドツーエンドの音声対音声(S2S) との相互作用 1秒未満の遅延「オムニ」GPT-4oファミリーから派生したリアルタイムバリアントは、 音声認識、自然言語推論、ニューラルテキスト読み上げ 単一のネットワークに統合することで、開発者は人間と同じようにスムーズに会話する音声エージェントを構築できます。このモデルは、専用の リアルタイムAPI そして新しい リアルタイムエージェント 内部の抽象化 エージェント SDK (TypeScript と Python)。
コア機能セット — エンドツーエンドのS2S • 割り込み処理 • ツール呼び出し
• ネイティブ音声合成: 音声入力は連続ストリームとして取り込まれ、内部でトークン化、推論処理され、合成音声として返されます。外部のSTT/TTSバッファは不要で、数秒のパイプライン遅延を排除します。
• ミリ秒単位のレイテンシ: アーキテクチャのプルーニング、モデルの蒸留、GPUに最適化されたサービングスタックにより、 最初のトークンのレイテンシは約300~500ミリ秒 一般的なクラウド展開では、人間の会話の順番交代の規範に近づきます。
• 堅牢な指示遵守: 会話スクリプトと関数呼び出しトレースを微調整したGPT-4o Realtimeは、 タスク実行エラーが25%以上削減 2024 年 4 月の GPT-XNUMXo ベースラインと比較。
• 決定論的なツール呼び出し: このモデルはOpenAIの 関数呼び出しスキーマバックエンドAPI(予約システム、データベース、IoT)の確定的な呼び出しを可能にします。エラーを考慮した再試行と引数の検証が組み込まれています。
• 適切な中断: リアルタイム音声アクティビティ検出器と増分デコードを組み合わせることで、エージェントは 文の途中で一時停止するユーザーの中断を取り込み、応答をシームレスに再開または再計画します。
• 設定可能な音声速度: 新しい スピード パラメーター (0.25~4 倍の実時間) を使用すると、開発者はアクセシビリティや連射アプリケーションに合わせて出力ペースを調整できます。
技術アーキテクチャ — 統合マルチモーダルトランスフォーマー
統合エンコーダー・デコーダー: GPT-4o Realtimeはオムニアーキテクチャの シングルスタック変圧器 音声、テキスト、そして(未来の)視覚トークンが一つの潜在空間に共存する。レイヤーごとの適応計算により、音声フレームが後続のアテンションブロックに直接ショートカットされ、パスごとに20~40ミリ秒の計算時間を短縮する。
階層的オーディオトークン化: 16kHzのPCMをログメルパッチに分割→粗粒度の音響トークンに量子化→意味トークンに圧縮し、 1秒あたりのトークン数 韻律を犠牲にすることなく予算を抑える。
低ビット推論カーネル: 展開された重みは 4ビットNF4量子化 Triton / TensorRT-LLM カーネルを使用すると、MOS 品質の損失を 16 dB 未満に抑えながら、fp1 と比較してスループットが XNUMX 倍になります。
ストリーミングの注意: スライディングウィンドウの回転埋め込みとキー値キャッシュにより、モデルはO(L)メモリで最後の15秒間のオーディオに対応でき、これは電話の通話長の対話にとって重要です。
技術的詳細
- APIのバージョン:
2025-06-03-preview - トランスポートプロトコル:
- WebRTC: クライアント側のオーディオ/ビデオ ストリームの超低遅延 (< 80 ミリ秒)
- WebSocketの: 100ミリ秒未満の遅延でサーバー間ストリーミング
- データエンコーディング:
- 作品 コーデック内 RTP オーディオ用パケット
- H.264 / H.265 ビデオ用のフレームラッパー
- ストリーミング:サポート
stream: trueコンパクトで インクリメンタル トークンが生成されると部分的な応答が返される - 新しいボイスパレット: 8つの新しい声を紹介—合金, 灰, バラード, コーラル, echo, セージ, きらめく, 詩—詳細については 表現力豊かな, 人間のような 相互作用..
GPT-4oリアルタイムの進化
- 2024年5月: GPT-4o オムニ テキスト、オーディオ、ビジョンのマルチモーダル サポートを搭載してデビューします。
- 2024年10月: リアルタイムAPI プライベートベータ版に移行(
2024-10-01-preview)、低遅延オーディオ向けに最適化されています。 - 2024年12月: グローバル展開を拡大
gpt-4o-realtime-preview-2024-12-17追加、 プロンプトキャッシュ そしてさらに多くの声。 - 2025 年 6 月 3 日: 最新のアップデート (
2025-06-03-preview)は改良版を展開 音声パレット およびパフォーマンスの最適化。
ベンチマークパフォーマンス
- MMLU: 88.7GPT-4の86.5を上回り、 大規模マルチタスク言語理解 .
- 音声認識: 達成 業界をリードする ノイズの多い環境での単語誤り率は、 ウィスパー ベースライン。
- レイテンシーテスト:
- End-to-End (音声入力 → テキスト出力): 50〜80ミリ秒 WebRTC経由
- 往復オーディオ (音声入力→音声出力): 100ミリ秒未満 .
テクニカル指標
- スループット: 持続する 15トークン/秒 テキスト ストリームの場合。 24のkbps オーディオ用の Opus。
- 価格:
- テキスト: 5万入力トークンあたり1ドル、20万出力トークンあたり1ドル
- オーディオ: 100 万入力トークンあたり 1 ドル、200 万出力トークンあたり 1 ドル。
- 利用状況: Realtime API をサポートするすべてのリージョンにグローバルに展開されています。
CometAPIからGPT-4o Realtime APIを呼び出す方法
GPT-4o Realtime CometAPI の API 価格:
- 入力トークン: $2 / XNUMX万トークン
- 出力トークン: $8 / XNUMX万トークン
必要な手順
- ログインする コムタピまだユーザーでない場合は、まず登録してください
- インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
- このサイトの URL を取得します: https://api.cometapi.com/
使用方法
- "を選択します。
gpt-4o-realtime-preview-2025-06-03” エンドポイントを使用してリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社のウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、当社のウェブサイトではApifoxテストも提供しています。 - 交換するアカウントの実際の CometAPI キーを使用します。
- コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
- API 応答を処理して、生成された回答を取得します。
Comet APIのモデルアクセス情報については、以下を参照してください。 APIドキュメント.
Comet APIのモデル価格情報については、以下を参照してください。 https://api.cometapi.com/pricing.
サンプルコードとAPI統合
import openai
openai.api_key = "YOUR_API_KEY"
# Establish a Realtime WebRTC connection
connection = openai.Realtime.connect(
model="gpt-4o-realtime-preview-2025-06-03",
version="2025-06-03-preview",
transport="webrtc"
)
# Stream audio frames and receive incremental text
with open("user_audio.raw", "rb") as audio_stream:
for chunk in iter(lambda: audio_stream.read(2048), b""):
result = connection.send_audio(chunk)
print("Assistant:", result)
- Key Parameters:
model: 「gpt-4o-リアルタイムプレビュー-2025-06-03」version: 「2025年06月03日プレビュー」transport: 「ウェブRTC」 の 最小の待ち時間stream:trueの インクリメンタル アップデート
組み合わせることにより 最先端の マルチモーダル推論、 堅牢な 新しい音声パレット、そして 超低 レイテンシーストリーミング、 GPT-4o リアルタイム (2025-06-03) 開発者が真に 相互作用的, 会話 AIアプリケーション。
も参照してください o3-Pro API
安全とコンプライアンス
OpenAI は GPT-4o Realtime を以下の機能とともに出荷します。
• システムレベルのガードレール: 許可されていないリクエスト(過激主義、違法行為)を拒否するようにポリシーが調整されています。
• リアルタイムコンテンツフィルタリング: 100 ミリ秒未満の分類器は、出力前にユーザー入力とモデル出力の両方をスクリーニングします。
• 人間による承認パス: エージェント SDK の新しい承認プリミティブを活用して、高リスク ツールの呼び出し (支払い、法的アドバイス) でトリガーされます。

