GPT-4o リアルタイム API

GPT-4o リアルタイム API: 開発者がWebRTCまたはWebSocketを介して同期されたテキスト、オーディオ、およびビジョンデータを送受信できる、低遅延のマルチモーダルストリーミングエンドポイント（モデル=gpt-4o-realtime-preview-<date>, stream=true) インタラクティブなリアルタイムアプリケーション向け。

基本情報と機能

OpenAI GPT-4o リアルタイム （モデルID： gpt-4o-リアルタイムプレビュー-2025-06-03）は、初めて公開された基礎モデルです。 エンドツーエンドの音声対音声（S2S） との相互作用 1秒未満の遅延「オムニ」GPT-4oファミリーから派生したリアルタイムバリアントは、 音声認識、自然言語推論、ニューラルテキスト読み上げ 単一のネットワークに統合することで、開発者は人間と同じようにスムーズに会話する音声エージェントを構築できます。このモデルは、専用の リアルタイムAPI そして新しい リアルタイムエージェント 内部の抽象化 エージェント SDK (TypeScript と Python)。

コア機能セット — エンドツーエンドのS2S • 割り込み処理 • ツール呼び出し

• ネイティブ音声合成: 音声入力は連続ストリームとして取り込まれ、内部でトークン化、推論処理され、合成音声として返されます。外部のSTT/TTSバッファは不要で、数秒のパイプライン遅延を排除します。
• ミリ秒単位のレイテンシ: アーキテクチャのプルーニング、モデルの蒸留、GPUに最適化されたサービングスタックにより、 最初のトークンのレイテンシは約300～500ミリ秒 一般的なクラウド展開では、人間の会話の順番交代の規範に近づきます。
• 堅牢な指示遵守： 会話スクリプトと関数呼び出しトレースを微調整したGPT-4o Realtimeは、 タスク実行エラーが25%以上削減 2024 年 4 月の GPT-XNUMXo ベースラインと比較。
• 決定論的なツール呼び出し: このモデルはOpenAIの 関数呼び出しスキーマバックエンドAPI（予約システム、データベース、IoT）の確定的な呼び出しを可能にします。エラーを考慮した再試行と引数の検証が組み込まれています。
• 適切な中断: リアルタイム音声アクティビティ検出器と増分デコードを組み合わせることで、エージェントは 文の途中で一時停止するユーザーの中断を取り込み、応答をシームレスに再開または再計画します。
• 設定可能な音声速度: 新しい スピード パラメーター (0.25～4 倍の実時間) を使用すると、開発者はアクセシビリティや連射アプリケーションに合わせて出力ペースを調整できます。

技術アーキテクチャ — 統合マルチモーダルトランスフォーマー

統合エンコーダー・デコーダー: GPT-4o Realtimeはオムニアーキテクチャの シングルスタック変圧器 音声、テキスト、そして（未来の）視覚トークンが一つの潜在空間に共存する。レイヤーごとの適応計算により、音声フレームが後続のアテンションブロックに直接ショートカットされ、パスごとに20～40ミリ秒の計算時間を短縮する。

階層的オーディオトークン化: 16kHzのPCMをログメルパッチに分割→粗粒度の音響トークンに量子化→意味トークンに圧縮し、 1秒あたりのトークン数 韻律を犠牲にすることなく予算を抑える。

低ビット推論カーネル: 展開された重みは 4ビットNF4量子化 Triton / TensorRT-LLM カーネルを使用すると、MOS 品質の損失を 16 dB 未満に抑えながら、fp1 と比較してスループットが XNUMX 倍になります。

ストリーミングの注意: スライディングウィンドウの回転埋め込みとキー値キャッシュにより、モデルはO(L)メモリで最後の15秒間のオーディオに対応でき、これは電話の通話長の対話にとって重要です。

技術的詳細

APIのバージョン: 2025-06-03-preview
トランスポートプロトコル:
WebRTC: クライアント側のオーディオ/ビデオストリームの超低遅延 (< 80 ミリ秒)
WebSocketの: 100ミリ秒未満の遅延でサーバー間ストリーミング
データエンコーディング:
作品コーデック内 RTP オーディオ用パケット
H.264 / H.265 ビデオ用のフレームラッパー
ストリーミング：サポート stream: true コンパクトで インクリメンタル トークンが生成されると部分的な応答が返される
新しいボイスパレット: 8つの新しい声を紹介—合金, 灰, バラード, コーラル, echo, セージ, きらめく, 詩—詳細については 表現力豊かな, 人間のような 相互作用..

GPT-4oリアルタイムの進化

2024年5月: GPT-4o オムニ テキスト、オーディオ、ビジョンのマルチモーダルサポートを搭載してデビューします。
2024年10月: リアルタイムAPI プライベートベータ版に移行（2024-10-01-preview）、低遅延オーディオ向けに最適化されています。
2024年12月: グローバル展開を拡大 gpt-4o-realtime-preview-2024-12-17追加、 プロンプトキャッシュ そしてさらに多くの声。
2025 年 6 月 3 日: 最新のアップデート (2025-06-03-preview）は改良版を展開 音声パレット およびパフォーマンスの最適化。

ベンチマークパフォーマンス

MMLU: 88.7GPT-4の86.5を上回り、 大規模マルチタスク言語理解 .
音声認識: 達成 業界をリードする ノイズの多い環境での単語誤り率は、 ウィスパー ベースライン。
レイテンシーテスト:
End-to-End （音声入力 → テキスト出力）： 50〜80ミリ秒 WebRTC経由
往復オーディオ （音声入力→音声出力）： 100ミリ秒未満 .

テクニカル指標

スループット: 持続する 15トークン/秒 テキストストリームの場合。 24のkbps オーディオ用の Opus。
価格:
テキスト: 5万入力トークンあたり1ドル、20万出力トークンあたり1ドル
オーディオ: 100 万入力トークンあたり 1 ドル、200 万出力トークンあたり 1 ドル。
利用状況: Realtime API をサポートするすべてのリージョンにグローバルに展開されています。

CometAPIからGPT-4o Realtime APIを呼び出す方法

`GPT-4o Realtime` CometAPI の API 価格:

入力トークン: $2 / XNUMX万トークン
出力トークン: $8 / XNUMX万トークン

必要な手順

ログインするコムタピまだユーザーでない場合は、まず登録してください
インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー（sk-xxxxx）を取得して送信します。
このサイトの URL を取得します: https://api.cometapi.com/

使用方法

"を選択します。gpt-4o-realtime-preview-2025-06-03” エンドポイントを使用してリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社のウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、当社のウェブサイトではApifoxテストも提供しています。
交換するアカウントの実際の CometAPI キーを使用します。
コンテンツフィールドに質問またはリクエストを入力します。モデルはこれに応答します。
API 応答を処理して、生成された回答を取得します。

Comet APIのモデルアクセス情報については、以下を参照してください。 APIドキュメント.

Comet APIのモデル価格情報については、以下を参照してください。 https://api.cometapi.com/pricing.

サンプルコードとAPI統合

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)

Key Parameters:
model: 「gpt-4o-リアルタイムプレビュー-2025-06-03」
version: 「2025年06月03日プレビュー」
transport: 「ウェブRTC」 の 最小の待ち時間
stream: true の インクリメンタル アップデート

組み合わせることにより 最先端の マルチモーダル推論、 堅牢な 新しい音声パレット、そして超低レイテンシーストリーミング、 GPT-4o リアルタイム (2025-06-03) 開発者が真に 相互作用的, 会話 AIアプリケーション。

も参照してください o3-Pro API

安全とコンプライアンス

OpenAI は GPT-4o Realtime を以下の機能とともに出荷します。
• システムレベルのガードレール: 許可されていないリクエスト（過激主義、違法行為）を拒否するようにポリシーが調整されています。
• リアルタイムコンテンツフィルタリング: 100 ミリ秒未満の分類器は、出力前にユーザー入力とモデル出力の両方をスクリーニングします。
• 人間による承認パス: エージェント SDK の新しい承認プリミティブを活用して、高リスクツールの呼び出し (支払い、法的アドバイス) でトリガーされます。

GPT-4o リアルタイム

基本情報と機能

コア機能セット — エンドツーエンドのS2S • 割り込み処理 • ツール呼び出し

技術アーキテクチャ — 統合マルチモーダルトランスフォーマー

技術的詳細

GPT-4oリアルタイムの進化

ベンチマークパフォーマンス

テクニカル指標

CometAPIからGPT-4o Realtime APIを呼び出す方法

`GPT-4o Realtime` CometAPI の API 価格:

必要な手順

使用方法

サンプルコードとAPI統合

安全とコンプライアンス

もっと読む

1つのAPIで500以上のモデル

GPT-4o リアルタイム API

基本情報と機能

コア機能セット — エンドツーエンドのS2S • 割り込み処理 • ツール呼び出し

技術アーキテクチャ — 統合マルチモーダルトランスフォーマー

技術的詳細

GPT-4oリアルタイムの進化

ベンチマークパフォーマンス

テクニカル指標

CometAPIからGPT-4o Realtime APIを呼び出す方法

GPT-4o Realtime CometAPI の API 価格:

必要な手順

使用方法

サンプルコードとAPI統合

安全とコンプライアンス

もっと読む

1つのAPIで500以上のモデル

`GPT-4o Realtime` CometAPI の API 価格: