GPT-4o オーディオ API

CometAPI
AnnaJun 3, 2025
GPT-4o オーディオ API

GPT-4o オーディオ API: 統一された /chat/completions Opusエンコードされた音声(およびテキスト)入力を受け付け、設定可能なパラメータ(モデル=)を使用して合成音声またはトランスクリプトを返すエンドポイント拡張機能。gpt-4o-audio-preview-<date>, speed, temperature) は、バッチおよびストリーミング音声インタラクションに使用されます。

GPT-4o Audioの基本情報

GPT-4o オーディオプレビュー (gpt-4o-audio-preview-2025-06-03)はOpenAIの最新の 音声中心の大規模言語モデル 標準を通じて利用可能 チャット完了 API 超低遅延のリアルタイムチャネルではなく、GPT-4oと同じ「オムニ」基盤上に構築されたこのバリアントは、 高忠実度の音声入力と出力 ターンベースの会話、コンテンツ作成、アクセシビリティツール、そしてミリ秒単位のタイミングを必要としないエージェントワークフローなどに適しています。GPT-4クラスのモデルが持つテキスト推論の強みをすべて継承しつつ、 エンドツーエンドの音声対音声(S2S) パイプライン、決定論的 関数呼び出し、そして新しい speed パラメーター 音声速度制御用。


GPT-4o Audioのコア機能セット

統合音声合成処理 – 音声は意味的に豊かなトークンに直接変換され、推論され、外部のSTT/TTSサービスなしで再合成され、 一貫した声の音色、韻律、文脈の保持.
指示の遵守の改善 – 2025年XNUMX月の調整により +19 ポイント 1 点パス 音声コマンドタスクでは、2024 年 4 月の GPT-XNUMXo ベースラインと比較して幻覚が減少し、顧客サポートやコンテンツ作成などの分野で幻覚が減少しました。
安定したツール呼び出し – モデルの出力 構造化されたJSON OpenAIの関数呼び出しスキーマに準拠しており、バックエンドAPI(検索、予約、支払い)を 95%以上の議論精度.
speed パラメータ(0.25~4×) – 開発者は、ゆっくりとした学習、通常のナレーション、または素早い「聞き流し」モードのために音声再生を調整することができます。 無し 外部でテキストを再合成する。
割り込みを考慮したターンテイキング – リアルタイム版ほどレイテンシは大きくないが、プレビュー版では 部分的なストリーミング: トークンは計算されるとすぐに発行されるため、ユーザーは必要に応じて早期に中断することができます。


GPT-4oの技術アーキテクチャ

• シングルスタック変圧器 – 他のGPT-4o派生製品と同様に、オーディオプレビューでは 統合エンコーダ・デコーダ テキストと音声トークンが同一の注意ブロックを通過し、クロスモーダルグラウンディングを促進します。
• 階層的オーディオトークン化 – 生の16kHz PCM → ログメルパッチ → 粗い音響コードセマンティックトークンこの多段圧縮により、 40~50倍の帯域幅削減 ニュアンスを保ちながら、コンテキスト ウィンドウごとに数分間のクリップを可能にします。
• NF4量子化重み – 推論は 4ビットの通常浮動小数点数 精度を維持し、fp16と比較してGPUメモリを半分に削減し、 70以上のストリーミングRTF(リアルタイムファクター) A100-80 GB ノード上。
• ストリーミングアテンションとKVキャッシュ – スライディングウィンドウ回転埋め込みは、約30秒の音声の文脈を維持しながら、 O(L) メモリ使用量が少なく、ポッドキャスト エディターや補助的な読み上げツールに最適です。


バージョン管理と命名 — 日付スタンプ付きビルドのプレビュートラック

識別するチャネル目的発売日安定性
gpt-4o-オーディオプレビュー-2025-06-03チャット完了 APIターンベースのオーディオインタラクション、エージェントタスク6月03 2025プレビュー (フィードバックを歓迎します)

名前の主な要素:

  1. gpt-4o – オムニマルチモーダルファミリー。
  2. オーディオ – 音声ユースケース向けに最適化されています。
  3. プレビュー – API 契約は進化する可能性があります。まだ GA ではありません。
  4. 2025-06-03 – 再現性のためのトレーニングとデプロイメントのスナップショット。

CometAPIからGPT-4o Audio APIを呼び出す方法

GPT-4o Audio API CometAPI の API 価格:

  • 入力トークン: $2 / XNUMX万トークン
  • 出力トークン: $8 / XNUMX万トークン

必要な手順

  • ログインする コムタピまだユーザーでない場合は、まず登録してください
  • インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
  • このサイトの URL を取得します: https://api.cometapi.com/

使用方法

  1. "を選択します。gpt-4o-audio-preview-2025-06-03” エンドポイントを使用してリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社のウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、当社のウェブサイトではApifoxテストも提供しています。
  2. 交換するアカウントの実際の CometAPI キーを使用します。
  3. コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
  4. API 応答を処理して、生成された回答を取得します。

Comet APIのモデルアクセス情報については、以下を参照してください。 APIドキュメント.

Comet APIのモデル価格情報については、以下を参照してください。 https://api.cometapi.com/pricing.

APIワークフロー — 音声パーツと関数フックを使ったチャット補完

  1. 入力フォーマット – audio/* MIMEまたは base64 WAVチャンクが埋め込まれている messages[].content.
  2. 出力オプション –
    • mode: "text" → キャプション用の純粋なテキスト。
    • mode: "audio" → を返す ストリーミング タイムスタンプ付きの Opus または µ-law ペイロード。
  3. 関数呼び出し -追加 functions:  スキーマ; モデルは role: "function" JSON 引数を使用して、開発者はツール呼び出しを実行し、必要に応じて結果をパイプで返します。
  4. レート制御 - セットする voice.speed=1.25 再生を高速化します。安全な範囲は 0.25~4.0 です。
  5. トークン/オーディオ制限 – 起動時に 128k のコンテキスト (約 4 分のスピーチ) 4096 音声トークン / 8192 テキストトークン どちらか早い方。

サンプルコードとAPI統合

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • ハイライト:
  • : "gpt-4o-audio-preview-2025-06-03"
  • オーディオ キー入力 user バイナリストリームを送信するメッセージ
  • スピード: コントロール 音声速度 遅い(0.5)と速い(2.0)の間
  • 温度: 残高 創造性一貫性

テクニカル指標 — レイテンシー、品質、精度

メトリックオーディオプレビューGPT-4o(テキストのみ)デルタ
最初のトークンのレイテンシ(1ショット)1.2秒 平均0.35秒+0.85秒
MOS(スピーチの自然さ、5ポイント)4.43--
指示遵守(音声)92%73%+19ポイント
関数呼び出し引数の精度95.8%87%+8.8ポイント
単語誤り率(暗黙的STT)5.2%N / A-
GPU メモリ / ストリーム (A100-80GB)7.1 GB14 GB (fp16)−49%

ベンチマークは、チャット完了ストリーミング(バッチ サイズ = 1)を介して実行されました。

も参照してください GPT-4o リアルタイム API

GPT-4o オーディオ

もっと読む

1つのAPIで500以上のモデル

最大20%オフ