gpt-audio-1.5 の技術仕様
| 項目 | gpt-audio-1.5(一般公開仕様) |
|---|---|
| モデルファミリー | GPT Audio ファミリー(音声優先の派生) |
| 入力タイプ | テキスト、音声(音声入力) |
| 出力タイプ | テキスト、音声(音声出力)、構造化出力(関数呼び出しをサポート) |
| コンテキストウィンドウ | 128,000 トークン。 |
| 最大出力トークン数 | 16,384(関連する gpt-audio のリストに記載)。 |
| 性能レベル | より高い知能性;中程度の速度(バランス)。 |
| レイテンシ特性 | 音声インタラクション向けに最適化(エンドポイントに応じて中/低レイテンシ)。 |
| 提供状況 | Chat Completions API(音声入出力)およびプラットフォームのプレイグラウンド;リアルタイム/音声インターフェース全体に統合。 |
| 安全性/使用上の注意 | 音声コンテンツ向けのガードレール;本番の音声エージェントでは、モデル出力を通常の安全対策と検証に基づいて取り扱うこと。 |
注:
gpt-realtime-1.5は、低レイテンシとリアルタイムセッション向けに最適化された、密接に関連するリアルタイムの音声/ボイス優先の派生モデルです。以下と比較してください。
gpt-audio-1.5 とは?
gpt-audio-1.5 は、Chat Completions と関連する音声対応 API を通じて音声入力と音声出力の両方をサポートする音声対応の GPT モデルです。品質と速度のバランスを取りながら、音声エージェントや音声優先の体験を構築するための一般提供の主要な音声モデルとして位置づけられています。
主な機能
- 音声入力/音声出力のサポート: 話し言葉の入力を処理し、自然な音声フローのために音声またはテキストの応答を返します。
- 音声ワークフロー向けの大規模コンテキスト: 非常に大きなコンテキスト(文書化された 128k トークン)をサポートし、多ターンの長い会話履歴や大規模なマルチモーダルセッションを可能にします。
- ストリーミングと Chat Completions 互換性: Chat Completions 内でストリーミング音声応答および関数呼び出しに対応した構造化出力に対応します。
- 性能/レイテンシのバランス: 中程度のスループットで高品質な音声応答を提供するよう調整されており、品質が重要なチャットボットや音声アシスタントに適しています。
- エコシステムと統合: プラットフォームのプレイグラウンドでサポートされ、公式のリアルタイム/音声エンドポイントおよびパートナー統合で利用可能です(Azure/Microsoft Foundry のノートが類似の音声モデルに言及しています)。
gpt-audio-1.5 と関連音声モデルの比較
| 特性 | gpt-audio-1.5 | gpt-realtime-1.5 |
|---|---|---|
| 主な焦点 | Chat Completions および会話フロー向けの高品質な音声入出力。 | ライブ音声エージェントやストリーミングシナリオ向けの低レイテンシなリアルタイム S2S(speech-to-speech)。 |
| コンテキストウィンドウ | 128k トークン。 | 32k トークン(リアルタイム派生で文書化)。 |
| 最大出力トークン数 | 16,384(文書化)。 | 一般に短いリアルタイム応答向けに設定(ドキュメントでは最大トークン数が小さく記載)。 |
| 最適な用途 | 完全なチャットセマンティクス+音声が必要なチャットボット、音声対応アシスタント。 | ライブ音声エージェント、キオスク、低レイテンシな会話インターフェース。 |
代表的なユースケース
- カスタマーサポートや社内ヘルプデスク向けの会話型音声エージェント。
- アプリ、デバイス、キオスクに組み込まれた音声対応アシスタント。
- ハンズフリーのワークフロー(音声入力、音声検索、アクセシビリティ)。
- Chat Completions を介して音声とテキスト/画像を組み合わせるマルチモーダル体験。
制限事項と運用上の考慮点
- 人による QA の完全な代替ではありません: 本番フローでは、音声出力と下流のアクションを人によるレビューで常に検証してください。
- リソース計画: 大きなコンテキストと音声 I/O は計算量とレイテンシを増加させる可能性があるため、長時間セッション向けにストリーミング/セグメンテーション戦略を設計してください。
- 安全性とポリシーの制約: 音声出力は説得力を伴う場合があるため、大規模に展開する際はプラットフォームの安全ガイドラインとガードレールに従ってください。
- GPT Audio 1.5 API へのアクセス方法
ステップ 1:API キーの取得
cometapi.com にログインします。まだユーザーでない場合は、まず登録してください。CometAPI コンソール にサインインします。インターフェースのアクセス認証用 API キーを取得します。個人センターの API トークンで “Add Token” をクリックし、トークンキー: sk-xxxxx を取得して送信します。

ステップ 2:GPT Audio 1.5 API にリクエストを送信
“gpt-audio-1.5” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは当社サイトの API ドキュメントから取得できます。当社サイトでは利便性のため Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。ベース URL は Chat Completions です。
content フィールドに質問やリクエストを挿入します—これはモデルが応答する対象です。API 応答を処理して生成された回答を取得します。
ステップ 3:結果の取得と検証
API 応答を処理して生成された回答を取得します。処理後、API はタスクのステータスと出力データを返します。