O

gpt-audio-1.5

入力:$2/M
出力:$8/M
Chat Completions における音声入出力に最適な音声モデル。
新着
商用利用

gpt-audio-1.5 の技術仕様

項目gpt-audio-1.5(公開仕様)
モデルファミリーGPT Audio ファミリー(音声優先バリアント)
入力タイプテキスト、音声(音声入力)
出力タイプテキスト、音声(音声出力)、構造化出力(関数呼び出し対応)
コンテキストウィンドウ128,000 トークン。
出力トークン上限16,384(関連する gpt-audio のリスティングに記載)。
パフォーマンスティア高い知性;中程度の速度(バランス)。
レイテンシプロファイル音声インタラクション向けに最適化(エンドポイントにより中~低レイテンシ)。
提供形態Chat Completions API(音声入出力)およびプラットフォームのプレイグラウンド;リアルタイム/音声サーフェス全体で統合。
安全性/利用上の注意音声コンテンツ向けのガードレールを搭載;本番環境の音声エージェントでは、モデル出力に対し通常の安全性確認と検証を行うこと。

注: gpt-realtime-1.5 は、低レイテンシとリアルタイムセッションに最適化された音声/ボイス優先のリアルタイム版で、密接に関連しています。下記を比較参照してください。


gpt-audio-1.5 とは?

gpt-audio-1.5 は、Chat Completions および関連する音声対応 API を通じて音声入力と音声出力の双方をサポートする、音声対応の GPT モデルです。品質と速度のバランスを取りつつ、音声エージェントや音声優先の体験を構築するための、一般提供の主力音声モデルとして位置づけられています。


主な機能

  1. 音声入力/音声出力に対応: 音声入力を処理し、自然な音声フローのために音声またはテキストの応答を返します。
  2. 音声ワークフロー向けの大きなコンテキスト: 非常に大きなコンテキスト(ドキュメント記載の 128k トークン)をサポートし、マルチターンの長い会話履歴や大規模なマルチモーダル・セッションを可能にします。
  3. ストリーミングと Chat Completions の互換性: ストリーミング音声応答や関数呼び出しによる構造化出力に対応し、Chat Completions 内で動作します。
  4. 性能/レイテンシのバランス: 中程度のスループットで高品質な音声応答を提供するよう調整されており、品質重視のチャットボットや音声アシスタントに適しています。
  5. エコシステムと統合: プラットフォームのプレイグラウンドでサポートされ、公式のリアルタイム/音声エンドポイントおよびパートナー統合で利用可能です(Azure/Microsoft Foundry の注記では類似の音声モデルに言及)。

gpt-audio-1.5 と関連音声モデルの比較

特性gpt-audio-1.5gpt-realtime-1.5
主な焦点Chat Completions および会話フロー向けの高品質な音声入出力。ライブ音声エージェントやストリーミング・シナリオ向けに、低レイテンシの Realtime S2S(speech-to-speech)。
コンテキストウィンドウ128k トークン。32k トークン(リアルタイム版の仕様に記載)。
出力トークン上限16,384(記載あり)。一般に短いリアルタイム応答向けに設定(ドキュメントではより小さい最大トークン数を記載)。
最適な用途チャットボット、Chat セマンティクスと音声の両方が必要な音声対応アシスタント。ライブ音声エージェント、キオスク、低レイテンシの会話型インターフェース。

代表的なユースケース

  • カスタマーサポートや社内ヘルプデスク向けの会話型音声エージェント。
  • アプリ、デバイス、キオスクに組み込まれた音声対応アシスタント。
  • ハンズフリーのワークフロー(ディクテーション、音声検索、アクセシビリティ)。
  • Chat Completions を通じて音声とテキスト/画像を組み合わせるマルチモーダル体験。

制約と運用上の考慮事項

  • 人間の QA の代替にはならない: 本番のワークフローでは、音声出力や後続のアクションを人間がレビューし、検証してください。
  • リソース計画: 大きなコンテキストと音声 I/O により、計算資源やレイテンシが増大する可能性があります。長いセッションではストリーミング/セグメンテーション戦略を設計してください。
  • 安全性とポリシー上の制約: 音声出力は説得力を持ち得ます。大規模展開時は、プラットフォームの安全性ガイドラインとガードレールに従ってください。
  • GPT Audio 1.5 API へのアクセス方法

Step 1: Sign Up for API Key

Log in to cometapi.com. If you are not our user yet, please register first. Sign into your CometAPI console. Get the access credential API key of the interface. Click “Add Token” at the API token in the personal center, get the token key: sk-xxxxx and submit.

cometapi-key

Step 2: Send Requests to GPT Audio 1.5 API

Select the “gpt-audio-1.5” endpoint to send the API request and set the request body. The request method and request body are obtained from our website API doc. Our website also provides Apifox test for your convenience. Replace <YOUR_API_KEY> with your actual CometAPI key from your account. base url is Chat Completions

Insert your question or request into the content field—this is what the model will respond to . Process the API response to get the generated answer.

Step 3: Retrieve and Verify Results

Process the API response to get the generated answer. After processing, the API responds with the task status and output data.

よくある質問