モデルサポートエンタープライズブログ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
リソース
AIモデルブログエンタープライズ変更履歴概要
2025 CometAPI. 全著作権所有。プライバシーポリシー利用規約
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

入力:$2/M
出力:$8/M
Chat Completions における音声入出力に最適な音声モデル。
新着
商用利用
概要
機能
料金プラン
API

gpt-audio-1.5 の技術仕様

項目gpt-audio-1.5(公開仕様)
モデルファミリーGPT Audio ファミリー(音声優先バリアント)
入力タイプテキスト、音声(音声入力)
出力タイプテキスト、音声(音声出力)、構造化出力(関数呼び出し対応)
コンテキストウィンドウ128,000 トークン。
出力トークン上限16,384(関連する gpt-audio のリスティングに記載)。
パフォーマンスティア高い知性;中程度の速度(バランス)。
レイテンシプロファイル音声インタラクション向けに最適化(エンドポイントにより中~低レイテンシ)。
提供形態Chat Completions API(音声入出力)およびプラットフォームのプレイグラウンド;リアルタイム/音声サーフェス全体で統合。
安全性/利用上の注意音声コンテンツ向けのガードレールを搭載;本番環境の音声エージェントでは、モデル出力に対し通常の安全性確認と検証を行うこと。

注: gpt-realtime-1.5 は、低レイテンシとリアルタイムセッションに最適化された音声/ボイス優先のリアルタイム版で、密接に関連しています。下記を比較参照してください。


gpt-audio-1.5 とは?

gpt-audio-1.5 は、Chat Completions および関連する音声対応 API を通じて音声入力と音声出力の双方をサポートする、音声対応の GPT モデルです。品質と速度のバランスを取りつつ、音声エージェントや音声優先の体験を構築するための、一般提供の主力音声モデルとして位置づけられています。


主な機能

  1. 音声入力/音声出力に対応: 音声入力を処理し、自然な音声フローのために音声またはテキストの応答を返します。
  2. 音声ワークフロー向けの大きなコンテキスト: 非常に大きなコンテキスト(ドキュメント記載の 128k トークン)をサポートし、マルチターンの長い会話履歴や大規模なマルチモーダル・セッションを可能にします。
  3. ストリーミングと Chat Completions の互換性: ストリーミング音声応答や関数呼び出しによる構造化出力に対応し、Chat Completions 内で動作します。
  4. 性能/レイテンシのバランス: 中程度のスループットで高品質な音声応答を提供するよう調整されており、品質重視のチャットボットや音声アシスタントに適しています。
  5. エコシステムと統合: プラットフォームのプレイグラウンドでサポートされ、公式のリアルタイム/音声エンドポイントおよびパートナー統合で利用可能です(Azure/Microsoft Foundry の注記では類似の音声モデルに言及)。

gpt-audio-1.5 と関連音声モデルの比較

特性gpt-audio-1.5gpt-realtime-1.5
主な焦点Chat Completions および会話フロー向けの高品質な音声入出力。ライブ音声エージェントやストリーミング・シナリオ向けに、低レイテンシの Realtime S2S(speech-to-speech)。
コンテキストウィンドウ128k トークン。32k トークン(リアルタイム版の仕様に記載)。
出力トークン上限16,384(記載あり)。一般に短いリアルタイム応答向けに設定(ドキュメントではより小さい最大トークン数を記載)。
最適な用途チャットボット、Chat セマンティクスと音声の両方が必要な音声対応アシスタント。ライブ音声エージェント、キオスク、低レイテンシの会話型インターフェース。

代表的なユースケース

  • カスタマーサポートや社内ヘルプデスク向けの会話型音声エージェント。
  • アプリ、デバイス、キオスクに組み込まれた音声対応アシスタント。
  • ハンズフリーのワークフロー(ディクテーション、音声検索、アクセシビリティ)。
  • Chat Completions を通じて音声とテキスト/画像を組み合わせるマルチモーダル体験。

制約と運用上の考慮事項

  • 人間の QA の代替にはならない: 本番のワークフローでは、音声出力や後続のアクションを人間がレビューし、検証してください。
  • リソース計画: 大きなコンテキストと音声 I/O により、計算資源やレイテンシが増大する可能性があります。長いセッションではストリーミング/セグメンテーション戦略を設計してください。
  • 安全性とポリシー上の制約: 音声出力は説得力を持ち得ます。大規模展開時は、プラットフォームの安全性ガイドラインとガードレールに従ってください。
  • GPT Audio 1.5 API へのアクセス方法

Step 1: Sign Up for API Key

Log in to cometapi.com. If you are not our user yet, please register first. Sign into your CometAPI console. Get the access credential API key of the interface. Click “Add Token” at the API token in the personal center, get the token key: sk-xxxxx and submit.

cometapi-key

Step 2: Send Requests to GPT Audio 1.5 API

Select the “gpt-audio-1.5” endpoint to send the API request and set the request body. The request method and request body are obtained from our website API doc. Our website also provides Apifox test for your convenience. Replace <YOUR_API_KEY> with your actual CometAPI key from your account. base url is Chat Completions

Insert your question or request into the content field—this is what the model will respond to . Process the API response to get the generated answer.

Step 3: Retrieve and Verify Results

Process the API response to get the generated answer. After processing, the API responds with the task status and output data.

よくある質問

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 は 128,000 トークンのコンテキストウィンドウに対応しており、ドキュメントには最大出力トークン設定は約 16,384 と記載されています。正確な上限は各エンドポイントの開発者ドキュメントで確認してください。 :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

はい — 音声入力を受け付け、Chat Completions/audio エンドポイント経由で音声出力またはテキスト応答を返すことができます。 :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

より大きなコンテキストが必要な Chat Completions フローで高品質な音声が求められる場合は gpt-audio-1.5 を選択し、低レイテンシのライブストリーミング音声対話には gpt-realtime-1.5 を選択してください。 :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

はい — このモデルは、外部ツールやワークフローと統合するために、ストリーミング音声応答および構造化出力/関数呼び出しをサポートします。 :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

はい — 音声アシスタントや会話エージェント向けに設計されていますが、本番導入前に人によるレビュー/QA、ロギング、およびセーフティ制御を追加する必要があります。 :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

主な考慮点は、大きなコンテキストの音声セッションにおける計算リソース/レイテンシのトレードオフ、音声コンテンツのセーフティガードレール、そしてドメイン内で ASR/TTS の出力を検証する必要性です。 :contentReference[oaicite:49]{index=49}

gpt-audio-1.5の機能

gpt-audio-1.5のパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

gpt-audio-1.5の料金

gpt-audio-1.5の競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。gpt-audio-1.5がコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
入力:$2/M
出力:$8/M
入力:$2.5/M
出力:$10/M
-20%

gpt-audio-1.5のサンプルコードとAPI

gpt-audio-1.5の包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでgpt-audio-1.5の潜在能力を最大限に活用できるよう支援します。
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

その他のモデル

O

gpt-realtime-1.5

入力:$3.2/M
出力:$12.8/M
音声入力・音声出力に最適な音声モデル。
O

Whisper-1

入力:$24/M
出力:$24/M
音声をテキストに変換、翻訳を作成
O

TTS

入力:$12/M
出力:$12/M
OpenAI テキスト読み上げ
K

Kling TTS

リクエストごと:$0.006608
[音声合成] 新登場:テキストから放送用音声をオンラインで生成、プレビュー機能付き ● 同時にaudio_idを生成でき、任意のKeling APIで利用可能。
K

Kling video-to-audio

K

Kling video-to-audio

リクエストごと:$0.03304
Kling 動画から音声に
K

Kling text-to-audio

K

Kling text-to-audio

リクエストごと:$0.03304
Kling テキストからオーディオ生成