GPT-5.6 Series is now live on CometAPI →

O

GPT-4o mini Audio Preview

入力:$60/M

出力:$240/M

リリース日:Oct 1, 2025

GPT-4o mini Audio Preview は、音声対話アプリケーションの構築向けのコンパクトなマルチモーダルモデルです。テキストに加えて音声の入出力をサポートし、音声認識、音声合成、さらに構造化されたアクションのためのツールや関数の呼び出しと組み合わせた、テキストと音声が混在する対話を実現します。代表的な用途には、音声アシスタント、要約付きストリーミング文字起こし、IVR やコールボットのワークフロー、音声対応のアプリ内ヘルパーが含まれます。技術的なハイライトには、オーディオの入出力、ストリーミング応答、指示追従、チャットおよびツールの API を介した統合が含まれます。

商用利用

`gpt-4o-mini-audio-preview` の技術仕様

仕様	詳細
モデル ID	`gpt-4o-mini-audio-preview`
モデルタイプ	コンパクトなマルチモーダル音声プレビューモデル
コアモダリティ	テキスト入出力、音声入力、音声出力
主なインターフェースパターン	マルチモーダルなメッセージ内容によるチャットベースのやり取り
音声機能	音声認識、音声合成、テキストと音声が混在する会話
ストリーミング対応	はい、リアルタイムの会話フローに適しています
ツール／関数呼び出し	構造化アクションとワークフロー統合をサポート
最適な用途	音声アシスタント、ストリーミング文字起こし、IVR、コールボットのワークフロー、アプリ内オーディオヘルパー
インタラクションスタイル	マルチモーダルなターンを持つ指示追従型の会話モデル
統合パターン	`gpt-4o-mini-audio-preview` モデル ID を使用した CometAPI 経由の API ベースのアクセス

`gpt-4o-mini-audio-preview` とは？

gpt-4o-mini-audio-preview は、会話型オーディオ体験を構築したい開発者向けに設計されたコンパクトなマルチモーダルモデルです。標準的なテキストのやり取りに加えて音声入力と音声出力の両方をサポートしており、ユーザーが自然に話し、音声またはテキストで応答を受け取るアプリケーションに適しています。

このモデルは、自動音声認識、自然言語理解、音声合成を単一の会話ループに統合する必要があるプロダクトに特に有用です。書き起こし、推論、応答生成を別々のコンポーネントとして扱うのではなく、gpt-4o-mini-audio-preview はテキストと音声が混在する対話のための統一ワークフローを可能にします。

さらにツールや関数呼び出しにも対応しているため、単なる会話以上のことが可能です。アカウント情報の参照、カスタマーサポートのルーティング、レコードの更新、アプリケーション内のビジネスロジックの呼び出しなど、構造化されたアクションをトリガーできます。そのため、仮想アシスタント、電話サポートエージェント、IVR システム、要約付きの文字起こしパイプライン、音声対応のプロダクトアシスタントといった本番の音声システムに適しています。

`gpt-4o-mini-audio-preview` の主な機能

音声入力のサポート: 音声主導のユーザーインタラクションを受け付け、自然な音声リクエストを処理できます。
音声出力の生成: アシスタント、コールオートメーション、音声ガイダンス体験向けの音声応答を生成します。
テキストと音声が混在する会話: あるターンは音声、別のターンはテキストといったハイブリッドなインターフェースに対応します。
コンパクトなマルチモーダル設計: 応答性の高いアプリケーションに適した軽量なモデルフットプリントで音声対応機能を提供します。
ストリーミング応答: ライブアシスタントやストリーミング文字起こしシステムなど、低レイテンシのリアルタイム体験を支えます。
ツール／関数呼び出し: 自由対話を越えたタスクのために、構造化ツールや業務関数を呼び出せるようにします。
指示追従: アプリケーションレベルのガイダンスに従い、応答を製品の挙動やワークフロー要件に合わせます。
書き起こしと要約のワークフロー: 音声でのやり取りを構造化テキスト、要約、または下流のアクションへ変換する用途に役立ちます。
IVR とコールボット対応: 音声インタラクションとタスクのルーティングが中核となるカスタマーサポートや電話のシナリオに適合します。
アプリ内の音声アシスタンス: 音声対応のヘルプ、オンボーディング、ガイド付き操作が必要なソフトウェア製品に組み込めます。

`gpt-4o-mini-audio-preview` のアクセスと統合方法

ステップ 1: API キーの登録

gpt-4o-mini-audio-preview を使い始めるには、まず CometAPI でアカウントを作成し、ダッシュボードから API キーを生成します。このキーはすべてのリクエストの認証に使用され、アプリケーションを安全にモデルへ接続します。

ステップ 2: `gpt-4o-mini-audio-preview` API にリクエストを送信

音声入出力をサポートする CometAPI の OpenAI 互換エンドポイントを使用します。

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -d '{
    "model": "gpt-4o-mini-audio-preview",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Tell me a short joke."
      }
    ]
  }'

ステップ 3: 結果の取得と検証

API は標準のチャット補完レスポンスを返し、base64 でエンコードされた音声出力を含む追加の audio フィールドが含まれます。本番利用前に音声データをデコードし、品質を確認してください。

GPT-4o mini Audio Previewの料金

GPT-4o mini Audio Previewの競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。GPT-4o mini Audio Previewがコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。

コメット価格 (USD / M Tokens)	公式価格 (USD / M Tokens)	割引
入力:$60/M 出力:$240/M	入力:$75/M 出力:$300/M	-20%

GPT-4o mini Audio PreviewのサンプルコードとAPI

GPT-4o mini Audio Previewの包括的なサンプルコードとAPIリソースにアクセスして、統合プロセスを効率化しましょう。詳細なドキュメントでは段階的なガイダンスを提供し、プロジェクトでGPT-4o mini Audio Previewの潜在能力を最大限に活用できるよう支援します。

GPT-4o mini Audio Previewのバージョン

GPT-4o mini Audio Previewに複数のスナップショットが存在する理由としては、アップデート後の出力変動により旧版スナップショットの一貫性維持が必要な場合、開発者に適応・移行期間を提供するため、グローバル/リージョナルエンドポイントに対応する異なるスナップショットによるユーザー体験最適化などが考えられます。各バージョンの詳細な差異については、公式ドキュメントをご参照ください。

version
gpt-4o-mini-audio-preview
gpt-4o-mini-audio-preview-2024-12-17