GPT-Realtime音声モデルが画像入力をサポートし利用可能になりました

CometAPI
AnnaAug 28, 2025
GPT-Realtime音声モデルが画像入力をサポートし利用可能になりました

OpenAIは本日、 GPT-Realtime音声モデルが画像入力をサポートし利用可能になりましたRealtime APIがベータ版から一般提供版に移行し、実稼働の音声エージェントで利用可能になりました。このリリースにより、GPT-Realtimeは低レイテンシの音声合成モデルとして位置付けられ、双方向の音声会話を実行しながら、セッション中に提供される画像に基づいて応答を生成できるようになります。

OpenAIは gptリアルタイム 同社史上最も高度な音声合成モデルとして、音声をエンドツーエンドで処理(音声テキスト化とテキスト音声化を個別に処理するのではなく)し、より自然で表現力豊かな音声を生成するほか、理解、指示の追従、関数呼び出しにおいて目に見える向上が見られる。同社は社内ベンチマークにおける改善点を強調し、笑い声や文中の言語切り替えといった繊細なニュアンスを捉え、英数字コンテンツの精度向上にも寄与していると述べた。

新着情報

  • ライブ音声セッションでの画像入力。 開発者は、音声やテキストに加えて、写真、スクリーンショット、その他の画像を添付できます。モデルは視覚的な質問に答えたり、スクリーンショット内のテキストをOCRスタイルで読み取ったり、シーン理解に基づいた音声応答を組み込んだりできます。これにより、通話中のビジュアルQ&Aや、カスタマーサービスにおけるマルチモーダルサポートといったワークフローが可能になります。
  • 音声対音声、低遅延、より表現力豊かな音声。 GPT-Realtimeは、従来のSTT→LLM→TTSチェーンと比較して、往復遅延を低減したネイティブオーディオ出力を提供し、表現力豊かな音声オプション(カバレッジでは「Cedar」と「Marine」として報告されています)を備えています。このモデルは、指示の理解と会話のニュアンスに合わせて調整されています。
  • エンタープライズ統合機能。 Realtime APIのアップデートでは、MCPサーバーのサポートやSIP電話通話といったエンタープライズ向け機能が追加され、音声エージェントが電話ネットワークやPBXシステムに直接接続できるようになります。これらの追加機能は、カスタマーサポートやコンタクトセンターへの導入を想定しています。

ベンチマーク

BigBenchオーディオ(推論):82.8% — から 65.6% OpenAIの2024年XNUMX月のリアルタイムモデルに基づく。これは、音声対応推論タスクにおいて報告された主要な推論ベンチマークです。

マルチチャレンジ(指示に従う、音声):約30.5% vs 〜20.6%で 以前は、複数の手順や複雑な口頭指示に対する遵守が改善されていました。

ComplexFuncBench(関数呼び出し成功率): ~66.5% vs 〜49.7%で 以前は、オーディオ セッション中にモデルがツール/関数を呼び出す必要がある場合の信頼性が向上しました。

コストとレイテンシー: OpenAI によれば、新しいモデルはトークンあたりのオーディオ コストを削減し (以前のリアルタイム プレビューよりも約 20% 低い)、単一のエンドツーエンド モデルとして動作し (個別の STT → LM → TTS チェーンがない)、リアルタイムのインタラクティブ フローにおけるエンドツーエンドのレイテンシを削減します。

OpenAIは、 gpt-realtime このモデルは、様々な客観的なベンチマークと実世界における動作において大幅な改善を示しており、BigBench Audioと命令追跡/関数呼び出しの評価においてスコアが向上しています。また、ライブオーディオにおける英数字、コードワード、言語切り替えの処理も改善されています。さらに、同社は20つの新しい音声(CedarとMarin)を導入し、以前のリアルタイムプレビューモデルと比較してXNUMX%の値下げを発表しました。

リアルタイムAPIと gpt-realtime モデルが開発者に利用可能になりました (GA)。OpenAI は今回のアップデートで Realtime API の価格も引き下げ、オーディオ入力を 32 万トークンあたり 64 ドル、オーディオ出力を 20 万トークンあたり XNUMX ドルに引き下げました。これは以前の価格から XNUMX% の値下げであり、開発者により経済的なソリューションを提供します。

スタートガイド

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

開発者はアクセスできる  GPT-5 CometAPIを通じて、記事の公開日時点での最新モデルのバージョンが掲載されています。まずは、モデルの機能について調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

最新の統合 gpt-realtime もうすぐCometAPIに登場するのでお楽しみに!

もっと読む

1つのAPIで500以上のモデル

最大20%オフ