2025 年 6 月 4 日 OpenAIは、特に音声ベースのインタラクション機能を備えたAIエージェントの開発方法に革命を起こすことを目的とした、強力なアップデートスイートをリリースしました。これらのアップデートは、Agents SDKにおけるTypeScriptの完全サポート、人間参加型介入メカニズム、リアルタイム音声アプリ向けRealtimeAgentのデビュー、そしてOpenAIの音声合成モデルの大幅な強化など、複数の分野にまたがっています。
これらのアップデートを組み合わせることで、安全で制御可能で魅力的な AI エージェントの構築がこれまで以上にアクセスしやすくなります。
TypeScript がエージェント SDK に登場
Webエコシステムにおける開発者の支援
OpenAIの人気エージェントSDKがTypeScriptをサポートし、JavaScriptおよびNode.js環境でAIアプリケーションを開発する開発者に堅牢なツールを提供します。TypeScript版はPython版と同等の機能を提供し、エージェント構築に不可欠なプリミティブをすべてサポートしています。
- ハンドオフ – 複数のエージェント間でのシームレスなタスク転送
- ガードレール – 行動制約と安全メカニズム
- トレーシング – きめ細かなログ記録と診断
- MCP(マルチコンポーネントパターン) – モジュール型分散エージェントのサポート
重要な理由:
Web 開発者は、ブラウザ、Web アプリ、Node.js 環境に AI エージェントをシームレスに埋め込むことができるようになり、音声アシスタント、リアルタイム チャットボット、ブラウザ内コパイロットなどのエクスペリエンスを実現できます。
人間参加型(HITL)レビューメカニズム
より安全なエージェントの行動のための人間による監視の導入
安全性と説明責任を強化するため、OpenAIはエージェントワークフローに人間による承認機能を導入しました。エージェントが特定の外部ツール呼び出しやAPIアクションを実行する前に、人間が介入して動作を承認、拒否、または調整することができます。
コアワークフロー:
- ツールの実行を一時停止する
- 現在のエージェントの状態をシリアル化して保存する
- 人間によるレビューと承認をリクエストする
- 確認後にワークフローを再開する
理想的なもの:
金融取引、医療データ分析、機密性の高い顧客サービス業務など、リスクの高いユースケース。このメカニズムは、AIによる意思決定における透明性、コンプライアンス、倫理的保護を強化します。
RealtimeAgent: 音声エージェントの構築がかつてないほど簡単になりました
OpenAIの新しい リアルタイムエージェント この機能では、Realtime API を活用して、開発者がクライアント側でもサーバー側でも機能する強力な音声エージェントを構築できるようにします。
主な特長:
- リアルタイム音声入力と出力
- 統合された関数/ツール呼び出し
- 中断とダイナミックオーディオ再生のサポート
- ハンドオフとガードレールとの互換性
なぜ変革をもたらすのか:
音声エージェントはテキストエージェントと同様に、AIツールとロジックにフルアクセスして開発できるようになりました。これにより、次のような高度なアプリケーションの開発が可能になります。
- AI搭載の音声サポートシステム
- リアルタイム翻訳またはディクテーションツール
- インタラクティブな音声対応ロールプレイングゲーム
Tracesダッシュボードが音声中心にアップグレード
音声インタラクションのあらゆるステップを視覚化
当学校区の 形跡 デバッグおよび監視ツールが更新され、リアルタイムの音声エージェント セッションの豊富な視覚化がサポートされるようになりました。
新しいダッシュボード機能:
- ユーザーとエージェントの応答の両方の音声波形を表示する
- ツールの呼び出し履歴とそのパラメータのログ記録
- 中断ポイントを強調表示する(例:ユーザーが文の途中で割り込むとき)
開発者にとってのメリット: より明確なデバッグ、より高速な反復、音声ファーストのユーザー エクスペリエンスのより優れた最適化。
GPT-4o音声合成モデル:よりインテリジェントで、より自然
よりスマートな音声、強化された実行
GPT-4o 音声モデルは、リアルタイムの音声タスクでの有効性を高めるために大幅な改良が行われました。
- より良い指示の遵守 – より高い精度でコマンドを実行します
- より一貫したツールの使用 – ツール呼び出しのばらつきを軽減
- 割り込み処理の改善 – 会話中の調整をよりスマートに
- 音声速度を調整可能 - 新着
speed柔軟な音声出力ペースのパラメータ
利用可能なモデル:
gpt-4o-realtime-preview-2025-06-03– リアルタイムAPIに最適化gpt-4o-audio-preview-2025-06-03– 音声付きチャット補完用に設計
これらのアップデートにより、AI の音声はより自然になり、応答性が向上し、指示しやすくなります。テンポの速いニュース速報でも、ゆっくりとした指導的な対話でも、AI の音声がより自然になります。
まとめ:音声AIエージェントの新時代
OpenAI は、これら 4 つのアップデートにより、AI エージェント開発の領域をさらに拡大し、開発者が人間のようなデジタル アシスタントをより簡単に、より安全に、より柔軟に作成できるようにします。
TypeScript サポート、人間による承認、音声エージェント フレームワーク、アップグレードされた音声モデルの統合により、プラットフォームや業界全体にわたってインテリジェントでインタラクティブ、かつコンテキストを認識するエージェントを設計するための完全なツールキットが提供されます。
音声対応の顧客アシスタント、ゲーム キャラクター、仮想家庭教師などを構築する場合でも、OpenAI の最新ツールを使用すると、これまでよりも高速かつスマートに開発を行うことができます。
スタートガイド
CometAPIは、ChatGPTファミリーを含む数百のAIモデルを一貫したエンドポイントに集約する統合RESTインターフェースを提供します。APIキー管理、使用量制限、課金ダッシュボードが組み込まれているため、複数のベンダーURLと認証情報を管理する手間が省けます。
まず、モデルの機能を調べてみましょう。 プレイグラウンド そして相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。
CometAPIのGPT-4o音声合成モデルがリリースされました。 gpt-4o-realtime-preview-2025-06-03 および gpt-4o-audio-preview-2025-06-03お電話お待ちしております!
も参照してください GPT-4.1 API
