2025 年 6 月 4 日 OpenAI 發布了一套強大的更新,旨在徹底改變開發人員建立 AI 代理程式的方式,尤其是那些具有語音互動功能的代理程式。這些更新涵蓋多個面向:Agents SDK 中對 TypeScript 的全面支援、人機互動機制、用於即時語音應用的 RealtimeAgent 的首次亮相,以及對 OpenAI 語音轉語音模型的重大增強。
這些更新結合起來,使得建立安全、可控且引人入勝的人工智慧代理比以往任何時候都更容易。
TypeScript 現已加入 Agents SDK
賦能 Web 生態系中的開發者
OpenAI 廣受歡迎的 Agents SDK 現已支援 TypeScript,為在 JavaScript 和 Node.js 環境中建立 AI 應用程式的開發者帶來強大的工具。 TypeScript 版本提供與 Python 版本相同的功能,支援所有必要的代理程式建置原語:
- 交接 – 跨多個代理的無縫任務傳輸
- 護欄 – 行為約束與安全機制
- 追踪 – 細粒度的日誌記錄和診斷
- MCP(多組件模式) – 支援模組化、分散式代理
為何重要:
Web 開發人員現在可以將 AI 代理程式無縫嵌入瀏覽器、Web 應用程式和 Node.js 環境中,從而實現語音助理、即時聊天機器人和瀏覽器內副駕駛等體驗。
人機協同(HITL)審核機制
引入人工監督,確保代理行為更安全
為了增強安全性和問責制,OpenAI 在代理工作流程中引入了人工審批功能。在代理執行某些外部工具呼叫或 API 操作之前,人工可以進行幹預,以批准、拒絕或調整其行為。
核心工作流程:
- 暫停工具執行
- 序列化並保存目前代理狀態
- 請求人工審核和批准
- 確認後恢復工作流程
理想選擇:
涉及高風險的用例,例如金融交易、醫療數據分析或敏感的客戶服務任務。此機制可增強 AI 決策的透明度、合規性和道德保障。
RealtimeAgent:建立語音代理從未如此簡單
OpenAI 的新 即時代理 此功能利用即時 API 讓開發人員建立可在客戶端或伺服器端運行的強大語音代理程式。
主要功能:
- 即時語音輸入和輸出
- 集成函數/工具調用
- 支援中斷和動態音訊播放
- 與交接和護欄的兼容性
為什麼它具有變革性:
現在,語音代理可以像文字代理一樣進行開發,並完全存取 AI 工具和邏輯。這為以下高級應用程式打開了大門:
- 人工智慧語音支援系統
- 即時翻譯或聽寫工具
- 互動式語音角色扮演遊戲
Traces Dashboard 獲得以語音為中心的升級
可視化語音互動的每個步驟
痕跡 調試和監控工具已更新,以支援即時語音代理會話的豐富視覺化。
新的儀表板功能:
- 顯示使用者和代理回應的音訊波形
- 測井工具調用歷史及其參數
- 反白中斷點(例如,當使用者在句子中間插話時)
對開發人員的好處: 更清晰的調試、更快的迭代以及更好的語音優先用戶體驗優化。
GPT-4o 語音轉語音模型:更聰明、更自然
更聰明的語音,更強大的執行力
GPT-4o 語音模型經過了廣泛的改進,以提高其在即時語音任務中的有效性:
- 更好地遵循指令 – 以更高的準確度執行指令
- 更一致的工具使用 – 減少工具呼叫的變化
- 改進中斷處理 – 更聰明的對話中段調整
- 可調語速 –新
speed彈性語音輸出節奏的參數
可用型號:
gpt-4o-realtime-preview-2025-06-03– 針對即時 API 進行了最佳化gpt-4o-audio-preview-2025-06-03– 專為透過音訊完成聊天而設計
這些更新使人工智慧的聲音更加自然、更快回應、更容易引導——無論是快節奏的新聞發布會還是緩慢的指導性對話。
最後的想法:語音AI代理的新時代
透過這四項更新,OpenAI 繼續拓展 AI 代理開發的前沿,使開發人員能夠更輕鬆、更安全、更靈活地打造類似人類的數位助理。
TypeScript 支援、人機互動審批、語音代理框架和升級的語音模型的整合提供了跨平台和行業設計智慧、互動式和上下文感知代理的完整工具包。
無論您是要建立支援語音的客戶助理、遊戲角色還是虛擬導師,OpenAI 的最新工具都能讓您比以往更快、更聰明地完成任務。
入門
CometAPI 提供了一個統一的 REST 接口,該接口在一致的端點下聚合了數百個 AI 模型(包括 ChatGPT 系列),並具有內建的 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。
首先,探索該模型的功能 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。
CometAPI 中的 GPT-4o 語音轉語音模型已發布, gpt-4o-realtime-preview-2025-06-03 gpt-4o-audio-preview-2025-06-03,歡迎來電!
參見 GPT-4.1 API
