2025 年 6 月 4 日 — OpenAI 发布了一组强大的更新,旨在革新开发者构建 AI 代理的方式,尤其是具备语音交互能力的代理。这些更新覆盖多个方面:Agents SDK 的完整 TypeScript 支持、人类在环干预机制、面向实时语音应用的 RealtimeAgent 首次亮相,以及对 OpenAI 语音到语音模型的重大增强。
综合来看,这些更新让构建安全、可控且富有吸引力的 AI 代理比以往任何时候都更容易上手。
TypeScript 加入 Agents SDK
赋能 Web 生态中的开发者
OpenAI 广受欢迎的 Agents SDK 现已支持 TypeScript——为在 JavaScript 与 Node.js 环境中构建 AI 应用的开发者带来强大的工具集。TypeScript 版本与其 Python 版本实现功能对等,支持所有关键的代理构建原语:
- Handoffs – 多个代理之间的无缝任务移交
- Guardrails – 行为约束与安全机制
- Tracing – 细粒度日志与诊断
- MCP (多组件模式) – 支持模块化、分布式代理
为什么这很重要:
Web 开发者如今可以在浏览器、Web 应用和 Node.js 环境中无缝嵌入 AI 代理,构建语音助手、实时聊天机器人以及浏览器内助理等体验。
人类在环(HITL)审核机制
引入人类监督以提升代理行为安全性
为增强安全性与可问责性,OpenAI 在代理工作流中引入了人类审批功能。在代理执行某些外部工具调用或 API 操作之前,人类可介入进行批准、拒绝或调整其行为。
核心流程:
- 暂停工具执行
- 序列化并保存当前代理状态
- 请求人类审核与批准
- 确认后恢复工作流
适用场景:
涉及高风险的用例,例如金融交易、医疗数据分析或敏感的客户服务任务。该机制提升了 AI 决策的透明度、合规性与伦理保障。
RealtimeAgent:构建语音代理从未如此轻松
OpenAI 全新的 RealtimeAgent 能力基于 Realtime API,使开发者能够在客户端或服务端构建健壮的语音代理。
关键特性:
- 实时语音输入与输出
- 集成功能/工具调用
- 支持打断与动态音频播放
- 兼容 handoffs 与 guardrails
变革意义:
如今,语音代理可以像文本代理一样开发——充分访问 AI 工具与逻辑。这为以下高级应用打开大门:
- AI 驱动的语音支持系统
- 实时翻译或听写工具
- 交互式、支持语音的角色扮演游戏
Traces Dashboard 迎来以语音为中心的升级
可视化语音交互的每一步
Traces 调试与监控工具已更新,支持对实时语音代理会话进行丰富的可视化展示。
仪表板新增能力:
- 展示用户与代理响应的音频波形
- 记录工具调用历史及其参数
- 高亮显示打断点(例如用户在句中插话时)
对开发者的益处: 更清晰的调试、更快速的迭代,以及对以语音为先的用户体验进行更好的优化。
GPT-4o 语音到语音模型:更智能,更自然
更聪明的语音,更强的执行
GPT-4o 语音模型经过大幅改进,以提升其在实时语音任务中的效能:
- 更佳的指令遵循——以更高准确率执行命令
- 更一致的工具使用——降低工具调用的波动性
- 改进的打断处理——在对话中段作出更智能的调整
- 可调节的语速——新增
speed参数,灵活控制语音输出节奏
可用模型:
gpt-4o-realtime-preview-2025-06-03— 针对 Realtime API 优化gpt-4o-audio-preview-2025-06-03— 面向带音频的 Chat Completions 设计
这些更新让 AI 语音更自然、更灵敏、更易于引导——无论是快节奏的新闻简报还是缓慢的教学对话。
结语:语音 AI 代理的新纪元
凭借这四项更新,OpenAI 持续拓展 AI 代理开发的边界——让开发者更轻松、更安全、更灵活地打造类人数字助理。
TypeScript 支持、人类在环审批、语音代理框架与升级后的语音模型的融合,构成了一套完整工具包,可在各平台与行业中设计智能、交互、具备上下文感知的代理。
无论你正在构建语音客服助理、游戏角色或虚拟导师,OpenAI 的最新工具都将赋予你前所未有的速度与智能。
入门
CometAPI 提供统一的 REST 接口,在一致的端点下聚合数百种 AI 模型(包括 ChatGPT 系列),并内置 API 密钥管理、使用配额与计费仪表板,无需在多个厂商的 URL 与凭据之间来回切换。
开始使用前,可在 Playground 中探索模型能力,并查阅 API 指南 获取详细说明。访问之前,请确保已登录 CometAPI 并获得 API 密钥。
CometAPI 中的 GPT-4o 语音到语音模型已发布,分别为 gpt-4o-realtime-preview-2025-06-03 和 gpt-4o-audio-preview-2025-06-03,欢迎调用!
参见 GPT-4.1 API
