正在变革 AI 开发的智能体:OpenAI 的最新更新

CometAPI
AnnaJun 3, 2025
正在变革 AI 开发的智能体:OpenAI 的最新更新

2025 年 6 月 4 日 — OpenAI 发布了一组强大的更新,旨在革新开发者构建 AI 代理的方式,尤其是具备语音交互能力的代理。这些更新覆盖多个方面:Agents SDK 的完整 TypeScript 支持、人类在环干预机制、面向实时语音应用的 RealtimeAgent 首次亮相,以及对 OpenAI 语音到语音模型的重大增强。

综合来看,这些更新让构建安全、可控且富有吸引力的 AI 代理比以往任何时候都更容易上手。


TypeScript 加入 Agents SDK

赋能 Web 生态中的开发者

OpenAI 广受欢迎的 Agents SDK 现已支持 TypeScript——为在 JavaScript 与 Node.js 环境中构建 AI 应用的开发者带来强大的工具集。TypeScript 版本与其 Python 版本实现功能对等,支持所有关键的代理构建原语:

  • Handoffs – 多个代理之间的无缝任务移交
  • Guardrails – 行为约束与安全机制
  • Tracing – 细粒度日志与诊断
  • MCP (多组件模式) – 支持模块化、分布式代理

为什么这很重要:

Web 开发者如今可以在浏览器、Web 应用和 Node.js 环境中无缝嵌入 AI 代理,构建语音助手、实时聊天机器人以及浏览器内助理等体验。


人类在环(HITL)审核机制

引入人类监督以提升代理行为安全性

为增强安全性与可问责性,OpenAI 在代理工作流中引入了人类审批功能。在代理执行某些外部工具调用或 API 操作之前,人类可介入进行批准、拒绝或调整其行为。

核心流程:

  1. 暂停工具执行
  2. 序列化并保存当前代理状态
  3. 请求人类审核与批准
  4. 确认后恢复工作流

适用场景:

涉及高风险的用例,例如金融交易、医疗数据分析或敏感的客户服务任务。该机制提升了 AI 决策的透明度、合规性与伦理保障。


RealtimeAgent:构建语音代理从未如此轻松

OpenAI 全新的 RealtimeAgent 能力基于 Realtime API,使开发者能够在客户端或服务端构建健壮的语音代理。

关键特性:

  • 实时语音输入与输出
  • 集成功能/工具调用
  • 支持打断与动态音频播放
  • 兼容 handoffs 与 guardrails

变革意义:
如今,语音代理可以像文本代理一样开发——充分访问 AI 工具与逻辑。这为以下高级应用打开大门:

  • AI 驱动的语音支持系统
  • 实时翻译或听写工具
  • 交互式、支持语音的角色扮演游戏

Traces Dashboard 迎来以语音为中心的升级

可视化语音交互的每一步

Traces 调试与监控工具已更新,支持对实时语音代理会话进行丰富的可视化展示。

仪表板新增能力:

  • 展示用户与代理响应的音频波形
  • 记录工具调用历史及其参数
  • 高亮显示打断点(例如用户在句中插话时)

对开发者的益处: 更清晰的调试、更快速的迭代,以及对以语音为先的用户体验进行更好的优化。


GPT-4o 语音到语音模型:更智能,更自然

更聪明的语音,更强的执行

GPT-4o 语音模型经过大幅改进,以提升其在实时语音任务中的效能:

  • 更佳的指令遵循——以更高准确率执行命令
  • 更一致的工具使用——降低工具调用的波动性
  • 改进的打断处理——在对话中段作出更智能的调整
  • 可调节的语速——新增 speed 参数,灵活控制语音输出节奏

可用模型:

  • gpt-4o-realtime-preview-2025-06-03 — 针对 Realtime API 优化
  • gpt-4o-audio-preview-2025-06-03 — 面向带音频的 Chat Completions 设计

这些更新让 AI 语音更自然、更灵敏、更易于引导——无论是快节奏的新闻简报还是缓慢的教学对话。

结语:语音 AI 代理的新纪元

凭借这四项更新,OpenAI 持续拓展 AI 代理开发的边界——让开发者更轻松、更安全、更灵活地打造类人数字助理。

TypeScript 支持、人类在环审批、语音代理框架与升级后的语音模型的融合,构成了一套完整工具包,可在各平台与行业中设计智能、交互、具备上下文感知的代理。

无论你正在构建语音客服助理、游戏角色或虚拟导师,OpenAI 的最新工具都将赋予你前所未有的速度与智能。

入门

CometAPI 提供统一的 REST 接口,在一致的端点下聚合数百种 AI 模型(包括 ChatGPT 系列),并内置 API 密钥管理、使用配额与计费仪表板,无需在多个厂商的 URL 与凭据之间来回切换。

开始使用前,可在 Playground 中探索模型能力,并查阅 API 指南 获取详细说明。访问之前,请确保已登录 CometAPI 并获得 API 密钥。

CometAPI 中的 GPT-4o 语音到语音模型已发布,分别为 gpt-4o-realtime-preview-2025-06-03gpt-4o-audio-preview-2025-06-03,欢迎调用!

参见 GPT-4.1 API

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣