Agentes que transforman el desarrollo de la IA: últimas actualizaciones de OpenAI

4 de Junio de 2025 OpenAI ha lanzado un potente conjunto de actualizaciones que revoluciona la forma en que los desarrolladores crean agentes de IA, en particular aquellos con capacidades de interacción por voz. Las actualizaciones abarcan múltiples aspectos: compatibilidad total con TypeScript en el SDK de Agentes, un mecanismo de intervención humana en el circuito, el debut de RealtimeAgent para aplicaciones de voz en tiempo real y mejoras significativas en el modelo de voz a voz de OpenAI.

En conjunto, estas actualizaciones hacen que la creación de agentes de IA seguros, controlables y atractivos sea más accesible que nunca.

TypeScript llega al SDK de Agents

Empoderando a los desarrolladores en el ecosistema web

El popular SDK de Agentes de OpenAI ahora es compatible con TypeScript, lo que proporciona herramientas robustas a los desarrolladores que crean aplicaciones de IA en entornos JavaScript y Node.js. La versión de TypeScript ofrece la misma funcionalidad que su versión de Python, compatible con todas las primitivas esenciales para la creación de agentes:

Transferencias – Transferencias de tareas fluidas entre múltiples agentes
Las barandillas – Restricciones de comportamiento y mecanismos de seguridad
Rastreo – Registro y diagnóstico detallados
MCP (Patrón multicomponente) – Soporte para agentes modulares y distribuidos

Por qué es importante:

Los desarrolladores web ahora pueden integrar sin problemas agentes de IA en navegadores, aplicaciones web y entornos Node.js, lo que permite experiencias como asistentes de voz, chatbots en tiempo real y copilotos en el navegador.

Mecanismo de revisión de participación humana (HITL)

Introducción de la supervisión humana para un comportamiento más seguro de los agentes

Para reforzar la seguridad y la rendición de cuentas, OpenAI introduce una función de aprobación humana en los flujos de trabajo de los agentes. Antes de que un agente pueda ejecutar ciertas llamadas a herramientas externas o acciones de la API, una persona puede intervenir para aprobar, rechazar o ajustar el comportamiento.

Flujo de trabajo principal:

Pausar la ejecución de la herramienta
Serializar y guardar el estado actual del agente
Solicitar revisión y aprobación humana
Reanudar el flujo de trabajo después de la confirmación

Ideal para:

Casos de uso de alto riesgo, como transacciones financieras, análisis de datos médicos o tareas sensibles de atención al cliente. Este mecanismo mejora la transparencia, el cumplimiento normativo y las garantías éticas en la toma de decisiones de IA.

RealtimeAgent: Crear agentes de voz nunca ha sido tan fácil

Lo nuevo de OpenAI Agente en tiempo real Esta capacidad aprovecha la API en tiempo real para permitir a los desarrolladores crear agentes de voz robustos que funcionen tanto en el lado del cliente como en el del servidor.

Características Clave:

Entrada y salida de voz en tiempo real
Llamada de funciones/herramientas integrada
Soporte para interrupciones y reproducción dinámica de audio.
Compatibilidad con transferencias y barandillas

Por qué es transformador:
Ahora, los agentes de voz pueden desarrollarse igual que los agentes de texto, con acceso completo a herramientas y lógica de IA. Esto abre la puerta a aplicaciones avanzadas como:

Sistemas de soporte de voz impulsados por IA
Herramientas de traducción o dictado en tiempo real
Juegos de rol interactivos activados por voz

El panel de control de Traces se actualiza con tecnología de voz

Visualizando cada paso de una interacción de voz

El elemento Traces La herramienta de depuración y monitoreo se ha actualizado para admitir una visualización enriquecida de sesiones de agente de voz en tiempo real.

Nuevas capacidades del panel de control:

Visualización de formas de onda de audio para las respuestas del usuario y del agente
Historial de llamadas de la herramienta de registro y sus parámetros
Resaltar los puntos de interrupción (por ejemplo, cuando un usuario interrumpe a mitad de una oración)

Beneficios para los desarrolladores: Depuración más clara, iteración más rápida y mejor optimización de las experiencias de usuario priorizando la voz.

Modelo de voz a voz GPT-4o: más inteligente, más natural

Voz más inteligente, ejecución mejorada

El modelo de voz GPT-4o ha experimentado importantes mejoras para aumentar su eficacia en tareas de voz en tiempo real:

Mejor seguimiento de instrucciones – Ejecuta comandos con mayor precisión
Uso más consistente de las herramientas – Reduce la variabilidad en la invocación de herramientas
Manejo mejorado de interrupciones – Ajustes más inteligentes a mitad del diálogo
Velocidad de voz ajustable - nuevo speed parámetro para ritmo de salida de voz flexible

Modelos disponibles:

gpt-4o-realtime-preview-2025-06-03 – Optimizado para API en tiempo real
gpt-4o-audio-preview-2025-06-03 – Diseñado para completar chats con audio

Estas actualizaciones hacen que las voces de IA sean más naturales, más receptivas y más fáciles de dirigir, ya sea para informes de noticias de ritmo rápido o para diálogos instructivos lentos.

Reflexiones finales: Una nueva era para los agentes de IA de voz

Con estas cuatro actualizaciones, OpenAI continúa expandiendo la frontera del desarrollo de agentes de IA, haciendo que sea más fácil, seguro y flexible para los desarrolladores crear asistentes digitales similares a los humanos.

La integración de soporte de TypeScript, aprobaciones humanas en el circuito, marcos de agentes de voz y modelos de voz mejorados proporcionan un conjunto de herramientas completo para diseñar agentes inteligentes, interactivos y conscientes del contexto en diferentes plataformas e industrias.

Ya sea que esté creando un asistente de cliente activado por voz, un personaje de juego o un tutor virtual, las últimas herramientas de OpenAI le brindan el poder de hacerlo de forma más rápida e inteligente que nunca.

Primeros Pasos

CometAPI proporciona una interfaz REST unificada que integra cientos de modelos de IA, incluida la familia ChatGPT, en un punto final consistente, con gestión de claves API integrada, cuotas de uso y paneles de facturación. En lugar de tener que gestionar múltiples URL y credenciales de proveedores.

Para comenzar, explore las capacidades del modelo en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API".

El modelo de voz a voz GPT-4o en CometAPI ha publicado que son gpt-4o-realtime-preview-2025-06-03 y gpt-4o-audio-preview-2025-06-03¡Bienvenido a llamar!

Vea también API GPT-4.1