OpenAI anunció hoy que **El modelo de voz en tiempo real GPT ya está disponible y admite la entrada de imágenes.**Esto marca el paso de la versión beta de la API en tiempo real a la disponibilidad general para agentes de voz de producción. Esta versión posiciona a GPT-Realtime como un modelo de voz a voz de baja latencia que permite ejecutar conversaciones de voz bidireccionales y, al mismo tiempo, basar las respuestas en imágenes proporcionadas durante una sesión.
OpenAI describe gpt en tiempo real Como su modelo de voz a voz más avanzado hasta la fecha: procesa el audio de principio a fin (en lugar de encadenar pasos separados de voz a texto y texto a voz), produce un habla más natural y expresiva, y muestra mejoras mensurables en comprensión, seguimiento de instrucciones y llamada de funciones. La compañía destaca mejoras en los parámetros internos y afirma que el modelo captura sutilezas como la risa, el cambio de idioma a mitad de frase y una mayor precisión en contenido alfanumérico.
Qué hay de nuevo
- Entradas de imágenes en sesiones de voz en vivo. Los desarrolladores pueden adjuntar fotos, capturas de pantalla u otras imágenes junto con audio o texto; el modelo puede responder preguntas visuales, leer texto en capturas de pantalla (estilo OCR) e incorporar la comprensión de escenas en la respuesta hablada. Esto facilita flujos de trabajo como preguntas y respuestas visuales durante una llamada o soporte multimodal para atención al cliente.
- Voz a voz, menor latencia, voces más expresivas. GPT-Realtime ofrece salida de audio nativa con una latencia de ida y vuelta reducida en comparación con las antiguas cadenas STT→LLM→TTS e incluye opciones de voz expresivas (reportadas como "Cedar" y "Marine" en la cobertura). El modelo está optimizado para el seguimiento de instrucciones y la precisión conversacional.
- Funciones de integración empresarial. La actualización de la API en tiempo real añade funciones empresariales, como compatibilidad con servidores MCP y llamadas telefónicas SIP, para que los agentes de voz puedan conectarse directamente a redes telefónicas y sistemas PBX. Estas novedades están dirigidas a implementaciones de atención al cliente y centros de contacto.
Los puntos de referencia
BigBench Audio (razonamiento): 82.8% - desde 65.6% Basado en el modelo en tiempo real de OpenAI de diciembre de 2024. Este es el punto de referencia de razonamiento principal reportado para tareas de razonamiento con capacidad de audio.
MultiChallenge (seguimiento de instrucciones, audio): ~30.5 % vs ~ 20.6% Anteriormente — muestra una mejor adherencia a instrucciones habladas de varios pasos o complejas.
ComplexFuncBench (llamada de función exitosa): ~66.5 % vs ~ 49.7% Anteriormente: mejor confiabilidad cuando el modelo debe llamar a herramientas/funciones durante una sesión de audio.
Costo y latencia: OpenAI afirma que el nuevo modelo reduce el costo de audio por token (aproximadamente un 20 % menos que la vista previa en tiempo real anterior) y funciona como un modelo único de extremo a extremo (sin cadena STT → LM → TTS separada), lo que reduce la latencia de extremo a extremo en flujos interactivos en tiempo real.
OpenAI dice que gpt-realtime El modelo demuestra mejoras sustanciales en diversos parámetros objetivos y comportamientos reales: puntuaciones más altas en BigBench Audio y en evaluaciones de seguimiento de instrucciones/llamada a funciones, así como un mejor manejo de caracteres alfanuméricos, palabras clave y cambio de idioma en audio en vivo. La compañía también introdujo dos nuevas voces (Cedar y Marin) y reporta una reducción de precio del 20 % en comparación con el modelo de vista previa en tiempo real anterior.
La API en tiempo real y gpt-realtime Los modelos ahora están disponibles para los desarrolladores (GA), OpenAI también redujo el precio de su API en tiempo real con esta actualización, reduciendo la entrada de audio a $ 32 por millón de tokens y la salida de audio a $ 64 por millón de tokens, una reducción del 20% del precio anterior, brindando a los desarrolladores una solución más económica.
Primeros Pasos
CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.
Los desarrolladores pueden acceder GPT-5 A través de CometAPI, las últimas versiones de los modelos listadas corresponden a la fecha de publicación del artículo. Para comenzar, explore las capacidades del modelo en Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.
La última integración gpt-realtime ¡Pronto aparecerá en CometAPI, así que estad atentos!
