API en tiempo real de GPT-4o

CometAPI
AnnaJun 11, 2025
API en tiempo real de GPT-4o

API en tiempo real de GPT-4o: Un punto final de transmisión multimodal de baja latencia que permite a los desarrolladores enviar y recibir datos sincronizados de texto, audio y visión a través de WebRTC o WebSocket (modelo=gpt-4o-realtime-preview-<date>, stream=true) para aplicaciones interactivas en tiempo real.


Información básica y características

OpenAI's GPT-4o en tiempo real (ID del modelo: gpt-4o-vista previa en tiempo real-2025-06-03) es el primer modelo de base disponible públicamente diseñado para Conversión de voz a voz de extremo a extremo (S2S) interacción con latencia de subsegundosDerivada de la familia “omni” GPT-4o, la variante Realtime fusiona reconocimiento de voz, razonamiento en lenguaje natural y texto a voz neuronal en una sola red, lo que permite a los desarrolladores crear agentes de voz que conversan con la misma fluidez que los humanos. El modelo se expone a través de la interfaz diseñada específicamente. API en tiempo real y está estrechamente integrado con el nuevo Agente en tiempo real abstracción dentro de la SDK de agentes (TypeScript y Python).


Conjunto de funciones principales — S2S de extremo a extremo • Manejo de interrupciones • Llamada a herramientas

• Voz a voz nativa: La entrada de audio se ingiere como flujo continuo, se tokeniza internamente, se razona y se devuelve como voz sintetizada. No se necesitan búferes STT/TTS externos, lo que elimina el retardo de varios segundos en la canalización.
• Latencia a escala de milisegundos: La poda arquitectónica, la destilación de modelos y una pila de servicio optimizada para GPU permiten Latencias del primer token de ~300 a 500 ms En implementaciones típicas de nube, acercándose a las normas de turnos de conversación humanos.
• Seguimiento sólido de instrucciones: Optimizado en scripts de conversación y rastros de llamadas de función, GPT-4o Realtime demuestra una >25 % de reducción en errores de ejecución de tareas en comparación con la línea base GPT-2024o de mayo de 4.
• Llamada de herramientas determinista: El modelo produce JSON estructurado conforme a OpenAI. esquema de llamada de funciónPermite la invocación determinista de APIs de back-end (sistemas de reserva, bases de datos, IoT). Incorpora reintentos con detección de errores y validación de argumentos.
• Interrupciones elegantes: Un detector de actividad de voz en tiempo real combinado con decodificación incremental permite al agente pausar el discurso a mitad de la oración, ingerir una interrupción del usuario y reanudar o volver a planificar la respuesta sin problemas.
• Velocidad de voz configurable: Una nueva encuesta velocidad El parámetro (0.25–4× tiempo real) permite a los desarrolladores adaptar el ritmo de salida para accesibilidad o aplicaciones de ejecución rápida.


Arquitectura técnica — Transformador multimodal unificado

Codificador-decodificador unificado: GPT-4o Realtime comparte la arquitectura omni transformador de una sola pila En el que los tokens de audio, texto y visión (futura) coexisten en un espacio latente. La computación adaptativa por capas ata los fotogramas de audio directamente a bloques de atención posteriores, ahorrando entre 20 y 40 ms por pasada.

Tokenización jerárquica de audio: El PCM de 16 kHz sin procesar se divide en parches log-mel → se cuantifica en tokens acústicos de grano grueso → se comprime en tokens semánticos, optimizando la token por segundo presupuesto sin sacrificar la prosodia.

Núcleos de inferencia de bits bajos: Los pesos desplegados se ejecutan a Cuantización NF4 de 4 bits a través de kernels Triton/TensorRT-LLM, duplicando el rendimiento frente a fp16 mientras se mantiene una pérdida de calidad MOS de <1 dB.

Atención al streaming: Las incrustaciones rotatorias de ventanas deslizantes y el almacenamiento en caché de valores clave permiten que el modelo preste atención a los últimos 15 segundos de audio con memoria O(L), crucial para diálogos con duración de llamadas telefónicas.


Detalles técnicos

  • Versión API: 2025-06-03-preview
  • Protocolos de Transporte:
  • WebRTC:Latencia ultrabaja (<80 ms) para transmisiones de audio y video del lado del cliente
  • WebSocketTransmisión de servidor a servidor con una latencia inferior a 100 ms
  • Codificación de datos:
  • Opus códec dentro RTP paquetes de audio
  • H.264 / H.265 Envoltorios de fotogramas para vídeo
  • Streaming: Apoya stream: true para entregar incrementales respuestas parciales a medida que se generan tokens
  • Nueva paleta de voces:Presenta ocho nuevas voces—aleación, ceniza, balada, coral, echo, salvia, brillar e verso—para más información expresivo, parecido a un humano interacciones ..

Evolución de GPT-4o en tiempo real

  • Mayo de 2024: GPT-4o Omni debuta con soporte multimodal para texto, audio y visión.
  • Octubre de 2024: API en tiempo real entra en beta privada (2024-10-01-preview), optimizado para audio de baja latencia.
  • Diciembre del 2024:Disponibilidad global ampliada de gpt-4o-realtime-preview-2024-12-17, Añadiendo almacenamiento en caché rápido y más voces.
  • 3 de Junio de 2025: Última actualización (2025-06-03-preview) lanza un refinado paleta de voces y optimizaciones de rendimiento.

Rendimiento de referencia

  • MMLU: 88.7, superando el 4 de GPT-86.5 en Comprensión masiva del lenguaje multitarea .
  • Reconocimiento de voz: Logra líderes en la industria tasas de error de palabras en entornos ruidosos, superando Susurro líneas de base.
  • Pruebas de latencia:
  • De extremo a extremo (discurso entrante → texto saliente): 50 - 80 ms a través de WebRTC
  • Audio de ida y vuelta (discurso entrante → discurso saliente): <100 ms .

Indicadores técnicos

  • Throughput:Sostiene 15 tokens/seg para flujos de texto; kbps 24 Opus para audio.
  • Precios:
  • Texto:5 por 1 millón de tokens de entrada; 20 por 1 millón de tokens de salida
  • Audio:100 por 1 millón de tokens de entrada; 200 por 1 millón de tokens de salida.
  • Disponibilidad:Implementado globalmente en todas las regiones compatibles con la API en tiempo real.

Cómo llamar a la API en tiempo real GPT-4o desde CometAPI

GPT-4o Realtime Precios de la API en CometAPI:

  • Tokens de entrada: $2/M tokens
  • Tokens de salida: $8/M tokens

Pasos requeridos

  • Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
  • Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.
  • Obtenga la URL de este sitio: https://api.cometapi.com/

Métodos de uso

  1. Seleccione la opción "**gpt-4o-realtime-preview-2025-06-03**Punto final para enviar la solicitud y configurar su cuerpo. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece la prueba de Apifox para su comodidad.
  2. Reemplazar con su clave CometAPI real de su cuenta.
  3. Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
  4. . Procesa la respuesta de la API para obtener la respuesta generada.

Para obtener información sobre el acceso a modelos en la API de Comet, consulte Documento API.

Para obtener información sobre el precio del modelo en Comet API, consulte https://api.cometapi.com/pricing.


Código de muestra e integración de API

import openai

openai.api_key = "YOUR_API_KEY"

# Establish a Realtime WebRTC connection

connection = openai.Realtime.connect(
    model="gpt-4o-realtime-preview-2025-06-03",
    version="2025-06-03-preview",
    transport="webrtc"
)

# Stream audio frames and receive incremental text

with open("user_audio.raw", "rb") as audio_stream:
    for chunk in iter(lambda: audio_stream.read(2048), b""):
        result = connection.send_audio(chunk)
        print("Assistant:", result)
  • Parámetros clave:
  • model: “gpt-4o-realtime-preview-2025-06-03”
  • version: Vista previa del 2025/06/03
  • transport: “webrtc” para preguntas de latencia mínima
  • stream: true para preguntas de incrementales <font style="vertical-align: inherit;" class="">actualizaciones sobre los portfolios ilustrativos de Small Caps y de todos los activos</font>

Combinando el estado de la técnica razonamiento multimodal, una robusto nueva paleta de voces, y ultra bajo transmisión de latencia, GPT-4o en tiempo real (2025-06-03) permite a los desarrolladores construir realmente interactivo, conversacional Aplicaciones de IA.

Vea también API de o3-Pro

Seguridad y cumplimiento

OpenAI entrega GPT-4o Realtime con:
Barandillas a nivel de sistema: Política adaptada para rechazar solicitudes no permitidas (extremismo, comportamiento ilícito).
Filtrado de contenido en tiempo real: Los clasificadores de menos de 100 ms analizan tanto la entrada del usuario como la salida del modelo antes de la emisión.
Rutas de aprobación humana: Se activa en invocaciones de herramientas de alto riesgo (pagos, asesoramiento legal), aprovechando las nuevas primitivas de aprobación del SDK de agentes.

GPT-4o en tiempo real

SHARE THIS BLOG

500+ Modelos en Una API

Hasta 20% de Descuento