ModelosSoporteEmpresaBlog
500+ API de Modelos de IA, Todo en Una API. Solo en CometAPI
API de Modelos
Desarrollador
Inicio RápidoDocumentaciónPanel de API
Recursos
Modelos de IABlogEmpresaRegistro de cambiosAcerca de
2025 CometAPI. Todos los derechos reservados.Política de PrivacidadTérminos de Servicio
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Entrada:$60/M
Salida:$240/M
La Realtime API permite a los desarrolladores crear experiencias multimodales de baja latencia, incluida la funcionalidad de voz a voz. El texto y el audio procesados por la Realtime API se facturan por separado. Este modelo admite una longitud máxima de contexto de 128,000 tokens.
Uso comercial
Resumen
Características
Precios
API
Versiones

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Características para GPT-4o Realtime

Explora las características clave de GPT-4o Realtime, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para GPT-4o Realtime

Explora precios competitivos para GPT-4o Realtime, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo GPT-4o Realtime puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Entrada:$60/M
Salida:$240/M
Entrada:$75/M
Salida:$300/M
-20%

Código de ejemplo y API para GPT-4o Realtime

Accede a código de muestra completo y recursos de API para GPT-4o Realtime para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de GPT-4o Realtime en tus proyectos.

Versiones de GPT-4o Realtime

La razón por la cual GPT-4o Realtime tiene múltiples instantáneas puede incluir factores potenciales como variaciones en la salida tras actualizaciones que requieren instantáneas anteriores para mantener la coherencia, ofrecer a los desarrolladores un período de transición para adaptación y migración, y diferentes instantáneas que corresponden a endpoints globales o regionales para optimizar la experiencia del usuario. Para conocer las diferencias detalladas entre versiones, consulte la documentación oficial.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Más modelos

O

gpt-realtime-1.5

Entrada:$3.2/M
Salida:$12.8/M
El mejor modelo de voz para audio de entrada y de salida.
O

gpt-audio-1.5

Entrada:$2/M
Salida:$8/M
El mejor modelo de voz para entrada y salida de audio con Chat Completions.
O

Whisper-1

Entrada:$24/M
Salida:$24/M
Transcripción de voz a texto, creación de traducciones
O

TTS

Entrada:$12/M
Salida:$12/M
Texto a voz de OpenAI
K

Kling TTS

Por Solicitud:$0.006608
[Síntesis de voz] Recién lanzado: texto a voz de calidad de emisión en línea, con función de vista previa ● Puede generar simultáneamente audio_id, utilizable con cualquier Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Por Solicitud:$0.03304
Kling video-a-audio