ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/OpenAI/GPT-4o Realtime
O

GPT-4o Realtime

Entrada:$60/M
Saída:$240/M
A Realtime API permite que desenvolvedores criem experiências multimodais de baixa latência, incluindo funcionalidade de fala para fala. Texto e áudio processados pela Realtime API são cobrados separadamente. Este modelo oferece suporte a um comprimento máximo de contexto de 128,000 tokens.
Uso comercial
Visão Geral
Recursos
Preços
API
Versões

Technical Specifications of gpt-4o-realtime

SpecificationDetails
Model IDgpt-4o-realtime
Model typeRealtime multimodal model
Primary use casesLow-latency multimodal interactions, speech-to-speech experiences, real-time text and audio applications
Context length128,000 tokens
Input modalitiesText, audio
Output modalitiesText, audio
Latency profileOptimized for low-latency realtime experiences
Pricing noteText and audio processed by the Realtime API are priced separately

What is gpt-4o-realtime?

gpt-4o-realtime is a realtime multimodal model available through CometAPI for developers building highly responsive AI applications. It is designed for scenarios where low latency matters, such as live voice assistants, interactive speech-to-speech systems, and applications that need to process text and audio in the same workflow.

This model supports multimodal communication, allowing applications to send text or audio inputs and receive text or audio outputs. With a maximum context length of 128,000 tokens, gpt-4o-realtime can also support longer interactions and more context-aware conversations than smaller-session realtime systems.

Main features of gpt-4o-realtime

  • Low-latency interaction: Built for realtime use cases where fast response times are essential for smooth user experiences.
  • Multimodal input and output: Supports both text and audio workflows, enabling flexible application design.
  • Speech-to-speech support: Well suited for conversational voice interfaces that take spoken input and return spoken output.
  • Large context window: Supports up to 128,000 tokens of context for more coherent extended sessions.
  • Flexible realtime application support: Useful for live assistants, interactive tools, customer support agents, and other responsive multimodal products.
  • Separate text and audio pricing: Developers should account for text and audio usage independently when estimating costs.

How to access and integrate gpt-4o-realtime

Step 1: Sign Up for API Key

To get started, sign up on CometAPI and generate your API key from the dashboard. After that, store the key securely and use it to authenticate every request to the API.

Step 2: Connect to gpt-4o-realtime API

The Realtime API uses WebSocket connections. Connect to CometAPI's WebSocket endpoint:

const ws = new WebSocket(
  "wss://api.cometapi.com/v1/realtime?model=gpt-4o-realtime",
  {
    headers: {
      "Authorization": "Bearer " + process.env.COMETAPI_API_KEY,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      modalities: ["text", "audio"],
      instructions: "You are a helpful assistant."
    }
  }));
});

ws.on("message", (data) => {
  console.log(JSON.parse(data));
});

Step 3: Retrieve and Verify Results

The Realtime API streams responses through the WebSocket connection as server-sent events. Listen for response.audio.delta events for audio output and response.text.delta for text. Verify the session is established and responses are streaming correctly.

Recursos para GPT-4o Realtime

Explore os principais recursos do GPT-4o Realtime, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para GPT-4o Realtime

Explore preços competitivos para GPT-4o Realtime, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como GPT-4o Realtime pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$60/M
Saída:$240/M
Entrada:$75/M
Saída:$300/M
-20%

Código de exemplo e API para GPT-4o Realtime

Acesse código de exemplo abrangente e recursos de API para GPT-4o Realtime para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do GPT-4o Realtime em seus projetos.

Versões do GPT-4o Realtime

O motivo pelo qual GPT-4o Realtime possui múltiplas versões instantâneas pode incluir fatores como variações na saída após atualizações que exigem versões antigas para consistência, fornecendo aos desenvolvedores um período de transição para adaptação e migração, e diferentes versões correspondentes a endpoints globais ou regionais para otimizar a experiência do usuário. Para diferenças detalhadas entre versões, consulte a documentação oficial.
version
gpt-4o-realtime-preview
gpt-4o-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2025-06-03
gpt-4o-realtime-preview-2024-10-01

Mais modelos

O

gpt-realtime-1.5

Entrada:$3.2/M
Saída:$12.8/M
O melhor modelo de voz para áudio de entrada e áudio de saída.
O

gpt-audio-1.5

Entrada:$2/M
Saída:$8/M
O melhor modelo de voz para entrada e saída de áudio com Chat Completions.
O

Whisper-1

Entrada:$24/M
Saída:$24/M
请确认您的需求:是否需要将语音转文字并进行翻译?请提供: - 源内容:音频文件或已转写的文本 - 目标语言:如葡萄牙语(或其他) - 输出格式:纯文本、SRT、VTT、JSON 等 - 术语或风格偏好(可选)
O

TTS

Entrada:$12/M
Saída:$12/M
OpenAI Texto para Fala
K

Kling TTS

Por Solicitação:$0.006608
[Síntese de fala] Recém-lançado: texto para áudio com qualidade de transmissão online, com função de pré-visualização ● Pode gerar simultaneamente audio_id, utilizável com qualquer Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Por Solicitação:$0.03304
Kling vídeo para áudio