O modelo de voz GPT-Realtime agora está disponível, com suporte para entrada de imagens

A OpenAI anunciou hoje que O modelo de voz GPT-Realtime agora está disponível, com suporte para entrada de imagens, marcando a mudança da API Realtime da versão beta para a disponibilidade geral para agentes de voz em produção. O lançamento posiciona o GPT-Realtime como um modelo de conversão de voz em voz de baixa latência que pode conduzir conversas de voz bidirecionais, ao mesmo tempo em que fundamenta as respostas em imagens fornecidas durante uma sessão.

OpenAI descreve gpt-tempo real como seu modelo de conversão de fala em fala mais avançado até o momento: processa áudio de ponta a ponta (em vez de encadear etapas separadas de conversão de fala em texto e de texto em fala), produz uma fala mais natural e expressiva e apresenta ganhos mensuráveis em compreensão, acompanhamento de instruções e chamada de funções. A empresa destaca melhorias em benchmarks internos e afirma que o modelo captura sutilezas como risos, alternância de idioma no meio de frases e maior precisão em conteúdo alfanumérico.

O que há de novo

Entradas de imagem em sessões de voz ao vivo. Os desenvolvedores podem anexar fotos, capturas de tela ou outras imagens junto com áudio ou texto; o modelo pode responder a perguntas visuais, ler texto em capturas de tela (estilo OCR) e incorporar a compreensão da cena à resposta falada. Isso permite fluxos de trabalho como perguntas e respostas visuais durante uma chamada ou suporte multimodal para atendimento ao cliente.
Conversão de fala em fala, menor latência, vozes mais expressivas. O GPT-Realtime oferece saída de áudio nativa com latência de ida e volta reduzida em comparação com as cadeias STT→LLM→TTS mais antigas e vem com opções de voz expressivas (reportadas como "Cedar" e "Marine" na cobertura). O modelo é ajustado para acompanhamento de instruções e nuances de conversação.
Recursos de integração empresarial. A atualização da API em tempo real adiciona recursos voltados para empresas, como suporte a servidores MCP e chamadas telefônicas SIP, para que os agentes de voz possam se conectar diretamente a redes telefônicas e sistemas PABX. Essas adições são voltadas para implantações de suporte ao cliente e contact center.

Benchmarks

BigBench Audio (raciocínio): 82.8% — acima de 65.6% no modelo em tempo real de dezembro de 2024 da OpenAI. Este é o principal benchmark de raciocínio relatado para tarefas de raciocínio com capacidade de áudio.

MultiChallenge (instruções a seguir, áudio): ~30.5% vs ~% 20.6 anteriormente — mostra melhor adesão a instruções orais complexas ou de várias etapas.

ComplexFuncBench (sucesso na chamada de função): ~66.5% vs ~% 49.7 anteriormente — melhor confiabilidade quando o modelo precisa chamar ferramentas/funções durante uma sessão de áudio.

Custo e latência: A OpenAI afirma que o novo modelo reduz o custo de áudio por token (≈20% menor que a prévia em tempo real anterior) e opera como um único modelo de ponta a ponta (sem cadeia STT → LM → TTS separada), o que reduz a latência de ponta a ponta em fluxos interativos em tempo real.

A OpenAI diz que gpt-realtime O modelo demonstra melhorias significativas em uma série de benchmarks objetivos e comportamentos do mundo real — pontuações mais altas no BigBench Audio e em avaliações de acompanhamento de instruções/chamadas de funções — e melhor processamento de alfanuméricos, palavras-código e alternância de idiomas em áudio ao vivo. A empresa também introduziu duas novas vozes (Cedar e Marin) e relata uma redução de 20% no preço em comparação com o modelo anterior de visualização em tempo real.

A API em tempo real e gpt-realtime modelo agora está disponível para desenvolvedores (GA), a OpenAI também reduziu o preço de sua API em tempo real com esta atualização, reduzindo a entrada de áudio para US$ 32 por milhão de tokens e a saída de áudio para US$ 64 por milhão de tokens, uma redução de 20% em relação ao preço anterior, fornecendo aos desenvolvedores uma solução mais econômica.

Começando a jornada

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Os desenvolvedores podem acessar GPT-5 Por meio do CometAPI, as versões mais recentes dos modelos listados são as da data de publicação do artigo. Para começar, explore os recursos do modelo no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.

A mais recente integração gpt-realtime aparecerá em breve no CometAPI, então fique ligado!

O que há de novo

Benchmarks

Começando a jornada

Leia Mais

500+ Modelos em Uma API