Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Entrada:$2/M
Saída:$8/M
O melhor modelo de voz para entrada e saída de áudio com Chat Completions.
Novo
Uso comercial
Visão Geral
Recursos
Preços
API

Especificações técnicas do gpt-audio-1.5

Itemgpt-audio-1.5 (especificações públicas)
Família de modelosFamília GPT Audio (variante priorizada para áudio)
Tipos de entradaTexto, áudio (fala como entrada)
Tipos de saídaTexto, áudio (fala como saída), saídas estruturadas (chamadas de função com suporte)
Janela de contexto128,000 tokens.
Máximo de tokens de saída16,384 (documentado na listagem relacionada do gpt-audio).
Nível de desempenhoInteligência superior; Velocidade média (equilibrada).
Perfil de latênciaOtimizado para interações por voz (latência média/baixa dependendo do endpoint).
DisponibilidadeChat Completions API (áudio de entrada/saída) e playgrounds da plataforma; integrado em superfícies de tempo real/voz.
Notas de segurança/usoRestrições para conteúdo de voz; trate as saídas do modelo com as práticas usuais de segurança e verificação para agentes de voz em produção.

Observação: gpt-realtime-1.5 é uma variante de áudio/voz em tempo real intimamente relacionada, otimizada para menor latência e sessões em tempo real; compare abaixo.


O que é gpt-audio-1.5?

gpt-audio-1.5 é um modelo GPT com recursos de áudio que oferece suporte tanto à entrada de fala quanto à saída de fala por meio de Chat Completions e APIs relacionadas com capacidade de áudio. Está posicionado como o principal modelo de áudio geralmente disponível para construir agentes de voz e experiências com prioridade para fala, equilibrando qualidade e velocidade.


Principais recursos

  1. Suporte a entrada/saída de fala: Trata entradas faladas e retorna respostas faladas ou textuais para fluxos de voz naturais.
  2. Contexto amplo para fluxos de trabalho de áudio: Suporta contexto muito grande (128k tokens documentados), permitindo múltiplas rodadas, histórico longo de conversas ou sessões multimodais extensas.
  3. Compatibilidade com streaming e Chat Completions: Funciona dentro de Chat Completions com respostas de áudio em streaming e saídas estruturadas de chamadas de função.
  4. Desempenho/latência equilibrados: Ajustado para fornecer respostas de áudio de alta qualidade com taxa média — adequado para chatbots e assistentes de voz em que a qualidade é importante.
  5. Ecossistema e integrações: Suportado nos playgrounds da plataforma e disponível nos endpoints oficiais de tempo real/voz e integrações com parceiros (as notas do Azure/Microsoft Foundry fazem referência a modelos de áudio semelhantes).

gpt-audio-1.5 vs modelos de áudio relacionados

Propriedadegpt-audio-1.5gpt-realtime-1.5
Foco principalEntrada/saída de áudio de alta qualidade para Chat Completions e fluxos conversacionais.S2S em tempo real (fala para fala) com menor latência para agentes de voz ao vivo e cenários de streaming.
Janela de contexto128k tokens.32k tokens (variante em tempo real documentada).
Máximo de tokens de saída16,384 (documentado).Normalmente configurado para respostas em tempo real mais curtas (a documentação lista um número máximo de tokens menor).
Melhor usoChatbots, assistentes com suporte a voz em que são necessárias semântica completa de chat + áudio.Agentes de voz ao vivo, quiosques e interfaces conversacionais de baixa latência.

Casos de uso representativos

  • Agentes de voz conversacionais para suporte ao cliente e help desks internos.
  • Assistentes habilitados para voz incorporados em apps, dispositivos e quiosques.
  • Fluxos de trabalho sem uso das mãos (ditado, busca por voz, acessibilidade).
  • Experiências multimodais que misturam áudio com texto/imagens via Chat Completions.

Limitações e considerações operacionais

  • Não é um substituto direto para QA humano: sempre valide saídas de fala e ações subsequentes com revisão humana em fluxos de produção.
  • Planejamento de recursos: contexto amplo e E/S de áudio podem aumentar computação e latência — projete estratégias de streaming/segmentação para sessões longas.
  • Restrições de segurança e políticas: saídas de voz podem ter poder persuasivo; siga as diretrizes de segurança da plataforma e limitações ao implantar em escala.
  • Como acessar a API GPT Audio 1.5

Etapa 1: Cadastre-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console do CometAPI. Obtenha a chave de API de credencial de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

chave do CometAPI

Etapa 2: Envie solicitações para a API GPT Audio 1.5

Selecione o endpoint “gpt-audio-1.5” para enviar a solicitação à API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação são obtidos na documentação da API em nosso site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. A URL base é Chat Completions

Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 supports a 128,000-token context window and documents list a max output token configuration around 16,384; verify exact limits per endpoint in the developer docs. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Yes — it accepts audio inputs and can return audio outputs or textual responses via the Chat Completions/audio endpoints. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Choose gpt-audio-1.5 for higher-quality audio in Chat Completions flows where larger context is required; choose gpt-realtime-1.5 for low-latency, live streaming voice interactions. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Yes — the model supports streaming audio responses and structured outputs/function calling to integrate external tools and workflows. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Yes — it's designed for voice assistants and conversational agents, but you should add human review/QA, logging, and safety controls before production deployment. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

Key considerations are compute/latency tradeoffs for large context audio sessions, safety guardrails for voice content, and the need to validate ASR/TTS outputs in your domain. :contentReference[oaicite:49]{index=49}

Recursos para gpt-audio-1.5

Explore os principais recursos do gpt-audio-1.5, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para gpt-audio-1.5

Explore preços competitivos para gpt-audio-1.5, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como gpt-audio-1.5 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$2/M
Saída:$8/M
Entrada:$2.5/M
Saída:$10/M
-20%

Código de exemplo e API para gpt-audio-1.5

Acesse código de exemplo abrangente e recursos de API para gpt-audio-1.5 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do gpt-audio-1.5 em seus projetos.
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Mais modelos