What are the official context and output token limits for gpt-audio-1.5 API?

gpt-audio-1.5 oferece uma janela de contexto de 128,000 tokens e a documentação lista uma configuração máxima de tokens de saída em torno de 16,384; verifique os limites exatos por endpoint na documentação do desenvolvedor. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Sim — aceita entradas de áudio e pode retornar saídas de áudio ou respostas textuais via os endpoints Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Escolha gpt-audio-1.5 para áudio de maior qualidade em fluxos de Chat Completions em que é necessário um contexto maior; escolha gpt-realtime-1.5 para interações de voz em streaming e baixa latência. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Sim — o modelo oferece suporte a streaming de respostas em áudio e a saídas estruturadas/chamadas de função para integrar ferramentas e fluxos de trabalho externos. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Sim — ele foi projetado para assistentes de voz e agentes conversacionais, mas você deve adicionar revisão/QA humana, registro de logs e controles de segurança antes da implantação em produção. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

As principais considerações são os trade-offs de computação/latência para sessões de áudio com grande contexto, proteções de segurança para conteúdo de voz e a necessidade de validar as saídas de ASR/TTS no seu domínio. :contentReference[oaicite:49]{index=49}

O

gpt-audio-1.5

Entrada:$2/M

Saída:$8/M

Lançado:Feb 24, 2026

Novo

Uso comercial

Especificações técnicas do gpt-audio-1.5

Item	gpt-audio-1.5 (especificações públicas)
Model family	Família GPT Audio (variante com prioridade ao áudio)
Input types	Texto, áudio (fala como entrada)
Output types	Texto, áudio (fala como saída), saídas estruturadas (suporte a chamadas de função)
Context window	128,000 tokens.
Max output tokens	16,384 (documentado na listagem relacionada do gpt-audio).
Performance tier	Inteligência superior; velocidade média (equilibrada).
Latency profile	Otimizado para interações por voz (latência média/baixa, dependendo do endpoint).
Availability	API de Chat Completions (áudio de entrada/saída) e playgrounds da plataforma; integrado em interfaces de tempo real/voz.
Safety / usage notes	Salvaguardas para conteúdo de voz; trate as saídas do modelo com a segurança e verificação usuais para agentes de voz em produção.

Observação: gpt-realtime-1.5 é uma variante em tempo real, próxima, voltada para áudio/voz, otimizada para menor latência e sessões em tempo real; compare abaixo.

O que é o gpt-audio-1.5?

gpt-audio-1.5 é um modelo GPT com recursos de áudio que oferece suporte a entrada de fala e saída de fala por meio da API de Chat Completions e APIs relacionadas com suporte a áudio. É posicionado como o principal modelo de áudio geralmente disponível para criar agentes de voz e experiências com prioridade à voz, equilibrando qualidade e velocidade.

Principais recursos

Suporte a fala de entrada/saída: Lida com entrada falada e retorna respostas faladas ou textuais para fluxos de voz naturais.
Contexto amplo para fluxos de áudio: Suporta contexto muito grande (128k tokens documentados), permitindo múltiplas rodadas, histórico de conversas longas ou grandes sessões multimodais.
Compatibilidade com streaming e Chat Completions: Funciona dentro de Chat Completions com respostas de áudio em streaming e saídas estruturadas com chamadas de função.
Desempenho/latência equilibrados: Ajustado para fornecer respostas de áudio de alta qualidade com vazão média — adequado para chatbots e assistentes de voz em que a qualidade é importante.
Ecossistema e integrações: Suportado nos playgrounds da plataforma e disponível nos endpoints oficiais de tempo real/voz e integrações com parceiros (as notas do Azure/Microsoft Foundry fazem referência a modelos de áudio semelhantes).

gpt-audio-1.5 vs. modelos de áudio relacionados

Propriedade	gpt-audio-1.5	gpt-realtime-1.5
Foco principal	Áudio de alta qualidade de entrada/saída para Chat Completions e fluxos conversacionais.	S2S em tempo real (fala para fala) com menor latência para agentes de voz ao vivo e cenários de streaming.
Janela de contexto	128k tokens.	32k tokens (variante em tempo real documentada).
Máximo de tokens de saída	16,384 (documentado).	Normalmente configurado para respostas em tempo real mais curtas (a documentação lista um máximo de tokens menor).
Melhor uso	Chatbots, assistentes habilitados para voz em que são exigidos a semântica completa de chat + áudio.	Agentes de voz ao vivo, quiosques e interfaces conversacionais de baixa latência.

Casos de uso representativos

Agentes de voz conversacionais para suporte ao cliente e help desks internos.
Assistentes habilitados para voz incorporados a apps, dispositivos e quiosques.
Fluxos de trabalho sem uso das mãos (ditado, busca por voz, acessibilidade).
Experiências multimodais que combinam áudio com texto / imagens via Chat Completions.

Limitações e considerações operacionais

Não é um substituto direto para QA humano: sempre valide saídas de fala e ações subsequentes com revisão humana em fluxos de produção.
Planejamento de recursos: contexto grande e E/S de áudio podem aumentar a computação e a latência — projete estratégias de streaming/segmentação para sessões longas.
Restrições de segurança e políticas: saídas de voz podem ter poder persuasivo; siga as diretrizes de segurança da plataforma e as salvaguardas ao implantar em escala.
Como acessar a API do GPT Audio 1.5

Etapa 1: Cadastre-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console CometAPI. Obtenha a credencial de acesso (chave de API) da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

chave CometAPI

Etapa 2: Envie solicitações para a API do GPT Audio 1.5

Selecione o endpoint “gpt-audio-1.5” para enviar a solicitação de API e configure o corpo da solicitação. O método e o corpo da solicitação são obtidos na documentação da API do nosso site. Nosso site também oferece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. A base URL é Chat Completions

Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recupere e verifique os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

Preços para gpt-audio-1.5

Explore preços competitivos para gpt-audio-1.5, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como gpt-audio-1.5 pode aprimorar seus projetos mantendo os custos gerenciáveis.

Preço do Comet (USD / M Tokens)	Preço Oficial (USD / M Tokens)	Desconto
Entrada:$2/M Saída:$8/M	Entrada:$2.5/M Saída:$10/M	-20%

Código de exemplo e API para gpt-audio-1.5

Acesse código de exemplo abrangente e recursos de API para gpt-audio-1.5 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do gpt-audio-1.5 em seus projetos.

POST

/v1/chat/completions

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"