ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/OpenAI/gpt-audio-1.5
O

gpt-audio-1.5

Entrada:$2/M
Saída:$8/M
El mejor modelo de voz para entrada y salida de audio con Chat Completions.
Novo
Uso comercial
Visão Geral
Recursos
Preços
API

Especificações técnicas do gpt-audio-1.5

Itemgpt-audio-1.5 (public specs)
Model familyFamília GPT Audio (variante com prioridade em áudio)
Input typesTexto, áudio (fala de entrada)
Output typesTexto, áudio (fala de saída), saídas estruturadas (suporte a chamadas de função)
Context window128.000 tokens.
Max output tokens16.384 (documentado na listagem relacionada de gpt-audio).
Performance tierInteligência superior; velocidade média (equilibrada).
Latency profileOtimizado para interações por voz (latência média/baixa dependendo do endpoint).
AvailabilityChat Completions API (áudio de entrada/saída) e playgrounds da plataforma; integrado em interfaces de tempo real/voz.
Safety / usage notesSalvaguardas para conteúdo de voz; trate as saídas do modelo com a segurança e verificação usuais para agentes de voz em produção.

Nota: gpt-realtime-1.5 é uma variante de áudio/voz em tempo real intimamente relacionada, otimizada para menor latência e sessões em tempo real; compare abaixo.


O que é o gpt-audio-1.5?

gpt-audio-1.5 é um modelo GPT com recursos de áudio que suporta entrada de fala e saída de fala por meio do Chat Completions e APIs relacionadas com suporte a áudio. Está posicionado como o principal modelo de áudio geralmente disponível para construir agentes de voz e experiências com prioridade em fala, equilibrando qualidade e velocidade.


Principais recursos

  1. Suporte a entrada/saída de fala: Lida com entrada falada e retorna respostas faladas ou textuais para fluxos de voz naturais.
  2. Contexto amplo para fluxos de áudio: Suporta contexto muito grande (128k tokens documentados), possibilitando histórico de conversas de várias voltas ou sessões multimodais extensas.
  3. Compatibilidade com streaming e Chat Completions: Funciona no Chat Completions com respostas de áudio em streaming e saídas estruturadas de chamadas de função.
  4. Desempenho/latência equilibrados: Ajustado para fornecer respostas de áudio de alta qualidade com taxa média de throughput—adequado para chatbots e assistentes de voz em que a qualidade é importante.
  5. Ecossistema e integrações: Suportado nos playgrounds da plataforma e disponível nos endpoints oficiais de tempo real/voz e integrações com parceiros (notas da Azure/Microsoft Foundry fazem referência a modelos de áudio semelhantes).

gpt-audio-1.5 vs modelos de áudio relacionados

Propertygpt-audio-1.5gpt-realtime-1.5
Primary focusÁudio de alta qualidade de entrada/saída para Chat Completions e fluxos conversacionais.S2S em tempo real (speech-to-speech) com menor latência para agentes de voz ao vivo e cenários de streaming.
Context window128k tokens.32k tokens (variante em tempo real documentada).
Max output tokens16.384 (documentado).Normalmente configurado para respostas em tempo real mais curtas (a documentação lista um número máximo de tokens menor).
Best useChatbots, assistentes habilitados para voz onde a semântica completa de chat + áudio é necessária.Agentes de voz ao vivo, quiosques e interfaces conversacionais de baixa latência.

Casos de uso representativos

  • Agentes de voz conversacionais para suporte ao cliente e help desks internos.
  • Assistentes habilitados por voz incorporados em apps, dispositivos e quiosques.
  • Fluxos de trabalho mãos livres (ditado, pesquisa por voz, acessibilidade).
  • Experiências multimodais que misturam áudio com texto/imagens via Chat Completions.

Limitações e considerações operacionais

  • Não é um substituto direto para QA humano: Sempre valide saídas de fala e ações subsequentes com revisão humana em fluxos de produção.
  • Planejamento de recursos: Contexto grande e E/S de áudio podem aumentar computação e latência—projete estratégias de streaming/segmentação para sessões longas.
  • Restrições de segurança e políticas: Saídas de voz podem ter poder persuasivo; siga as diretrizes de segurança da plataforma e salvaguardas ao implantar em escala.
  • Como acessar a API GPT Audio 1.5

Etapa 1: Cadastre-se para obter a chave de API

Faça login em cometapi.com. Se você ainda não é usuário, registre-se primeiro. Acesse seu CometAPI console. Obtenha a credencial de acesso (API key) da interface. Clique em “Add Token” na seção de tokens de API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.

cometapi-key

Etapa 2: Envie solicitações para a API GPT Audio 1.5

Selecione o endpoint “gpt-audio-1.5” para enviar a solicitação de API e defina o corpo da requisição. O método e o corpo da solicitação são obtidos na documentação de API do nosso site. Nosso site também fornece teste no Apifox para sua conveniência. Substitua <YOUR_API_KEY> pela sua chave CometAPI real da sua conta. A URL base é Chat Completions

Insira sua pergunta ou solicitação no campo content—é a isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recuperar e verificar os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

What are the official context and output token limits for gpt-audio-1.5 API?

O gpt-audio-1.5 suporta uma janela de contexto de 128.000 tokens, e a documentação lista uma configuração máxima de tokens de saída em torno de 16.384; verifique os limites exatos por endpoint na documentação do desenvolvedor. :contentReference[oaicite:44]{index=44}

Can gpt-audio-1.5 handle both speech-to-text and text-to-speech in the API?

Sim — ele aceita entradas de áudio e pode retornar saídas de áudio ou respostas textuais por meio dos endpoints de Chat Completions/audio. :contentReference[oaicite:45]{index=45}

When should I use gpt-audio-1.5 vs gpt-realtime-1.5 for a voice agent?

Escolha o gpt-audio-1.5 para áudio de maior qualidade em fluxos de Chat Completions nos quais é necessário um contexto maior; escolha o gpt-realtime-1.5 para interações de voz ao vivo com baixa latência. :contentReference[oaicite:46]{index=46}

Does gpt-audio-1.5 support streaming and function calling for tool integrations?

Sim — o modelo suporta respostas de áudio em streaming e saídas estruturadas/function calling para integrar ferramentas e fluxos de trabalho externos. :contentReference[oaicite:47]{index=47}

Is gpt-audio-1.5 suitable for production customer support voice agents?

Sim — ele foi projetado para assistentes de voz e agentes conversacionais, mas você deve adicionar revisão humana/QA, registro em log e controles de segurança antes da implantação em produção. :contentReference[oaicite:48]{index=48}

What are the main limitations to consider when deploying gpt-audio-1.5?

As principais considerações são os trade-offs de computação/latência para sessões de áudio com contexto amplo, proteções de segurança para conteúdo de voz e a necessidade de validar as saídas de ASR/TTS no seu domínio. :contentReference[oaicite:49]{index=49}

Recursos para gpt-audio-1.5

Explore os principais recursos do gpt-audio-1.5, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para gpt-audio-1.5

Explore preços competitivos para gpt-audio-1.5, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como gpt-audio-1.5 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$2/M
Saída:$8/M
Entrada:$2.5/M
Saída:$10/M
-20%

Código de exemplo e API para gpt-audio-1.5

Acesse código de exemplo abrangente e recursos de API para gpt-audio-1.5 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do gpt-audio-1.5 em seus projetos.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

Python Code Example

from openai import OpenAI
import os
import base64

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="gpt-audio-1.5",
    modalities=["text", "audio"],
    audio={"voice": "alloy", "format": "wav"},
    messages=[
        {
            "role": "user",
            "content": "Is a golden retriever a good family dog?"
        }
    ],
)

# Print the text response
print(completion.choices[0].message.audio.transcript)

# Save the audio response to a file
wav_bytes = base64.b64decode(completion.choices[0].message.audio.data)
output_path = "gpt-audio-1.5-output.wav"
with open(output_path, "wb") as f:
    f.write(wav_bytes)
print(f"Audio saved to {output_path}")

JavaScript Code Example

import OpenAI from "openai";
import fs from "fs";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({ apiKey: api_key, baseURL: base_url });

const completion = await openai.chat.completions.create({
  model: "gpt-audio-1.5",
  modalities: ["text", "audio"],
  audio: { voice: "alloy", format: "wav" },
  messages: [
    {
      role: "user",
      content: "Is a golden retriever a good family dog?",
    },
  ],
});

// Print the text transcript
console.log(completion.choices[0].message.audio.transcript);

// Save the audio response to a file
const wavBytes = Buffer.from(completion.choices[0].message.audio.data, "base64");
const outputPath = "gpt-audio-1.5-output.wav";
fs.writeFileSync(outputPath, wavBytes);
console.log(`Audio saved to ${outputPath}`);

Curl Code Example

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

RESPONSE=$(curl https://api.cometapi.com/v1/chat/completions \
  -s \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "gpt-audio-1.5",
    "modalities": ["text", "audio"],
    "audio": {
      "voice": "alloy",
      "format": "wav"
    },
    "messages": [
      {
        "role": "user",
        "content": "Is a golden retriever a good family dog?"
      }
    ]
  }')

# Print the text transcript
echo "$RESPONSE" | python3 -c "import sys, json; r=json.load(sys.stdin); print(r['choices'][0]['message']['audio']['transcript'])"

# Save the audio to a WAV file
echo "$RESPONSE" | python3 -c "
import sys, json, base64
r = json.load(sys.stdin)
audio_data = r['choices'][0]['message']['audio']['data']
with open('gpt-audio-1.5-output.wav', 'wb') as f:
    f.write(base64.b64decode(audio_data))
print('Audio saved to gpt-audio-1.5-output.wav')
"

Mais modelos

O

gpt-realtime-1.5

Entrada:$3.2/M
Saída:$12.8/M
O melhor modelo de voz para áudio de entrada e áudio de saída.
O

Whisper-1

Entrada:$24/M
Saída:$24/M
请确认您的需求:是否需要将语音转文字并进行翻译?请提供: - 源内容:音频文件或已转写的文本 - 目标语言:如葡萄牙语(或其他) - 输出格式:纯文本、SRT、VTT、JSON 等 - 术语或风格偏好(可选)
O

TTS

Entrada:$12/M
Saída:$12/M
OpenAI Texto para Fala
K

Kling TTS

Por Solicitação:$0.006608
[Síntese de fala] Recém-lançado: texto para áudio com qualidade de transmissão online, com função de pré-visualização ● Pode gerar simultaneamente audio_id, utilizável com qualquer Keling API.
K

Kling video-to-audio

K

Kling video-to-audio

Por Solicitação:$0.03304
Kling vídeo para áudio
K

Kling text-to-audio

K

Kling text-to-audio

Por Solicitação:$0.03304
Kling texto para áudio