Especificações Técnicas de `tts-1`

Especificação	Detalhes
ID do Modelo	`tts-1`
Provedor	OpenAI
Tipo de modelo	Modelo de conversão de texto em fala (TTS) para transformar entrada de texto em áudio falado.
Otimização principal	Otimizado para velocidade e geração de baixa latência, especialmente para saída de fala em tempo real ou quase em tempo real.
Perfil de qualidade	Latência menor que `tts-1-hd`, mas com qualidade de áudio inferior à variante HD.
Modalidade de entrada	Apenas texto.
Modalidade de saída	Apenas áudio.
Endpoint da API	Endpoint de geração de fala da Audio API da OpenAI: `/v1/audio/speech`.
Comprimento máximo da entrada	Até 4096 caracteres por solicitação.
Formatos de resposta suportados	`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`.
Controle de velocidade	Suportado de `0.25` a `4.0`, com `1.0` como padrão.
Opções de voz para `tts-1`	`alloy`, `ash`, `coral`, `echo`, `fable`, `onyx`, `nova`, `sage`, `shimmer`.
Suporte a streaming	A Speech API oferece suporte à saída de áudio por streaming, mas streaming SSE e controle de voz baseado em instruções não são suportados para `tts-1`.
Preços	A OpenAI lista `tts-1` a US$ 15 por 1M de tokens para geração de fala.

O que é o `tts-1`?

tts-1 é o modelo de texto para fala da OpenAI projetado para transformar texto escrito em áudio falado com som natural. Ele é posicionado como a opção mais rápida e de menor latência entre os modelos TTS clássicos da OpenAI, tornando-o adequado para aplicações que precisam de síntese de voz rápida em vez da mais alta fidelidade possível.

Desenvolvedores normalmente usam tts-1 por meio do endpoint de geração de fala da Audio API quando desejam converter textos de aplicativos, prompts, notificações, narrações ou respostas de assistentes em arquivos de áudio reproduzíveis. A documentação da OpenAI o descreve como otimizado para casos de uso de texto para fala em tempo real.

Na prática, tts-1 é uma boa escolha para experiências de voz leves, sistemas de resposta rápida, protótipos interativos e produtos em que a capacidade de resposta é mais importante do que a qualidade de voz premium. Se a máxima qualidade for a prioridade, a OpenAI direciona os usuários para tts-1-hd, enquanto casos de uso mais expressivos podem usar modelos TTS mais recentes.

Principais recursos do `tts-1`

Geração de fala de baixa latência: tts-1 é especificamente otimizado para velocidade, o que o torna útil para apps que precisam de saída falada rapidamente.
Texto para fala com som natural: O modelo converte texto simples em áudio falado adequado para narração, respostas de assistente e interfaces de voz.
Várias vozes integradas: tts-1 oferece um conjunto de vozes integradas, incluindo alloy, ash, coral, echo, fable, onyx, nova, sage e shimmer.
Formatos de áudio de saída flexíveis: Desenvolvedores podem solicitar áudio gerado em formatos comuns como MP3, WAV, FLAC, AAC, Opus e PCM, dependendo das necessidades de reprodução ou processamento.
Velocidade de reprodução ajustável: A API permite controlar a velocidade de 0,25x a 4,0x, possibilitando narração mais lenta ou reprodução mais rápida conforme apropriado.
Integração simples via API: tts-1 está disponível por meio da API padrão de geração de fala, o que facilita a integração em fluxos de trabalho web, mobile ou backend.
Bom para aplicações orientadas a tempo real: A OpenAI apresenta explicitamente tts-1 como um modelo para cenários de texto para fala em tempo real, o que o torna prático para assistentes, notificações e sistemas interativos rápidos.
Escolha de modelo focada em trade-offs: Em comparação com tts-1-hd, este modelo prioriza geração mais rápida em detrimento de maior fidelidade, oferecendo aos desenvolvedores uma opção clara entre latência e qualidade.

Como acessar e integrar o `tts-1`

Etapa 1: Inscreva-se para obter a chave de API

Para acessar a API do tts-1, primeiro inscreva-se na CometAPI e gere sua chave de API no painel. Após fazer login, crie uma nova chave, copie-a com segurança e armazene-a nas variáveis de ambiente do seu aplicativo. Você usará essa chave para autenticar todas as solicitações à API do tts-1.

Etapa 2: Envie solicitações para a API do `tts-1`

Depois de possuir sua chave de API, envie uma solicitação POST ao endpoint da CometAPI para tts-1 com seu payload de entrada. Inclua sua chave de API no cabeçalho Authorization e especifique tts-1 como o modelo. Uma solicitação típica inclui o texto de entrada, além de parâmetros de TTS como voz e formato de resposta.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Etapa 3: Recupere e verifique os resultados

Após enviar sua solicitação, a API do tts-1 retorna o conteúdo de áudio gerado se a chamada for bem-sucedida. Salve o arquivo retornado ou o stream, verifique se o áudio é reproduzido corretamente e confirme se a voz, a velocidade e o formato selecionados correspondem aos requisitos do seu aplicativo. Se necessário, tente novamente com parâmetros ajustados para melhorar o resultado final.

Especificações Técnicas de `tts-1`

Especificação	Detalhes
ID do Modelo	`tts-1`
Provedor	OpenAI
Tipo de modelo	Modelo de conversão de texto em fala (TTS) para transformar entrada de texto em áudio falado.
Otimização principal	Otimizado para velocidade e geração de baixa latência, especialmente para saída de fala em tempo real ou quase em tempo real.
Perfil de qualidade	Latência menor que `tts-1-hd`, mas com qualidade de áudio inferior à variante HD.
Modalidade de entrada	Apenas texto.
Modalidade de saída	Apenas áudio.
Endpoint da API	Endpoint de geração de fala da Audio API da OpenAI: `/v1/audio/speech`.
Comprimento máximo da entrada	Até 4096 caracteres por solicitação.
Formatos de resposta suportados	`mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`.
Controle de velocidade	Suportado de `0.25` a `4.0`, com `1.0` como padrão.
Opções de voz para `tts-1`	`alloy`, `ash`, `coral`, `echo`, `fable`, `onyx`, `nova`, `sage`, `shimmer`.
Suporte a streaming	A Speech API oferece suporte à saída de áudio por streaming, mas streaming SSE e controle de voz baseado em instruções não são suportados para `tts-1`.
Preços	A OpenAI lista `tts-1` a US$ 15 por 1M de tokens para geração de fala.

O que é o `tts-1`?

Principais recursos do `tts-1`

Geração de fala de baixa latência: tts-1 é especificamente otimizado para velocidade, o que o torna útil para apps que precisam de saída falada rapidamente.
Texto para fala com som natural: O modelo converte texto simples em áudio falado adequado para narração, respostas de assistente e interfaces de voz.
Várias vozes integradas: tts-1 oferece um conjunto de vozes integradas, incluindo alloy, ash, coral, echo, fable, onyx, nova, sage e shimmer.
Formatos de áudio de saída flexíveis: Desenvolvedores podem solicitar áudio gerado em formatos comuns como MP3, WAV, FLAC, AAC, Opus e PCM, dependendo das necessidades de reprodução ou processamento.
Velocidade de reprodução ajustável: A API permite controlar a velocidade de 0,25x a 4,0x, possibilitando narração mais lenta ou reprodução mais rápida conforme apropriado.
Integração simples via API: tts-1 está disponível por meio da API padrão de geração de fala, o que facilita a integração em fluxos de trabalho web, mobile ou backend.
Bom para aplicações orientadas a tempo real: A OpenAI apresenta explicitamente tts-1 como um modelo para cenários de texto para fala em tempo real, o que o torna prático para assistentes, notificações e sistemas interativos rápidos.
Escolha de modelo focada em trade-offs: Em comparação com tts-1-hd, este modelo prioriza geração mais rápida em detrimento de maior fidelidade, oferecendo aos desenvolvedores uma opção clara entre latência e qualidade.

Como acessar e integrar o `tts-1`

Etapa 1: Inscreva-se para obter a chave de API

Etapa 2: Envie solicitações para a API do `tts-1`

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

tts-1

Especificações Técnicas de `tts-1`

O que é o `tts-1`?

Principais recursos do `tts-1`

Como acessar e integrar o `tts-1`

Etapa 1: Inscreva-se para obter a chave de API

Etapa 2: Envie solicitações para a API do `tts-1`

Etapa 3: Recupere e verifique os resultados

Preços para tts-1

Código de exemplo e API para tts-1

tts-1

Especificações Técnicas de `tts-1`

O que é o `tts-1`?

Principais recursos do `tts-1`

Como acessar e integrar o `tts-1`

Etapa 1: Inscreva-se para obter a chave de API

Etapa 2: Envie solicitações para a API do `tts-1`

Etapa 3: Recupere e verifique os resultados

Preços para tts-1

Código de exemplo e API para tts-1

tts-1

Especificações Técnicas de tts-1

O que é o tts-1?

Principais recursos do tts-1

Como acessar e integrar o tts-1

Etapa 1: Inscreva-se para obter a chave de API

Etapa 2: Envie solicitações para a API do tts-1

Etapa 3: Recupere e verifique os resultados

Preços para tts-1

Código de exemplo e API para tts-1

tts-1

Especificações Técnicas de tts-1

O que é o tts-1?

Principais recursos do tts-1

Como acessar e integrar o tts-1

Etapa 1: Inscreva-se para obter a chave de API

Etapa 2: Envie solicitações para a API do tts-1

Etapa 3: Recupere e verifique os resultados

Preços para tts-1

Código de exemplo e API para tts-1

Especificações Técnicas de `tts-1`

O que é o `tts-1`?

Principais recursos do `tts-1`

Como acessar e integrar o `tts-1`

Etapa 2: Envie solicitações para a API do `tts-1`

Especificações Técnicas de `tts-1`

O que é o `tts-1`?

Principais recursos do `tts-1`

Como acessar e integrar o `tts-1`

Etapa 2: Envie solicitações para a API do `tts-1`