ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/OpenAI/tts-1
O

tts-1

Entrada:$12/M
Saída:$12/M
Uso comercial
Visão Geral
Recursos
Preços
API

Technical Specifications of tts-1

SpecificationDetails
Model IDtts-1
ProviderOpenAI
Model typeText-to-speech (TTS) model for converting text input into spoken audio.
Primary optimizationOptimized for speed and low-latency generation, especially for realtime or near-realtime speech output.
Quality profileLower latency than tts-1-hd, but with lower audio quality than the HD variant.
Input modalityText only.
Output modalityAudio only.
API endpointOpenAI Audio API speech generation endpoint: /v1/audio/speech.
Max input lengthUp to 4096 characters per request.
Supported response formatsmp3, opus, aac, flac, wav, pcm.
Speed controlSupported from 0.25 to 4.0, with 1.0 as default.
Voice options for tts-1alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer.
Streaming supportThe Speech API supports streaming audio output, but SSE streaming and instruction-based voice control are not supported for tts-1.
PricingOpenAI lists tts-1 at $15 per 1M tokens for speech generation.

What is tts-1?

tts-1 is OpenAI’s text-to-speech model designed to turn written text into natural-sounding spoken audio. It is positioned as the faster, lower-latency option among OpenAI’s classic TTS models, making it suitable for applications that need quick speech synthesis rather than the highest possible fidelity.

Developers typically use tts-1 through the Audio API’s speech generation endpoint when they want to convert application text, prompts, notifications, narrations, or assistant responses into playable audio files. OpenAI’s documentation describes it as optimized for realtime text-to-speech use cases.

In practice, tts-1 is a good fit for lightweight voice experiences, rapid response systems, interactive prototypes, and products where responsiveness matters more than premium voice quality. If maximum quality is the priority, OpenAI points users toward tts-1-hd, while newer expressive use cases may use newer TTS models instead.

Main features of tts-1

  • Low-latency speech generation: tts-1 is specifically optimized for speed, which makes it useful for apps that need spoken output quickly.
  • Natural-sounding text-to-speech: The model converts plain text into spoken audio suitable for narration, assistant responses, and voice interfaces.
  • Multiple built-in voices: tts-1 supports a set of built-in voices including alloy, ash, coral, echo, fable, onyx, nova, sage, and shimmer.
  • Flexible audio output formats: Developers can request generated audio in common formats such as MP3, WAV, FLAC, AAC, Opus, and PCM depending on playback or processing needs.
  • Adjustable playback speed: The API allows speed control from 0.25x to 4.0x, enabling slower narration or faster playback where appropriate.
  • Simple API-based integration: tts-1 is available through the standard speech generation API, which makes it straightforward to integrate into web, mobile, or backend workflows.
  • Good for realtime-oriented applications: OpenAI explicitly frames tts-1 as a model for realtime text-to-speech scenarios, which makes it practical for assistants, notifications, and fast interactive systems.
  • Tradeoff-focused model choice: Compared with tts-1-hd, this model prioritizes faster generation over higher-fidelity output, giving developers a clear latency-versus-quality option.

How to access and integrate tts-1

Step 1: Sign Up for API Key

To access the tts-1 API, first sign up on CometAPI and generate your API key from the dashboard. After logging in, create a new key, copy it securely, and store it in your application environment variables. You will use this key to authenticate all requests to the tts-1 API.

Step 2: Send Requests to tts-1 API

Once you have your API key, send a POST request to the CometAPI endpoint for tts-1 with your input payload. Include your API key in the Authorization header and specify tts-1 as the model. A typical request includes the input text plus TTS parameters such as voice and response format.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Step 3: Retrieve and Verify Results

After submitting your request, the tts-1 API returns generated audio content if the call succeeds. Save the returned file or stream, verify that the audio plays correctly, and confirm that the selected voice, speed, and format match your application requirements. If needed, retry with adjusted parameters to improve the final output.

Recursos para tts-1

Explore os principais recursos do tts-1, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para tts-1

Explore preços competitivos para tts-1, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como tts-1 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$12/M
Saída:$12/M
Entrada:$15/M
Saída:$15/M
-20%

Código de exemplo e API para tts-1

Acesse código de exemplo abrangente e recursos de API para tts-1 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do tts-1 em seus projetos.

Mais modelos

G

Nano Banana 2

Entrada:$0.4/M
Saída:$2.4/M
Visão geral das capacidades principais: Resolução: Até 4K (4096×4096), no mesmo nível do Pro. Consistência de imagem de referência: Até 14 imagens de referência (10 objetos + 4 personagens), mantendo a consistência de estilo/personagem. Proporções extremas: Novas proporções 1:4, 4:1, 1:8, 8:1 adicionadas, adequadas para imagens longas, pôsteres e banners. Renderização de texto: Geração de texto avançada, adequada para infográficos e layouts de pôsteres de marketing. Aprimoramento de pesquisa: Google Search + Image Search integrados. Fundamentação: Processo de raciocínio incorporado; prompts complexos são analisados antes da geração.
A

Claude Opus 4.6

Entrada:$4/M
Saída:$20/M
Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.
A

Claude Mythos Preview

A

Claude Mythos Preview

Em breve
Entrada:$60/M
Saída:$240/M
Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.

Blogs relacionados

O ChatGPT consegue fazer texto para fala? O guia mais recente de 2026 sobre voz e modelos de TTS
Apr 2, 2026

O ChatGPT consegue fazer texto para fala? O guia mais recente de 2026 sobre voz e modelos de TTS

O ChatGPT pode converter texto em fala, mas a resposta depende do que você quer dizer. No app do ChatGPT, o Voice permite que o ChatGPT fale em voz alta e foi atualizado recentemente para seguir melhor as instruções e usar ferramentas como a pesquisa na web de forma mais eficaz. Para desenvolvedores, a OpenAI também oferece uma API dedicada de texto para fala por meio do endpoint audio/speech, com modelos incluindo gpt-4o-mini-tts, tts-1 e tts-1-hd. A OpenAI diz que seu snapshot de TTS mais recente apresentou uma taxa de erro de palavras aproximadamente 35% menor no Common Voice e no FLEURS em comparação com a geração anterior.