ModeleWsparciePrzedsiębiorstwoBlog
Ponad 500 API modeli AI, wszystko w jednym API. Tylko w CometAPI
API modeli
Deweloper
Szybki startDokumentacjaPanel API
Zasoby
Modele Sztucznej InteligencjiBlogPrzedsiębiorstwoDziennik zmianO nas
2025 CometAPI. Wszelkie prawa zastrzeżone.Polityka PrywatnościWarunki korzystania z usługi
Home/Models/OpenAI/tts-1
O

tts-1

Wejście:$12/M
Wyjście:$12/M
Użycie komercyjne
Przegląd
Funkcje
Cennik
API

Technical Specifications of tts-1

SpecificationDetails
Model IDtts-1
ProviderOpenAI
Model typeText-to-speech (TTS) model for converting text input into spoken audio.
Primary optimizationOptimized for speed and low-latency generation, especially for realtime or near-realtime speech output.
Quality profileLower latency than tts-1-hd, but with lower audio quality than the HD variant.
Input modalityText only.
Output modalityAudio only.
API endpointOpenAI Audio API speech generation endpoint: /v1/audio/speech.
Max input lengthUp to 4096 characters per request.
Supported response formatsmp3, opus, aac, flac, wav, pcm.
Speed controlSupported from 0.25 to 4.0, with 1.0 as default.
Voice options for tts-1alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer.
Streaming supportThe Speech API supports streaming audio output, but SSE streaming and instruction-based voice control are not supported for tts-1.
PricingOpenAI lists tts-1 at $15 per 1M tokens for speech generation.

What is tts-1?

tts-1 is OpenAI’s text-to-speech model designed to turn written text into natural-sounding spoken audio. It is positioned as the faster, lower-latency option among OpenAI’s classic TTS models, making it suitable for applications that need quick speech synthesis rather than the highest possible fidelity.

Developers typically use tts-1 through the Audio API’s speech generation endpoint when they want to convert application text, prompts, notifications, narrations, or assistant responses into playable audio files. OpenAI’s documentation describes it as optimized for realtime text-to-speech use cases.

In practice, tts-1 is a good fit for lightweight voice experiences, rapid response systems, interactive prototypes, and products where responsiveness matters more than premium voice quality. If maximum quality is the priority, OpenAI points users toward tts-1-hd, while newer expressive use cases may use newer TTS models instead.

Main features of tts-1

  • Low-latency speech generation: tts-1 is specifically optimized for speed, which makes it useful for apps that need spoken output quickly.
  • Natural-sounding text-to-speech: The model converts plain text into spoken audio suitable for narration, assistant responses, and voice interfaces.
  • Multiple built-in voices: tts-1 supports a set of built-in voices including alloy, ash, coral, echo, fable, onyx, nova, sage, and shimmer.
  • Flexible audio output formats: Developers can request generated audio in common formats such as MP3, WAV, FLAC, AAC, Opus, and PCM depending on playback or processing needs.
  • Adjustable playback speed: The API allows speed control from 0.25x to 4.0x, enabling slower narration or faster playback where appropriate.
  • Simple API-based integration: tts-1 is available through the standard speech generation API, which makes it straightforward to integrate into web, mobile, or backend workflows.
  • Good for realtime-oriented applications: OpenAI explicitly frames tts-1 as a model for realtime text-to-speech scenarios, which makes it practical for assistants, notifications, and fast interactive systems.
  • Tradeoff-focused model choice: Compared with tts-1-hd, this model prioritizes faster generation over higher-fidelity output, giving developers a clear latency-versus-quality option.

How to access and integrate tts-1

Step 1: Sign Up for API Key

To access the tts-1 API, first sign up on CometAPI and generate your API key from the dashboard. After logging in, create a new key, copy it securely, and store it in your application environment variables. You will use this key to authenticate all requests to the tts-1 API.

Step 2: Send Requests to tts-1 API

Once you have your API key, send a POST request to the CometAPI endpoint for tts-1 with your input payload. Include your API key in the Authorization header and specify tts-1 as the model. A typical request includes the input text plus TTS parameters such as voice and response format.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Step 3: Retrieve and Verify Results

After submitting your request, the tts-1 API returns generated audio content if the call succeeds. Save the returned file or stream, verify that the audio plays correctly, and confirm that the selected voice, speed, and format match your application requirements. If needed, retry with adjusted parameters to improve the final output.

Funkcje dla tts-1

Poznaj kluczowe funkcje tts-1, zaprojektowane w celu zwiększenia wydajności i użyteczności. Odkryj, jak te możliwości mogą przynieść korzyści Twoim projektom i poprawić doświadczenie użytkownika.

Cennik dla tts-1

Poznaj konkurencyjne ceny dla tts-1, zaprojektowane tak, aby pasowały do różnych budżetów i potrzeb użytkowania. Nasze elastyczne plany zapewniają, że płacisz tylko za to, czego używasz, co ułatwia skalowanie w miarę wzrostu Twoich wymagań. Odkryj, jak tts-1 może ulepszyć Twoje projekty przy jednoczesnym utrzymaniu kosztów na rozsądnym poziomie.
Cena Comet (USD / M Tokens)Oficjalna cena (USD / M Tokens)Zniżka
Wejście:$12/M
Wyjście:$12/M
Wejście:$15/M
Wyjście:$15/M
-20%

Przykładowy kod i API dla tts-1

Uzyskaj dostęp do kompleksowego przykładowego kodu i zasobów API dla tts-1, aby usprawnić proces integracji. Nasza szczegółowa dokumentacja zapewnia wskazówki krok po kroku, pomagając wykorzystać pełny potencjał tts-1 w Twoich projektach.

Więcej modeli

G

Nano Banana 2

Wejście:$0.4/M
Wyjście:$2.4/M
Przegląd kluczowych możliwości: Rozdzielczość: Do 4K (4096×4096), na równi z Pro. Spójność obrazów referencyjnych: Do 14 obrazów referencyjnych (10 obiektów + 4 postacie), z zachowaniem spójności stylu/postaci. Ekstremalne proporcje obrazu: Dodano nowe proporcje 1:4, 4:1, 1:8, 8:1, odpowiednie do długich obrazów, plakatów i banerów. Renderowanie tekstu: Zaawansowane generowanie tekstu, odpowiednie do infografik i układów plakatów marketingowych. Ulepszenie wyszukiwania: Zintegrowane Google Search + Image Search. Osadzanie: Wbudowany proces rozumowania; złożone polecenia są analizowane przed generowaniem.
A

Claude Opus 4.6

Wejście:$4/M
Wyjście:$20/M
Claude Opus 4.6 to duży model językowy firmy Anthropic klasy „Opus”, wydany w lutym 2026 r. Jest pozycjonowany jako podstawowe narzędzie wspierające pracę opartą na wiedzy oraz procesy badawcze — usprawnia rozumowanie w długim kontekście, planowanie wieloetapowe, korzystanie z narzędzi (w tym agentowe przepływy pracy oprogramowania) oraz zadania związane z obsługą komputera, takie jak automatyczne generowanie slajdów i arkuszy kalkulacyjnych.
A

Claude Sonnet 4.6

Wejście:$2.4/M
Wyjście:$12/M
Claude Sonnet 4.6 to nasz najbardziej zaawansowany model Sonnet do tej pory. To pełna aktualizacja umiejętności modelu, obejmująca programowanie, korzystanie z komputera, rozumowanie w długim kontekście, planowanie agentowe, pracę opartą na wiedzy oraz projektowanie. Sonnet 4.6 oferuje również okno kontekstu 1M tokenów w wersji beta.
O

GPT-5.4 nano

Wejście:$0.16/M
Wyjście:$1/M
GPT-5.4 nano został zaprojektowany z myślą o zadaniach, w których kluczowe są szybkość i koszt, takich jak klasyfikacja, ekstrakcja danych, ranking oraz sub-agenty.
O

GPT-5.4 mini

Wejście:$0.6/M
Wyjście:$3.6/M
GPT-5.4 mini przenosi zalety GPT-5.4 do szybszego i bardziej wydajnego modelu, zaprojektowanego z myślą o zadaniach o dużej skali.
A

Claude Mythos Preview

A

Claude Mythos Preview

Wkrótce
Wejście:$60/M
Wyjście:$240/M
Claude Mythos Preview to nasz najbardziej zaawansowany model najnowszej generacji jak dotąd i wykazuje imponujący skok wyników w wielu benchmarkach ewaluacyjnych w porównaniu z naszym poprzednim modelem najnowszej generacji, Claude Opus 4.6.

Powiązane blogi

Czy ChatGPT potrafi zamieniać tekst na mowę? Najnowszy przewodnik na 2026 rok dotyczący głosu i modeli TTS
Apr 2, 2026

Czy ChatGPT potrafi zamieniać tekst na mowę? Najnowszy przewodnik na 2026 rok dotyczący głosu i modeli TTS

ChatGPT potrafi zamieniać tekst na mowę, ale odpowiedź zależy od tego, co masz na myśli. W aplikacji ChatGPT funkcja Voice pozwala ChatGPT mówić na głos i została niedawno zaktualizowana, aby lepiej wykonywać polecenia oraz skuteczniej korzystać z narzędzi, takich jak wyszukiwanie w sieci. Dla deweloperów OpenAI udostępnia także dedykowane API do zamiany tekstu na mowę poprzez endpoint audio/speech, z modelami takimi jak gpt-4o-mini-tts, tts-1 i tts-1-hd. OpenAI podaje, że najnowszy snapshot TTS zapewnił około 35% niższy wskaźnik błędów słów w Common Voice i FLEURS w porównaniu z poprzednią generacją.