ModelliSupportoAziendaBlog
500+ API di Modelli AI, Tutto In Una Sola API. Solo In CometAPI
API dei Modelli
Sviluppatore
Avvio RapidoDocumentazioneDashboard API
Risorse
Modelli di Intelligenza ArtificialeBlogAziendaRegistro delle modificheChi siamo
2025 CometAPI. Tutti i diritti riservati.Informativa sulla PrivacyTermini di Servizio
Home/Models/OpenAI/tts-1
O

tts-1

Ingresso:$12/M
Uscita:$12/M
Uso commerciale
Panoramica
Caratteristiche
Prezzi
API

Technical Specifications of tts-1

SpecificationDetails
Model IDtts-1
ProviderOpenAI
Model typeText-to-speech (TTS) model for converting text input into spoken audio.
Primary optimizationOptimized for speed and low-latency generation, especially for realtime or near-realtime speech output.
Quality profileLower latency than tts-1-hd, but with lower audio quality than the HD variant.
Input modalityText only.
Output modalityAudio only.
API endpointOpenAI Audio API speech generation endpoint: /v1/audio/speech.
Max input lengthUp to 4096 characters per request.
Supported response formatsmp3, opus, aac, flac, wav, pcm.
Speed controlSupported from 0.25 to 4.0, with 1.0 as default.
Voice options for tts-1alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer.
Streaming supportThe Speech API supports streaming audio output, but SSE streaming and instruction-based voice control are not supported for tts-1.
PricingOpenAI lists tts-1 at $15 per 1M tokens for speech generation.

What is tts-1?

tts-1 is OpenAI’s text-to-speech model designed to turn written text into natural-sounding spoken audio. It is positioned as the faster, lower-latency option among OpenAI’s classic TTS models, making it suitable for applications that need quick speech synthesis rather than the highest possible fidelity.

Developers typically use tts-1 through the Audio API’s speech generation endpoint when they want to convert application text, prompts, notifications, narrations, or assistant responses into playable audio files. OpenAI’s documentation describes it as optimized for realtime text-to-speech use cases.

In practice, tts-1 is a good fit for lightweight voice experiences, rapid response systems, interactive prototypes, and products where responsiveness matters more than premium voice quality. If maximum quality is the priority, OpenAI points users toward tts-1-hd, while newer expressive use cases may use newer TTS models instead.

Main features of tts-1

  • Low-latency speech generation: tts-1 is specifically optimized for speed, which makes it useful for apps that need spoken output quickly.
  • Natural-sounding text-to-speech: The model converts plain text into spoken audio suitable for narration, assistant responses, and voice interfaces.
  • Multiple built-in voices: tts-1 supports a set of built-in voices including alloy, ash, coral, echo, fable, onyx, nova, sage, and shimmer.
  • Flexible audio output formats: Developers can request generated audio in common formats such as MP3, WAV, FLAC, AAC, Opus, and PCM depending on playback or processing needs.
  • Adjustable playback speed: The API allows speed control from 0.25x to 4.0x, enabling slower narration or faster playback where appropriate.
  • Simple API-based integration: tts-1 is available through the standard speech generation API, which makes it straightforward to integrate into web, mobile, or backend workflows.
  • Good for realtime-oriented applications: OpenAI explicitly frames tts-1 as a model for realtime text-to-speech scenarios, which makes it practical for assistants, notifications, and fast interactive systems.
  • Tradeoff-focused model choice: Compared with tts-1-hd, this model prioritizes faster generation over higher-fidelity output, giving developers a clear latency-versus-quality option.

How to access and integrate tts-1

Step 1: Sign Up for API Key

To access the tts-1 API, first sign up on CometAPI and generate your API key from the dashboard. After logging in, create a new key, copy it securely, and store it in your application environment variables. You will use this key to authenticate all requests to the tts-1 API.

Step 2: Send Requests to tts-1 API

Once you have your API key, send a POST request to the CometAPI endpoint for tts-1 with your input payload. Include your API key in the Authorization header and specify tts-1 as the model. A typical request includes the input text plus TTS parameters such as voice and response format.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Step 3: Retrieve and Verify Results

After submitting your request, the tts-1 API returns generated audio content if the call succeeds. Save the returned file or stream, verify that the audio plays correctly, and confirm that the selected voice, speed, and format match your application requirements. If needed, retry with adjusted parameters to improve the final output.

Funzionalità per tts-1

Esplora le caratteristiche principali di tts-1, progettato per migliorare le prestazioni e l'usabilità. Scopri come queste funzionalità possono beneficiare i tuoi progetti e migliorare l'esperienza utente.

Prezzi per tts-1

Esplora i prezzi competitivi per tts-1, progettato per adattarsi a vari budget e necessità di utilizzo. I nostri piani flessibili garantiscono che paghi solo per quello che usi, rendendo facile scalare man mano che i tuoi requisiti crescono. Scopri come tts-1 può migliorare i tuoi progetti mantenendo i costi gestibili.
Prezzo Comet (USD / M Tokens)Prezzo Ufficiale (USD / M Tokens)Sconto
Ingresso:$12/M
Uscita:$12/M
Ingresso:$15/M
Uscita:$15/M
-20%

Codice di esempio e API per tts-1

Accedi a codice di esempio completo e risorse API per tts-1 per semplificare il tuo processo di integrazione. La nostra documentazione dettagliata fornisce una guida passo dopo passo, aiutandoti a sfruttare appieno il potenziale di tts-1 nei tuoi progetti.

Altri modelli

G

Nano Banana 2

Ingresso:$0.4/M
Uscita:$2.4/M
Panoramica delle capacità principali: Risoluzione: Fino a 4K (4096×4096), alla pari con Pro. Coerenza delle immagini di riferimento: Fino a 14 immagini di riferimento (10 oggetti + 4 personaggi), mantenendo la coerenza di stile e dei personaggi. Rapporti d'aspetto estremi: Aggiunti i nuovi rapporti 1:4, 4:1, 1:8, 8:1, adatti a immagini lunghe, poster e banner. Rendering del testo: Generazione di testo avanzata, adatta per infografiche e layout per poster di marketing. Miglioramento della ricerca: Integrazione di Ricerca Google + Ricerca immagini. Grounding: Processo di ragionamento integrato; i prompt complessi vengono analizzati prima della generazione.
A

Claude Opus 4.6

Ingresso:$4/M
Uscita:$20/M
Claude Opus 4.6 è il modello linguistico di grandi dimensioni di classe “Opus” di Anthropic, rilasciato nel febbraio 2026. È posizionato come un cavallo di battaglia per il lavoro della conoscenza e i flussi di lavoro di ricerca — migliorando il ragionamento con contesti estesi, la pianificazione in più fasi, l’uso di strumenti (inclusi i flussi di lavoro software basati su agenti) e le attività d’uso del computer, come la generazione automatizzata di diapositive e fogli di calcolo.
A

Claude Sonnet 4.6

Ingresso:$2.4/M
Uscita:$12/M
Claude Sonnet 4.6 è il nostro modello Sonnet più capace finora. È un aggiornamento completo delle capacità del modello in ambiti quali programmazione, uso del computer, ragionamento su contesti estesi, pianificazione degli agenti, lavoro basato sulla conoscenza e design. Sonnet 4.6 offre anche una finestra di contesto da 1M token in beta.
O

GPT-5.4 nano

Ingresso:$0.16/M
Uscita:$1/M
GPT-5.4 nano è progettato per attività in cui la velocità e il costo contano maggiormente, come classificazione, estrazione dei dati, ordinamento e sub-agenti.
O

GPT-5.4 mini

Ingresso:$0.6/M
Uscita:$3.6/M
GPT-5.4 mini porta i punti di forza di GPT-5.4 in un modello più veloce ed efficiente, progettato per carichi di lavoro ad alto volume.
A

Claude Mythos Preview

A

Claude Mythos Preview

Prossimamente
Ingresso:$60/M
Uscita:$240/M
Claude Mythos Preview è il nostro modello di frontiera più capace finora e mostra un balzo notevole nei punteggi su molti benchmark di valutazione rispetto al nostro precedente modello di frontiera, Claude Opus 4.6.

Blog correlati

ChatGPT può convertire il testo in voce? La guida aggiornata al 2026 su voce e modelli TTS
Apr 2, 2026

ChatGPT può convertire il testo in voce? La guida aggiornata al 2026 su voce e modelli TTS

ChatGPT può effettuare la sintesi vocale, ma la risposta dipende da cosa intendi. Nell’app ChatGPT, Voice consente a ChatGPT di parlare ad alta voce ed è stato aggiornato di recente per seguire meglio le istruzioni e usare strumenti come la ricerca sul Web in modo più efficace. Per gli sviluppatori, OpenAI offre anche un’API dedicata alla sintesi vocale tramite l’endpoint audio/speech, con modelli tra cui gpt-4o-mini-tts, tts-1 e tts-1-hd. OpenAI afferma che il suo ultimo snapshot TTS ha ottenuto un tasso di errore di parola inferiore di circa il 35% su Common Voice e FLEURS rispetto alla generazione precedente.