Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/OpenAI/tts-1
O

tts-1

Đầu vào:$12/M
Đầu ra:$12/M
Sử dụng thương mại
Tổng quan
Tính năng
Giá cả
API

Technical Specifications of tts-1

SpecificationDetails
Model IDtts-1
ProviderOpenAI
Model typeText-to-speech (TTS) model for converting text input into spoken audio.
Primary optimizationOptimized for speed and low-latency generation, especially for realtime or near-realtime speech output.
Quality profileLower latency than tts-1-hd, but with lower audio quality than the HD variant.
Input modalityText only.
Output modalityAudio only.
API endpointOpenAI Audio API speech generation endpoint: /v1/audio/speech.
Max input lengthUp to 4096 characters per request.
Supported response formatsmp3, opus, aac, flac, wav, pcm.
Speed controlSupported from 0.25 to 4.0, with 1.0 as default.
Voice options for tts-1alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer.
Streaming supportThe Speech API supports streaming audio output, but SSE streaming and instruction-based voice control are not supported for tts-1.
PricingOpenAI lists tts-1 at $15 per 1M tokens for speech generation.

What is tts-1?

tts-1 is OpenAI’s text-to-speech model designed to turn written text into natural-sounding spoken audio. It is positioned as the faster, lower-latency option among OpenAI’s classic TTS models, making it suitable for applications that need quick speech synthesis rather than the highest possible fidelity.

Developers typically use tts-1 through the Audio API’s speech generation endpoint when they want to convert application text, prompts, notifications, narrations, or assistant responses into playable audio files. OpenAI’s documentation describes it as optimized for realtime text-to-speech use cases.

In practice, tts-1 is a good fit for lightweight voice experiences, rapid response systems, interactive prototypes, and products where responsiveness matters more than premium voice quality. If maximum quality is the priority, OpenAI points users toward tts-1-hd, while newer expressive use cases may use newer TTS models instead.

Main features of tts-1

  • Low-latency speech generation: tts-1 is specifically optimized for speed, which makes it useful for apps that need spoken output quickly.
  • Natural-sounding text-to-speech: The model converts plain text into spoken audio suitable for narration, assistant responses, and voice interfaces.
  • Multiple built-in voices: tts-1 supports a set of built-in voices including alloy, ash, coral, echo, fable, onyx, nova, sage, and shimmer.
  • Flexible audio output formats: Developers can request generated audio in common formats such as MP3, WAV, FLAC, AAC, Opus, and PCM depending on playback or processing needs.
  • Adjustable playback speed: The API allows speed control from 0.25x to 4.0x, enabling slower narration or faster playback where appropriate.
  • Simple API-based integration: tts-1 is available through the standard speech generation API, which makes it straightforward to integrate into web, mobile, or backend workflows.
  • Good for realtime-oriented applications: OpenAI explicitly frames tts-1 as a model for realtime text-to-speech scenarios, which makes it practical for assistants, notifications, and fast interactive systems.
  • Tradeoff-focused model choice: Compared with tts-1-hd, this model prioritizes faster generation over higher-fidelity output, giving developers a clear latency-versus-quality option.

How to access and integrate tts-1

Step 1: Sign Up for API Key

To access the tts-1 API, first sign up on CometAPI and generate your API key from the dashboard. After logging in, create a new key, copy it securely, and store it in your application environment variables. You will use this key to authenticate all requests to the tts-1 API.

Step 2: Send Requests to tts-1 API

Once you have your API key, send a POST request to the CometAPI endpoint for tts-1 with your input payload. Include your API key in the Authorization header and specify tts-1 as the model. A typical request includes the input text plus TTS parameters such as voice and response format.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Step 3: Retrieve and Verify Results

After submitting your request, the tts-1 API returns generated audio content if the call succeeds. Save the returned file or stream, verify that the audio plays correctly, and confirm that the selected voice, speed, and format match your application requirements. If needed, retry with adjusted parameters to improve the final output.

Tính năng cho tts-1

Khám phá các tính năng chính của tts-1, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho tts-1

Khám phá mức giá cạnh tranh cho tts-1, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách tts-1 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$12/M
Đầu ra:$12/M
Đầu vào:$15/M
Đầu ra:$15/M
-20%

Mã mẫu và API cho tts-1

Truy cập mã mẫu toàn diện và tài nguyên API cho tts-1 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của tts-1 trong các dự án của mình.

Thêm mô hình

G

Nano Banana 2

Đầu vào:$0.4/M
Đầu ra:$2.4/M
Tổng quan về khả năng cốt lõi: Độ phân giải: Lên đến 4K (4096×4096), tương đương với Pro. Tính nhất quán hình ảnh tham chiếu: Tối đa 14 hình ảnh tham chiếu (10 đối tượng + 4 nhân vật), duy trì tính nhất quán về phong cách/nhân vật. Tỷ lệ khung hình cực đoan: Bổ sung các tỷ lệ mới 1:4, 4:1, 1:8, 8:1, phù hợp cho hình ảnh dài, poster và banner. Kết xuất văn bản: Tạo văn bản nâng cao, phù hợp cho infographics và bố cục poster marketing. Tăng cường tìm kiếm: Tích hợp Google Search + Image Search. Lý giải nền tảng: Quy trình tư duy tích hợp; các prompt phức tạp được suy luận trước khi tạo.
A

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
A

Claude Mythos Preview

A

Claude Mythos Preview

Sắp ra mắt
Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.

Blog liên quan

ChatGPT có thể chuyển văn bản thành giọng nói không? Hướng dẫn mới nhất năm 2026 về giọng nói và các mô hình TTS
Apr 2, 2026

ChatGPT có thể chuyển văn bản thành giọng nói không? Hướng dẫn mới nhất năm 2026 về giọng nói và các mô hình TTS

ChatGPT có thể chuyển văn bản thành giọng nói, nhưng câu trả lời còn phụ thuộc vào bạn muốn nói cụ thể điều gì. Trong ứng dụng ChatGPT, Voice cho phép ChatGPT nói ra thành tiếng và gần đây đã được cập nhật để làm theo chỉ dẫn tốt hơn và sử dụng các công cụ như tìm kiếm web hiệu quả hơn. Đối với nhà phát triển, OpenAI cũng cung cấp một API chuyên dụng cho chuyển văn bản thành giọng nói thông qua endpoint audio/speech, với các mô hình gồm gpt-4o-mini-tts, tts-1 và tts-1-hd. OpenAI cho biết bản snapshot TTS mới nhất của họ mang lại tỷ lệ lỗi từ thấp hơn khoảng 35% trên Common Voice và FLEURS so với thế hệ trước.