โมเดลสนับสนุนองค์กรบล็อก
500+ AI Model API ทั้งหมดในหนึ่ง API เพียงแค่ใน CometAPI
API โมเดล
นักพัฒนา
เริ่มต้นอย่างรวดเร็วเอกสารประกอบแดชบอร์ด API
ทรัพยากร
โมเดล AIบล็อกองค์กรบันทึกการเปลี่ยนแปลงเกี่ยวกับ
2025 CometAPI สงวนลิขสิทธิ์ทั้งหมดนโยบายความเป็นส่วนตัวข้อกำหนดการให้บริการ
Home/Models/OpenAI/tts-1
O

tts-1

อินพุต:$12/M
เอาต์พุต:$12/M
ใช้งานเชิงพาณิชย์
ภาพรวม
คุณสมบัติ
ราคา
API

Technical Specifications of tts-1

SpecificationDetails
Model IDtts-1
ProviderOpenAI
Model typeText-to-speech (TTS) model for converting text input into spoken audio.
Primary optimizationOptimized for speed and low-latency generation, especially for realtime or near-realtime speech output.
Quality profileLower latency than tts-1-hd, but with lower audio quality than the HD variant.
Input modalityText only.
Output modalityAudio only.
API endpointOpenAI Audio API speech generation endpoint: /v1/audio/speech.
Max input lengthUp to 4096 characters per request.
Supported response formatsmp3, opus, aac, flac, wav, pcm.
Speed controlSupported from 0.25 to 4.0, with 1.0 as default.
Voice options for tts-1alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer.
Streaming supportThe Speech API supports streaming audio output, but SSE streaming and instruction-based voice control are not supported for tts-1.
PricingOpenAI lists tts-1 at $15 per 1M tokens for speech generation.

What is tts-1?

tts-1 is OpenAI’s text-to-speech model designed to turn written text into natural-sounding spoken audio. It is positioned as the faster, lower-latency option among OpenAI’s classic TTS models, making it suitable for applications that need quick speech synthesis rather than the highest possible fidelity.

Developers typically use tts-1 through the Audio API’s speech generation endpoint when they want to convert application text, prompts, notifications, narrations, or assistant responses into playable audio files. OpenAI’s documentation describes it as optimized for realtime text-to-speech use cases.

In practice, tts-1 is a good fit for lightweight voice experiences, rapid response systems, interactive prototypes, and products where responsiveness matters more than premium voice quality. If maximum quality is the priority, OpenAI points users toward tts-1-hd, while newer expressive use cases may use newer TTS models instead.

Main features of tts-1

  • Low-latency speech generation: tts-1 is specifically optimized for speed, which makes it useful for apps that need spoken output quickly.
  • Natural-sounding text-to-speech: The model converts plain text into spoken audio suitable for narration, assistant responses, and voice interfaces.
  • Multiple built-in voices: tts-1 supports a set of built-in voices including alloy, ash, coral, echo, fable, onyx, nova, sage, and shimmer.
  • Flexible audio output formats: Developers can request generated audio in common formats such as MP3, WAV, FLAC, AAC, Opus, and PCM depending on playback or processing needs.
  • Adjustable playback speed: The API allows speed control from 0.25x to 4.0x, enabling slower narration or faster playback where appropriate.
  • Simple API-based integration: tts-1 is available through the standard speech generation API, which makes it straightforward to integrate into web, mobile, or backend workflows.
  • Good for realtime-oriented applications: OpenAI explicitly frames tts-1 as a model for realtime text-to-speech scenarios, which makes it practical for assistants, notifications, and fast interactive systems.
  • Tradeoff-focused model choice: Compared with tts-1-hd, this model prioritizes faster generation over higher-fidelity output, giving developers a clear latency-versus-quality option.

How to access and integrate tts-1

Step 1: Sign Up for API Key

To access the tts-1 API, first sign up on CometAPI and generate your API key from the dashboard. After logging in, create a new key, copy it securely, and store it in your application environment variables. You will use this key to authenticate all requests to the tts-1 API.

Step 2: Send Requests to tts-1 API

Once you have your API key, send a POST request to the CometAPI endpoint for tts-1 with your input payload. Include your API key in the Authorization header and specify tts-1 as the model. A typical request includes the input text plus TTS parameters such as voice and response format.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Step 3: Retrieve and Verify Results

After submitting your request, the tts-1 API returns generated audio content if the call succeeds. Save the returned file or stream, verify that the audio plays correctly, and confirm that the selected voice, speed, and format match your application requirements. If needed, retry with adjusted parameters to improve the final output.

คุณสมบัติสำหรับ tts-1

สำรวจคุณสมบัติหลักของ tts-1 ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ tts-1

สำรวจราคาที่แข่งขันได้สำหรับ tts-1 ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า tts-1 สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$12/M
เอาต์พุต:$12/M
อินพุต:$15/M
เอาต์พุต:$15/M
-20%

โค้ดตัวอย่างและ API สำหรับ tts-1

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ tts-1 เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ tts-1 ในโครงการของคุณ

โมเดลเพิ่มเติม

G

Nano Banana 2

อินพุต:$0.4/M
เอาต์พุต:$2.4/M
ภาพรวมความสามารถหลัก: ความละเอียด: สูงสุด 4K (4096×4096) เทียบเท่า Pro. ความสม่ำเสมอของภาพอ้างอิง: รองรับภาพอ้างอิงได้สูงสุด 14 ภาพ (วัตถุ 10 รายการ + ตัวละคร 4 ตัว), รักษาความสม่ำเสมอของสไตล์/ตัวละคร. อัตราส่วนภาพแบบสุดโต่ง: เพิ่มอัตราส่วนใหม่ 1:4, 4:1, 1:8, 8:1 เหมาะสำหรับภาพแนวยาว, โปสเตอร์ และแบนเนอร์. การเรนเดอร์ข้อความ: การสร้างข้อความขั้นสูง เหมาะสำหรับอินโฟกราฟิกและเลย์เอาต์โปสเตอร์สำหรับการตลาด. การปรับปรุงการค้นหา: ผสาน Google Search + การค้นหาด้วยภาพ. การยึดโยง: มีกระบวนการคิดในตัว; ทำการให้เหตุผลกับพรอมป์ตที่ซับซ้อนก่อนการสร้าง.
A

Claude Opus 4.6

อินพุต:$4/M
เอาต์พุต:$20/M
Claude Opus 4.6 เป็นโมเดลภาษาขนาดใหญ่ระดับ “Opus” ของ Anthropic เปิดตัวในเดือนกุมภาพันธ์ 2026. ถูกวางตำแหน่งให้เป็นกำลังหลักสำหรับงานเชิงความรู้และเวิร์กโฟลว์การวิจัย — ปรับปรุงการให้เหตุผลในบริบทยาว การวางแผนหลายขั้นตอน การใช้เครื่องมือ (รวมถึงเวิร์กโฟลว์ซอฟต์แวร์เชิงตัวแทน) และงานการใช้คอมพิวเตอร์ เช่น การสร้างสไลด์และสเปรดชีตอัตโนมัติ.
A

Claude Sonnet 4.6

อินพุต:$2.4/M
เอาต์พุต:$12/M
Claude Sonnet 4.6 เป็นโมเดล Sonnet ที่มีความสามารถมากที่สุดเท่าที่เคยมีมา เป็นการอัปเกรดเต็มรูปแบบของทักษะของโมเดล ครอบคลุมการเขียนโค้ด การใช้งานคอมพิวเตอร์ การให้เหตุผลในบริบทยาว การวางแผนของเอเจนต์ งานด้านความรู้ และการออกแบบ Sonnet 4.6 ยังมาพร้อมกับหน้าต่างบริบทขนาด 1M โทเค็นในเวอร์ชันเบต้า
O

GPT-5.4 nano

อินพุต:$0.16/M
เอาต์พุต:$1/M
GPT-5.4 nano ถูกออกแบบมาสำหรับงานที่ความเร็วและต้นทุนมีความสำคัญสูงสุด เช่น การจำแนกประเภท การสกัดข้อมูล การจัดอันดับ และเอเจนต์ย่อย.
O

GPT-5.4 mini

อินพุต:$0.6/M
เอาต์พุต:$3.6/M
GPT-5.4 mini นำจุดแข็งของ GPT-5.4 มาสู่โมเดลที่เร็วกว่าและมีประสิทธิภาพมากขึ้น ซึ่งออกแบบมาสำหรับภาระงานปริมาณมาก
A

Claude Mythos Preview

A

Claude Mythos Preview

เร็วๆ นี้
อินพุต:$60/M
เอาต์พุต:$240/M
Claude Mythos Preview เป็นโมเดลระดับแนวหน้าที่มีความสามารถสูงสุดของเราจนถึงปัจจุบัน และทำคะแนนก้าวกระโดดอย่างชัดเจน บนเบนช์มาร์กการประเมินหลายรายการ เมื่อเทียบกับโมเดลระดับแนวหน้ารุ่นก่อนของเรา Claude Opus 4.6.

บล็อกที่เกี่ยวข้อง

ChatGPT สามารถแปลงข้อความเป็นเสียงได้หรือไม่? คู่มือปี 2026 ล่าสุดเกี่ยวกับเสียงและโมเดล TTS
Apr 2, 2026

ChatGPT สามารถแปลงข้อความเป็นเสียงได้หรือไม่? คู่มือปี 2026 ล่าสุดเกี่ยวกับเสียงและโมเดล TTS

ChatGPT สามารถแปลงข้อความเป็นคำพูดได้ แต่คำตอบขึ้นอยู่กับว่าคุณหมายถึงอะไร ในแอป ChatGPT ฟีเจอร์ Voice ทำให้ ChatGPT พูดออกเสียงได้ และเพิ่งได้รับการอัปเดตให้ทำตามคำสั่งได้ดีขึ้นและใช้เครื่องมืออย่างการค้นหาบนเว็บได้อย่างมีประสิทธิภาพมากขึ้น สำหรับนักพัฒนา OpenAI ยังมี API สำหรับ Text-to-Speech โดยเฉพาะผ่าน endpoint audio/speech โดยมีโมเดล เช่น gpt-4o-mini-tts, tts-1 และ tts-1-hd OpenAI ระบุว่า TTS snapshot รุ่นล่าสุดของตนให้ค่า word error rate ต่ำลงประมาณ 35% บน Common Voice และ FLEURS เมื่อเทียบกับรุ่นก่อนหน้า