النماذجالدعمالمؤسسةمدونة
أكثر من 500 واجهة برمجة تطبيقات لنماذج الذكاء الاصطناعي، الكل في واجهة واحدة. فقط في CometAPI
واجهة برمجة التطبيقات للنماذج
مطور
البدء السريعالتوثيقلوحة تحكم API
الموارد
نماذج الذكاء الاصطناعيمدونةالمؤسسةالسجل التاريخي للتغييراتحول
2025 CometAPI. جميع الحقوق محفوظة.سياسة الخصوصيةشروط الخدمة
Home/Models/OpenAI/tts-1
O

tts-1

مدخل:$12/M
الإخراج:$12/M
الاستخدام التجاري
نظرة عامة
الميزات
التسعير
API

Technical Specifications of tts-1

SpecificationDetails
Model IDtts-1
ProviderOpenAI
Model typeText-to-speech (TTS) model for converting text input into spoken audio.
Primary optimizationOptimized for speed and low-latency generation, especially for realtime or near-realtime speech output.
Quality profileLower latency than tts-1-hd, but with lower audio quality than the HD variant.
Input modalityText only.
Output modalityAudio only.
API endpointOpenAI Audio API speech generation endpoint: /v1/audio/speech.
Max input lengthUp to 4096 characters per request.
Supported response formatsmp3, opus, aac, flac, wav, pcm.
Speed controlSupported from 0.25 to 4.0, with 1.0 as default.
Voice options for tts-1alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer.
Streaming supportThe Speech API supports streaming audio output, but SSE streaming and instruction-based voice control are not supported for tts-1.
PricingOpenAI lists tts-1 at $15 per 1M tokens for speech generation.

What is tts-1?

tts-1 is OpenAI’s text-to-speech model designed to turn written text into natural-sounding spoken audio. It is positioned as the faster, lower-latency option among OpenAI’s classic TTS models, making it suitable for applications that need quick speech synthesis rather than the highest possible fidelity.

Developers typically use tts-1 through the Audio API’s speech generation endpoint when they want to convert application text, prompts, notifications, narrations, or assistant responses into playable audio files. OpenAI’s documentation describes it as optimized for realtime text-to-speech use cases.

In practice, tts-1 is a good fit for lightweight voice experiences, rapid response systems, interactive prototypes, and products where responsiveness matters more than premium voice quality. If maximum quality is the priority, OpenAI points users toward tts-1-hd, while newer expressive use cases may use newer TTS models instead.

Main features of tts-1

  • Low-latency speech generation: tts-1 is specifically optimized for speed, which makes it useful for apps that need spoken output quickly.
  • Natural-sounding text-to-speech: The model converts plain text into spoken audio suitable for narration, assistant responses, and voice interfaces.
  • Multiple built-in voices: tts-1 supports a set of built-in voices including alloy, ash, coral, echo, fable, onyx, nova, sage, and shimmer.
  • Flexible audio output formats: Developers can request generated audio in common formats such as MP3, WAV, FLAC, AAC, Opus, and PCM depending on playback or processing needs.
  • Adjustable playback speed: The API allows speed control from 0.25x to 4.0x, enabling slower narration or faster playback where appropriate.
  • Simple API-based integration: tts-1 is available through the standard speech generation API, which makes it straightforward to integrate into web, mobile, or backend workflows.
  • Good for realtime-oriented applications: OpenAI explicitly frames tts-1 as a model for realtime text-to-speech scenarios, which makes it practical for assistants, notifications, and fast interactive systems.
  • Tradeoff-focused model choice: Compared with tts-1-hd, this model prioritizes faster generation over higher-fidelity output, giving developers a clear latency-versus-quality option.

How to access and integrate tts-1

Step 1: Sign Up for API Key

To access the tts-1 API, first sign up on CometAPI and generate your API key from the dashboard. After logging in, create a new key, copy it securely, and store it in your application environment variables. You will use this key to authenticate all requests to the tts-1 API.

Step 2: Send Requests to tts-1 API

Once you have your API key, send a POST request to the CometAPI endpoint for tts-1 with your input payload. Include your API key in the Authorization header and specify tts-1 as the model. A typical request includes the input text plus TTS parameters such as voice and response format.

curl https://api.cometapi.com/v1/audio/speech \
  -H "Authorization: Bearer $COMETAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to CometAPI text to speech.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

Step 3: Retrieve and Verify Results

After submitting your request, the tts-1 API returns generated audio content if the call succeeds. Save the returned file or stream, verify that the audio plays correctly, and confirm that the selected voice, speed, and format match your application requirements. If needed, retry with adjusted parameters to improve the final output.

الميزات لـ tts-1

استكشف الميزات الرئيسية لـ tts-1، المصممة لتعزيز الأداء وسهولة الاستخدام. اكتشف كيف يمكن لهذه القدرات أن تفيد مشاريعك وتحسن تجربة المستخدم.

التسعير لـ tts-1

استكشف الأسعار التنافسية لـ tts-1، المصمم ليناسب الميزانيات المختلفة واحتياجات الاستخدام المتنوعة. تضمن خططنا المرنة أن تدفع فقط مقابل ما تستخدمه، مما يجعل من السهل التوسع مع نمو متطلباتك. اكتشف كيف يمكن لـ tts-1 تحسين مشاريعك مع الحفاظ على التكاليف قابلة للإدارة.
سعر كوميت (USD / M Tokens)السعر الرسمي (USD / M Tokens)خصم
مدخل:$12/M
الإخراج:$12/M
مدخل:$15/M
الإخراج:$15/M
-20%

نموذج الكود وواجهة برمجة التطبيقات لـ tts-1

احصل على أكواد نماذجية شاملة وموارد API لـ tts-1 لتبسيط عملية التكامل الخاصة بك. توفر وثائقنا التفصيلية إرشادات خطوة بخطوة، مما يساعدك على الاستفادة من الإمكانات الكاملة لـ tts-1 في مشاريعك.

المزيد من النماذج

G

Nano Banana 2

مدخل:$0.4/M
الإخراج:$2.4/M
نظرة عامة على القدرات الأساسية: الدقة: حتى 4K (4096×4096)، على قدم المساواة مع Pro. اتساق الصور المرجعية: حتى 14 صورة مرجعية (10 عناصر + 4 شخصيات)، مع الحفاظ على اتساق الأسلوب/الشخصيات. نسب أبعاد قصوى: تمت إضافة نسب جديدة 1:4، 4:1، 1:8، 8:1، مناسبة للصور الطويلة والملصقات واللافتات. عرض النصوص: توليد نص متقدم، مناسب للرسوم المعلوماتية وتخطيطات الملصقات التسويقية. تعزيز البحث: تكامل Google Search + Image Search. الاستدلال: عملية تفكير مدمجة؛ تُعالَج المطالبات المعقدة بالاستدلال قبل التوليد.
A

Claude Opus 4.6

مدخل:$4/M
الإخراج:$20/M
Claude Opus 4.6 هو نموذج لغة كبير من فئة “Opus” تابع لـ Anthropic، صدر في فبراير 2026. ويُطرح كأداة عمل أساسية لأعمال المعرفة وسير عمل البحث — مع تحسين الاستدلال ضمن سياقات طويلة، والتخطيط متعدد الخطوات، واستخدام الأدوات (بما في ذلك أطر عمل برمجية قائمة على الوكلاء)، ومهام استخدام الحاسوب مثل إنشاء الشرائح وجداول البيانات تلقائيًا.
A

Claude Sonnet 4.6

مدخل:$2.4/M
الإخراج:$12/M
Claude Sonnet 4.6 هو أكثر نماذج Sonnet لدينا كفاءةً حتى الآن. إنه ترقية شاملة لقدرات النموذج في مجالات البرمجة، واستخدام الحاسوب، والاستدلال بسياقات طويلة، وتخطيط الوكلاء، والعمل المعرفي، والتصميم. كما يتميز Sonnet 4.6 بنافذة سياق بسعة 1M رمز في الإصدار التجريبي.
O

GPT-5.4 nano

مدخل:$0.16/M
الإخراج:$1/M
GPT-5.4 nano مصمم للمهام التي تكتسب فيها السرعة والتكلفة أهمية قصوى، مثل التصنيف، واستخراج البيانات، والترتيب، والوكلاء الفرعيين.
O

GPT-5.4 mini

مدخل:$0.6/M
الإخراج:$3.6/M
يقدّم GPT-5.4 mini قدرات GPT-5.4 ضمن نموذج أسرع وأكثر كفاءة مصمم لأحمال عمل كبيرة الحجم.
A

Claude Mythos Preview

A

Claude Mythos Preview

قريبًا
مدخل:$60/M
الإخراج:$240/M
Claude Mythos Preview هو أكثر نماذجنا الحدودية قدرة حتى الآن، ويُظهر قفزة لافتة في النتائج على العديد من معايير التقييم مقارنةً بنموذجنا الحدودي السابق، Claude Opus 4.6.

مدونات ذات صلة

هل يستطيع ChatGPT تحويل النص إلى كلام؟ الدليل الأحدث لعام 2026 حول الصوت ونماذج TTS
Apr 2, 2026

هل يستطيع ChatGPT تحويل النص إلى كلام؟ الدليل الأحدث لعام 2026 حول الصوت ونماذج TTS

يمكن لـ ChatGPT التحويل من نص إلى كلام، لكن الإجابة تعتمد على ما تقصده. في تطبيق ChatGPT، تتيح ميزة Voice لـ ChatGPT التحدث بصوت مسموع، وقد تم تحديثها مؤخرًا لتصبح أفضل في اتباع التعليمات واستخدام أدوات مثل البحث على الويب بفاعلية أكبر. للمطورين، توفر OpenAI أيضًا واجهة برمجة تطبيقات مخصصة للتحويل من نص إلى كلام عبر نقطة النهاية audio/speech، مع نماذج تشمل gpt-4o-mini-tts و tts-1 و tts-1-hd. تقول OpenAI إن أحدث لقطة TTS حققت معدل خطأ كلمات أقل بنحو 35% على Common Voice وFLEURS مقارنة بالجيل السابق.