كشفت Alibaba Cloud عن Qwen-TTS: نموذج توليف الكلام عالي الدقة والمتدفق

CometAPI
AnnaJun 30, 2025
كشفت Alibaba Cloud عن Qwen-TTS: نموذج توليف الكلام عالي الدقة والمتدفق

On 26 يونيو، 2025تم إطلاق علي بابا كلاود كوين-تي تي إسأحدث إضافة إلى عائلة تونغي تشيانوين (Qwen) من نماذج الذكاء الاصطناعي الكبيرة. صُمم Qwen-TTS لتطبيقات تحويل النص إلى كلام متعددة الاستخدامات وعالية الجودة، ويدعم إدخال اللغة الصينية والإنجليزية واللغات المختلطة، ويوفر مخرجات صوتية دفعة واحدة وبثًا مباشرًا، مُلبيًا بذلك احتياجات استخدام متنوعة، من المساعدين الصوتيين الذكيين إلى إنتاج محتوى الوسائط المتعددة.

الميزات التقنية الرئيسية

  • إدخال متعدد اللغات:تعمل على معالجة النصوص الصينية الصرفة أو الإنجليزية الصرفة أو النصوص الصينية الإنجليزية المحولة بالرموز، مما يتيح توليفًا صوتيًا سلسًا عبر التطبيقات العالمية. بالإضافة إلى ذلك، يوفر النموذج سبعة ملفات تعريف صوتية ثنائية اللغة صينية إنجليزية (على سبيل المثال، Cherry وEthan وChelsie وSerena)، مما يسهل التطبيقات متعددة اللغات بسلاسة مثل دعم العملاء العالمي والدروس التعليمية ومحتوى الوسائط المتعددة الذي يستهدف الجماهير الدولية.
  • إخراج البث:يوفر الصوت في الوقت الفعلي عبر مقاطع مشفرة بتنسيق Base64، مع حزمة نهائية توفر عنوان URL صوتي كامل - مثالي للسيناريوهات التفاعلية ذات زمن الوصول المنخفض.
  • ترميز الصوت القائم على الرمز:يتم تعيين كل ثانية واحدة من الصوت داخليًا إلى 1 رمزًا (مع تقريب أي جزء من الثانية)، مما يضمن الأداء المتوقع والحبيبات للمطورين.
  • أنماط صوتية متعددة:يقدم مجموعة من الأصوات المعدة مسبقًا—شيري، سيرينا، إيثان، تشيلسي، طالما ديلان، جادا، ساني- مما يسمح بتكوين نغمات عاطفية مخصصة واتساق العلامة التجارية.
  • إنتاجية عالية وزمن وصول منخفضتم تحسين Qwen‑TTS للبث في الوقت الفعلي، ويمكنه إنشاء مخرجات صوتية مع زمن انتقال من البداية إلى النهاية أقل من 100 مللي ثانية على حالات وحدة معالجة الرسومات القياسية، مما يجعله مثاليًا للمساعدين الصوتيين التفاعليين والبث المباشر.

التكامل السلس عبر DashScope SDK

يمكن الوصول إلى Qwen‑TTS فورًا عبر منصة Model Studio من Alibaba Cloud ونقطة نهاية واجهة برمجة تطبيقات Qwen. يمكن للمطورين نشر النموذج عبر PAI‑EAS ببضع نقرات فقط، أو دمجه في سير العمل من خلال حزم تطوير البرامج (SDKs) والمكالمات المتوافقة مع OpenAPI، أو ضبطه بدقة باستخدام مجموعات بيانات صوتية خاصة مستضافة على Alibaba Cloud. يدعم تصميمه القابل للتطوير توليد الصوت دفعةً واحدة، بالإضافة إلى التوليف الفوري في مراكز الاتصال الافتراضية ومنصات الذكاء الاصطناعي للمحادثة.

أعطت Alibaba Cloud الأولوية لسهولة التكامل مع Qwen‑TTS، مما يوفر واجهة برمجة تطبيقات RESTful مباشرة ومجموعات تطوير البرامج (SDKs) بلغات متعددة. يوضح نموذج كود بايثون كيف يُمكّن التكوين البسيط - مجرد تعيين متغير بيئة لمفتاح واجهة برمجة التطبيقات - المطورين من استدعاء Qwen‑TTS باستدعاء دالة واحدة. على سبيل المثال:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

يساهم هذا البساطة في تسريع وقت طرح المنتجات في السوق في مجالات التعليم، وإنتاج الوسائط، والأجهزة الذكية، وغيرها.

حالات الاستخدام وتأثير الصناعة

  • أتمتة خدمة العملاء:يمكن للشركات نشر وكلاء صوتيين متعاطفين ومتحدثين بلكنة إقليمية للتعامل مع أحجام كبيرة من المكالمات الواردة، مما يقلل من تكاليف العمالة مع تعزيز رضا المستخدم.
  • إنشاء المحتوى والوسائط:يمكن للناشرين والمذيعين إنشاء كتب صوتية متعددة اللغات وملفات بودكاست وإعلانات حسب الطلب بجودة احترافية.
  • سهولة الوصول والشمولية:ستستفيد المنصات التعليمية والأجهزة المساعدة من مخرجات صوتية واضحة وجذابة للمتعلمين والمستخدمين ذوي الإعاقات البصرية.
  • الأجهزة الذكية وإنترنت الأشياء:يمكن لمصنعي المعدات الأصلية تضمين Qwen‑TTS في الأجهزة القابلة للارتداء والمساعدين المنزليين وأنظمة المعلومات والترفيه داخل المركبات لتقديم تفاعلات صوتية مخصصة واعية بالسياق.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

للبدء، استكشف قدرات النماذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API.

أحدث التكامل كوين-تي تي إس ستظهر واجهة برمجة التطبيقات (API) قريبًا على CometAPI، لذا ترقبوا ذلك! بينما ننتهي من تحميل نموذج Qwen‑VLo، استكشف نماذجنا الأخرى على صفحة النماذج أو جربهم في ملعب AI. أحدث طراز من Qwen في CometAPI هو واجهة برمجة تطبيقات Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%