Alibaba Cloud dévoile Qwen-TTS : un modèle de synthèse vocale en streaming haute fidélité

CometAPI
AnnaJun 30, 2025
Alibaba Cloud dévoile Qwen-TTS : un modèle de synthèse vocale en streaming haute fidélité

On Le 26 juin 2025, Lancement d'Alibaba Cloud Qwen-TTS, le dernier-né de la famille Tongyi Qianwen (Qwen) de grands modèles d'IA. Conçu pour des applications de synthèse vocale polyvalentes et de haute qualité, Qwen-TTS prend en charge la saisie en chinois, en anglais et en plusieurs langues, et offre des sorties audio par lots et en streaming, répondant à divers cas d'utilisation, des assistants vocaux intelligents à la production de contenu multimédia.

Caractéristiques techniques clés

  • Saisie multilingue: Traite le texte en chinois pur, en anglais pur ou en chinois-anglais à code commuté, permettant une synthèse vocale transparente dans les applications mondiales. De plus, le modèle propose sept profils vocaux bilingues chinois-anglais (par exemple, Cherry, Ethan, Chelsie, Serena), facilitant des applications interlingues transparentes telles que le support client mondial, le tutorat pédagogique et le contenu multimédia ciblant un public international.
  • Sortie en streaming: Fournit de l'audio en temps réel via des segments codés en Base64, avec un package final fournissant une URL audio complète, idéal pour les scénarios interactifs à faible latence.
  • Encodage audio basé sur des jetons:Mappe en interne chaque seconde d'audio à 1 jetons (avec toute seconde partielle arrondie au supérieur), garantissant des performances et une granularité prévisibles pour les développeurs.
  • Plusieurs styles de voix: Offre une palette de voix prédéfinies—Cerise, Serena, Ethan, Chelsie, aussi bien que Dylan, Jada, Sunny—permettant des tons émotionnels personnalisés et une cohérence de marque.
  • Débit élevé et faible latence:Optimisé pour le streaming en temps réel, Qwen-TTS peut générer des sorties audio avec des latences de bout en bout inférieures à 100 ms sur des instances GPU standard, ce qui le rend idéal pour les assistants vocaux interactifs et la diffusion en direct.

Intégration transparente via le SDK DashScope

Qwen-TTS est immédiatement accessible via Model Studio d'Alibaba Cloud et le point de terminaison de l'API Qwen. Les développeurs peuvent déployer le modèle via PAI-EAS en quelques clics, l'intégrer aux workflows via des SDK et des appels compatibles OpenAPI, ou l'affiner grâce à des jeux de données vocales propriétaires hébergés sur Alibaba Cloud. Son architecture évolutive prend en charge la génération audio par lots ainsi que la synthèse à la volée dans les centres d'appels virtuels et les plateformes d'IA conversationnelle.

Alibaba Cloud a donné la priorité à la facilité d'intégration pour Qwen-TTS, en offrant une API RESTful simple et des SDK en plusieurs langages. Un exemple de code Python illustre comment une configuration minimale (la simple définition d'une variable d'environnement pour la clé API) permet aux développeurs d'invoquer Qwen-TTS par un seul appel de fonction. Par exemple :

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

Cette simplicité accélère la mise sur le marché des applications dans les domaines de l’éducation, de la production multimédia, des appareils intelligents et au-delà.

Cas d'utilisation et impact sur l'industrie

  • Automatisation du service client:Les entreprises peuvent déployer des agents vocaux empathiques et à accent régional pour gérer des volumes élevés d'appels entrants, réduisant ainsi les coûts de main-d'œuvre tout en améliorant la satisfaction des utilisateurs.
  • Création de contenu et médias:Les éditeurs et les diffuseurs peuvent générer des livres audio multilingues, des podcasts et des annonces à la demande avec une qualité de niveau professionnel.
  • Accessibilité:Les plateformes éducatives et les dispositifs d’assistance ont tout intérêt à proposer des sorties vocales claires et attrayantes aux apprenants et aux utilisateurs malvoyants.
  • Appareils intelligents et IoT:Les OEM peuvent intégrer Qwen-TTS dans des appareils portables, des assistants domestiques et des systèmes d'infodivertissement embarqués pour offrir des interactions vocales personnalisées et contextuelles.

Pour commencer

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Pour commencer, explorez les capacités des modèles dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.

La dernière intégration Qwen-TTS L'API apparaîtra bientôt sur CometAPI, alors restez à l'écoute ! Pendant que nous finalisons le téléchargement du modèle Qwen-VLo, explorez nos autres modèles sur le Page des modèles ou essayez-les dans le Aire de jeux IALe dernier modèle de Qwen dans CometAPI est API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

En savoir plus

500+ Modèles en Une API

Jusqu'à 20% de réduction