Alibaba Cloud onthult Qwen-TTS: een zeer betrouwbaar streaming spraaksynthesemodel

CometAPI
AnnaJun 30, 2025
Alibaba Cloud onthult Qwen-TTS: een zeer betrouwbaar streaming spraaksynthesemodel

On 26 juni 2025Alibaba Cloud gelanceerd Qwen‑TTS, de nieuwste toevoeging aan de Tongyi Qianwen (Qwen)-familie van grote AI-modellen. Qwen-TTS is ontworpen voor veelzijdige, hoogwaardige tekst-naar-spraaktoepassingen en ondersteunt Chinese, Engelse en gemengde taalinvoer. Het biedt zowel batch- als streaming audio-uitvoer en is daarmee geschikt voor diverse toepassingen, van intelligente spraakassistenten tot de productie van multimediacontent.

Belangrijkste technische kenmerken

  • Meertalige invoer: Verwerkt zuiver Chinese, zuiver Engelse of codegeschakelde Chinees-Engelse tekst, waardoor naadloze spraaksynthese in wereldwijde toepassingen mogelijk is. Bovendien biedt het model zeven tweetalige Chinees-Engelse stemprofielen (bijvoorbeeld Cherry, Ethan, Chelsie, Serena), waardoor naadloze toepassingen in meerdere talen mogelijk zijn, zoals wereldwijde klantondersteuning, educatieve bijles en multimediainhoud gericht op een internationaal publiek.
  • Streaming-uitvoer: Levert audio in realtime via Base64-gecodeerde segmenten, met een definitief pakket dat een volledige audio-URL biedt: ideaal voor interactieve scenario's met lage latentie.
  • Token-gebaseerde audiocodering: Wijst intern elke seconde audio toe aan 1 tokens (waarbij elk deel van een seconde wordt afgerond naar boven), waardoor ontwikkelaars voorspelbare prestaties en granulariteit kunnen garanderen.
  • Meerdere stemstijlen: Biedt een palet aan vooraf ingestelde stemmen—Cherry, Serena, Ethan, Chelsieevenals Dylan, Jada, Sunny—wat ruimte biedt voor op maat gemaakte emotionele tonen en consistente merkidentiteit.
  • Hoge doorvoer en lage latentie: Qwen-TTS is geoptimaliseerd voor realtime streaming en kan audio-uitvoer genereren met end-to-end-latentie van minder dan 100 ms op standaard GPU-instanties. Hierdoor is het ideaal voor interactieve spraakassistenten en live-uitzendingen.

Naadloze integratie via DashScope SDK

Qwen-TTS is direct toegankelijk via Alibaba Cloud's Model Studio en het Qwen API-eindpunt. Ontwikkelaars kunnen het model met slechts een paar klikken implementeren via PAI-EAS, integreren in workflows via SDK's en OpenAPI-compatibele calls, of het verfijnen met behulp van eigen spraakdatasets die worden gehost op Alibaba Cloud. De schaalbare architectuur ondersteunt batchgewijze audiogeneratie en on-the-fly synthese in virtuele callcenters en conversationele AI-platforms.

Alibaba Cloud heeft prioriteit gegeven aan eenvoudige integratie voor Qwen-TTS en biedt een eenvoudige RESTful API en SDK's in meerdere talen. Voorbeeldcode in Python illustreert hoe minimale configuratie – simpelweg het instellen van een omgevingsvariabele voor de API-sleutel – ontwikkelaars in staat stelt Qwen-TTS aan te roepen met één functieaanroep. Bijvoorbeeld:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

Deze eenvoud versnelt de time-to-market voor toepassingen in onderwijs, mediaproductie, slimme apparaten en meer.

Gebruiksscenario's en impact op de industrie

  • Automatisering van klantenserviceBedrijven kunnen empathische, regionaal geaccentueerde spraakagenten inzetten om grote aantallen inkomende gesprekken te verwerken. Zo worden de arbeidskosten verlaagd en de tevredenheid van de gebruiker vergroot.
  • Contentcreatie en mediaUitgevers en omroepen kunnen meertalige audioboeken, podcasts en on-demand-aankondigingen met professionele kwaliteit genereren.
  • ToegankelijkheidOnderwijsplatformen en hulpmiddelen hebben baat bij duidelijke, aantrekkelijke gesproken uitvoer voor leerlingen en gebruikers met een visuele beperking.
  • Slimme apparaten en IoTOEM's kunnen Qwen-TTS integreren in wearables, thuisassistenten en infotainmentsystemen in voertuigen om gepersonaliseerde, contextbewuste spraakinteracties te leveren.

Beginnen

CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.

Om te beginnen, verken de mogelijkheden van modellen in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt.

De nieuwste integratie Qwen‑TTS API zal binnenkort verschijnen op CometAPI, dus blijf op de hoogte! Terwijl we de upload van het Qwen-VLo-model afronden, kunt u onze andere modellen bekijken op de Modellenpagina of probeer ze in de AI-speeltuinHet nieuwste model van Qwen in CometAPI is Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Lees Meer

500+ modellen in één API

Tot 20% korting