Alibaba Cloud onthult Qwen-TTS: een zeer betrouwbaar streaming spraaksynthesemodel

On 26 juni 2025Alibaba Cloud gelanceerd Qwen‑TTS, de nieuwste toevoeging aan de Tongyi Qianwen (Qwen)-familie van grote AI-modellen. Qwen-TTS is ontworpen voor veelzijdige, hoogwaardige tekst-naar-spraaktoepassingen en ondersteunt Chinese, Engelse en gemengde taalinvoer. Het biedt zowel batch- als streaming audio-uitvoer en is daarmee geschikt voor diverse toepassingen, van intelligente spraakassistenten tot de productie van multimediacontent.

Belangrijkste technische kenmerken

Meertalige invoer: Verwerkt zuiver Chinese, zuiver Engelse of codegeschakelde Chinees-Engelse tekst, waardoor naadloze spraaksynthese in wereldwijde toepassingen mogelijk is. Bovendien biedt het model zeven tweetalige Chinees-Engelse stemprofielen (bijvoorbeeld Cherry, Ethan, Chelsie, Serena), waardoor naadloze toepassingen in meerdere talen mogelijk zijn, zoals wereldwijde klantondersteuning, educatieve bijles en multimediainhoud gericht op een internationaal publiek.
Streaming-uitvoer: Levert audio in realtime via Base64-gecodeerde segmenten, met een definitief pakket dat een volledige audio-URL biedt: ideaal voor interactieve scenario's met lage latentie.
Token-gebaseerde audiocodering: Wijst intern elke seconde audio toe aan 1 tokens (waarbij elk deel van een seconde wordt afgerond naar boven), waardoor ontwikkelaars voorspelbare prestaties en granulariteit kunnen garanderen.
Meerdere stemstijlen: Biedt een palet aan vooraf ingestelde stemmen—Cherry, Serena, Ethan, Chelsieevenals Dylan, Jada, Sunny—wat ruimte biedt voor op maat gemaakte emotionele tonen en consistente merkidentiteit.
Hoge doorvoer en lage latentie: Qwen-TTS is geoptimaliseerd voor realtime streaming en kan audio-uitvoer genereren met end-to-end-latentie van minder dan 100 ms op standaard GPU-instanties. Hierdoor is het ideaal voor interactieve spraakassistenten en live-uitzendingen.

Naadloze integratie via DashScope SDK

Qwen-TTS is direct toegankelijk via Alibaba Cloud's Model Studio en het Qwen API-eindpunt. Ontwikkelaars kunnen het model met slechts een paar klikken implementeren via PAI-EAS, integreren in workflows via SDK's en OpenAPI-compatibele calls, of het verfijnen met behulp van eigen spraakdatasets die worden gehost op Alibaba Cloud. De schaalbare architectuur ondersteunt batchgewijze audiogeneratie en on-the-fly synthese in virtuele callcenters en conversationele AI-platforms.

Alibaba Cloud heeft prioriteit gegeven aan eenvoudige integratie voor Qwen-TTS en biedt een eenvoudige RESTful API en SDK's in meerdere talen. Voorbeeldcode in Python illustreert hoe minimale configuratie – simpelweg het instellen van een omgevingsvariabele voor de API-sleutel – ontwikkelaars in staat stelt Qwen-TTS aan te roepen met één functieaanroep. Bijvoorbeeld:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Deze eenvoud versnelt de time-to-market voor toepassingen in onderwijs, mediaproductie, slimme apparaten en meer.

Gebruiksscenario's en impact op de industrie

Automatisering van klantenserviceBedrijven kunnen empathische, regionaal geaccentueerde spraakagenten inzetten om grote aantallen inkomende gesprekken te verwerken. Zo worden de arbeidskosten verlaagd en de tevredenheid van de gebruiker vergroot.
Contentcreatie en mediaUitgevers en omroepen kunnen meertalige audioboeken, podcasts en on-demand-aankondigingen met professionele kwaliteit genereren.
ToegankelijkheidOnderwijsplatformen en hulpmiddelen hebben baat bij duidelijke, aantrekkelijke gesproken uitvoer voor leerlingen en gebruikers met een visuele beperking.
Slimme apparaten en IoTOEM's kunnen Qwen-TTS integreren in wearables, thuisassistenten en infotainmentsystemen in voertuigen om gepersonaliseerde, contextbewuste spraakinteracties te leveren.

Beginnen

CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.

Om te beginnen, verken de mogelijkheden van modellen in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt.

De nieuwste integratie Qwen‑TTS API zal binnenkort verschijnen op CometAPI, dus blijf op de hoogte! Terwijl we de upload van het Qwen-VLo-model afronden, kunt u onze andere modellen bekijken op de Modellenpagina of probeer ze in de AI-speeltuinHet nieuwste model van Qwen in CometAPI is Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Belangrijkste technische kenmerken

Naadloze integratie via DashScope SDK

Gebruiksscenario's en impact op de industrie

Beginnen

Lees Meer

500+ modellen in één API