On 26. Juni, 2025, Alibaba Cloud lanceret Qwen-TTS, den seneste tilføjelse til Tongyi Qianwen (Qwen)-familien af store AI-modeller. Qwen-TTS er designet til alsidige tekst-til-tale-applikationer af høj kvalitet og understøtter kinesisk, engelsk og blandet sproginput. Den tilbyder både batch- og streaming-lydoutput, der henvender sig til forskellige anvendelsesscenarier, lige fra intelligente stemmeassistenter til produktion af multimedieindhold.
Nøgle tekniske funktioner
- Flersproget inputBehandler ren kinesisk, ren engelsk eller kodeskiftet kinesisk-engelsk tekst, hvilket muliggør problemfri stemmesyntese på tværs af globale applikationer. Derudover tilbyder modellen syv tosprogede kinesisk-engelske stemmeprofiler (f.eks. Cherry, Ethan, Chelsie, Serena), hvilket letter problemfri tværsproglige applikationer såsom global kundesupport, pædagogisk vejledning og multimedieindhold målrettet et internationalt publikum.
- Streaming-outputLeverer lyd i realtid via Base64-kodede segmenter, med en endelig pakke, der leverer en komplet lyd-URL – ideel til interaktive scenarier med lav latenstid.
- Tokenbaseret lydkodningInternt knytter hvert sekund af lyd til 1 tokens (med eventuelle delvise sekunder rundet op), hvilket sikrer forudsigelig ydeevne og granularitet for udviklere.
- Flere stemmestilarterTilbyder en palet af forudindstillede stemmer—Cherry, Serena, Ethan, Chelsie, såvel som Dylan, Jada, Sunny—giver mulighed for skræddersyede følelsesmæssige toner og branding-konsistens.
- Høj gennemløbshastighed og lav latenstidQwen-TTS er optimeret til streaming i realtid og kan generere lydoutput med end-to-end-latenstider på under 100 ms på standard GPU-instanser, hvilket gør den ideel til interaktive stemmeassistenter og live-udsendelser.
Problemfri integration via DashScope SDK
Qwen-TTS er øjeblikkeligt tilgængelig via Alibaba Clouds Model Studio og Qwen API-slutpunktet. Udviklere kan implementere modellen via PAI-EAS med blot et par klik, integrere den i arbejdsgange gennem SDK'er og OpenAPI-kompatible kald eller finjustere den ved hjælp af proprietære stemmedatasæt, der hostes på Alibaba Cloud. Dens skalerbare arkitektur understøtter batch-lydgenerering samt on-the-fly syntese i virtuelle callcentre og konversationsbaserede AI-platforme.
Alibaba Cloud har prioriteret nem integration for Qwen-TTS og tilbyder en ligetil RESTful API og SDK'er på flere sprog. Eksempel på Python-kode illustrerer, hvordan minimal konfiguration – blot at indstille en miljøvariabel for API-nøglen – gør det muligt for udviklere at kalde Qwen-TTS med et enkelt funktionskald. For eksempel:
pythonimport os
from qwen_sdk import SpeechSynthesizer
# Configure API key
os.environ = "your-api-key"
# Synthesize Beijing dialect speech
synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")
Denne enkelhed fremskynder time-to-market for applikationer inden for uddannelse, medieproduktion, smarte enheder og mere.
Brugsscenarier og branchepåvirkning
- Kundeservice automatiseringVirksomheder kan anvende empatiske stemmeagenter med regional accent til at håndtere store mængder indgående opkald, hvilket reducerer lønomkostningerne og øger brugertilfredsheden.
- Indholdsskabelse og medierUdgivere og tv-stationer kan generere flersprogede lydbøger, podcasts og on-demand-meddelelser i professionel kvalitet.
- TilgængelighedUddannelsesplatforme og hjælpemidler vil drage fordel af klare og engagerende stemmegengivelser for elever og brugere med synshandicap.
- Smarte enheder og IoTOEM'er kan integrere Qwen-TTS i wearables, hjemmeassistenter og infotainmentsystemer i køretøjer for at levere personlige, kontekstbevidste stemmeinteraktioner.
Kom godt i gang
CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.
Til at begynde med, udforsk modellernes muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen.
Den seneste integration Qwen-TTS API'en vil snart blive vist på CometAPI, så følg med! Mens vi færdiggør upload af Qwen-VLo-modellen, kan du udforske vores andre modeller på Modeller side eller prøv dem i AI LegepladsQwens seneste model i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)
