Alibaba Cloud afslører Qwen-TTS: En model til streaming af talesyntese i høj kvalitet

CometAPI
AnnaJun 30, 2025
Alibaba Cloud afslører Qwen-TTS: En model til streaming af talesyntese i høj kvalitet

On 26. Juni, 2025, Alibaba Cloud lanceret Qwen-TTS, den seneste tilføjelse til Tongyi Qianwen (Qwen)-familien af ​​store AI-modeller. Qwen-TTS er designet til alsidige tekst-til-tale-applikationer af høj kvalitet og understøtter kinesisk, engelsk og blandet sproginput. Den tilbyder både batch- og streaming-lydoutput, der henvender sig til forskellige anvendelsesscenarier, lige fra intelligente stemmeassistenter til produktion af multimedieindhold.

Nøgle tekniske funktioner

  • Flersproget inputBehandler ren kinesisk, ren engelsk eller kodeskiftet kinesisk-engelsk tekst, hvilket muliggør problemfri stemmesyntese på tværs af globale applikationer. Derudover tilbyder modellen syv tosprogede kinesisk-engelske stemmeprofiler (f.eks. Cherry, Ethan, Chelsie, Serena), hvilket letter problemfri tværsproglige applikationer såsom global kundesupport, pædagogisk vejledning og multimedieindhold målrettet et internationalt publikum.
  • Streaming-outputLeverer lyd i realtid via Base64-kodede segmenter, med en endelig pakke, der leverer en komplet lyd-URL – ideel til interaktive scenarier med lav latenstid.
  • Tokenbaseret lydkodningInternt knytter hvert sekund af lyd til 1 tokens (med eventuelle delvise sekunder rundet op), hvilket sikrer forudsigelig ydeevne og granularitet for udviklere.
  • Flere stemmestilarterTilbyder en palet af forudindstillede stemmer—Cherry, Serena, Ethan, Chelsie, såvel som Dylan, Jada, Sunny—giver mulighed for skræddersyede følelsesmæssige toner og branding-konsistens.
  • Høj gennemløbshastighed og lav latenstidQwen-TTS er optimeret til streaming i realtid og kan generere lydoutput med end-to-end-latenstider på under 100 ms på standard GPU-instanser, hvilket gør den ideel til interaktive stemmeassistenter og live-udsendelser.

Problemfri integration via DashScope SDK

Qwen-TTS er øjeblikkeligt tilgængelig via Alibaba Clouds Model Studio og Qwen API-slutpunktet. Udviklere kan implementere modellen via PAI-EAS med blot et par klik, integrere den i arbejdsgange gennem SDK'er og OpenAPI-kompatible kald eller finjustere den ved hjælp af proprietære stemmedatasæt, der hostes på Alibaba Cloud. Dens skalerbare arkitektur understøtter batch-lydgenerering samt on-the-fly syntese i virtuelle callcentre og konversationsbaserede AI-platforme.

Alibaba Cloud har prioriteret nem integration for Qwen-TTS og tilbyder en ligetil RESTful API og SDK'er på flere sprog. Eksempel på Python-kode illustrerer, hvordan minimal konfiguration – blot at indstille en miljøvariabel for API-nøglen – gør det muligt for udviklere at kalde Qwen-TTS med et enkelt funktionskald. For eksempel:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

Denne enkelhed fremskynder time-to-market for applikationer inden for uddannelse, medieproduktion, smarte enheder og mere.

Brugsscenarier og branchepåvirkning

  • Kundeservice automatiseringVirksomheder kan anvende empatiske stemmeagenter med regional accent til at håndtere store mængder indgående opkald, hvilket reducerer lønomkostningerne og øger brugertilfredsheden.
  • Indholdsskabelse og medierUdgivere og tv-stationer kan generere flersprogede lydbøger, podcasts og on-demand-meddelelser i professionel kvalitet.
  • TilgængelighedUddannelsesplatforme og hjælpemidler vil drage fordel af klare og engagerende stemmegengivelser for elever og brugere med synshandicap.
  • Smarte enheder og IoTOEM'er kan integrere Qwen-TTS i wearables, hjemmeassistenter og infotainmentsystemer i køretøjer for at levere personlige, kontekstbevidste stemmeinteraktioner.

Kom godt i gang

CometAPI er en samlet API-platform, der samler over 500 AI-modeller fra førende udbydere – såsom OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i en enkelt, udviklervenlig grænseflade. Ved at tilbyde ensartet godkendelse, formatering af anmodninger og svarhåndtering forenkler CometAPI dramatisk integrationen af ​​AI-funktioner i dine applikationer. Uanset om du bygger chatbots, billedgeneratorer, musikkomponister eller datadrevne analysepipelines, giver CometAPI dig mulighed for at iterere hurtigere, kontrollere omkostninger og forblive leverandøruafhængig – alt imens du udnytter de seneste gennembrud på tværs af AI-økosystemet.

Til at begynde med, udforsk modellernes muligheder i Legeplads og konsulter API guide for detaljerede instruktioner. Før du får adgang, skal du sørge for at være logget ind på CometAPI og have fået API-nøglen.

Den seneste integration Qwen-TTS API'en vil snart blive vist på CometAPI, så følg med! Mens vi færdiggør upload af Qwen-VLo-modellen, kan du udforske vores andre modeller på Modeller side eller prøv dem i AI LegepladsQwens seneste model i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Læs mere

500+ modeller i én API

Op til 20% rabat