On Juni 26, 2025, Alibaba Cloud lansert Qwen‑TTS, det nyeste tilskuddet til Tongyi Qianwen (Qwen)-familien av store AI-modeller. Qwen-TTS er designet for allsidige tekst-til-tale-applikasjoner av høy kvalitet, støtter kinesisk, engelsk og blandet språkinndata og tilbyr både batch- og streaminglydutganger, som passer for ulike bruksområder fra intelligente stemmeassistenter til produksjon av multimedieinnhold.
Viktige tekniske funksjoner
- Flerspråklig inndataBehandler ren kinesisk, ren engelsk eller kodekoblet kinesisk-engelsk tekst, noe som muliggjør sømløs stemmesyntese på tvers av globale applikasjoner. I tillegg tilbyr modellen syv tospråklige kinesisk-engelske stemmeprofiler (f.eks. Cherry, Ethan, Chelsie, Serena), noe som tilrettelegger sømløse tverrspråklige applikasjoner som global kundestøtte, pedagogisk veiledning og multimedieinnhold rettet mot internasjonale målgrupper.
- Streaming utgangLeverer lyd i sanntid via Base64-kodede segmenter, med en endelig pakke som gir en fullstendig lyd-URL – ideelt for interaktive scenarier med lav latens.
- Tokenbasert lydkodingKartlegger internt hvert sekund av lyd til 1 tokens (med eventuelle delvise sekunder rundet oppover), noe som sikrer forutsigbar ytelse og granularitet for utviklere.
- Flere stemmestiler: Tilbyr en palett med forhåndsinnstilte stemmer—Cherry, Serena, Ethan, Chelsie, i tillegg til Dylan, Jada, Sunny– noe som gir mulighet for skreddersydde emosjonelle toner og konsistens i merkevarebyggingen.
- Høy gjennomstrømning og lav latensQwen-TTS er optimalisert for strømming i sanntid, og kan generere lydutganger med ende-til-ende-forsinkelser på under 100 ms på standard GPU-instanser, noe som gjør den ideell for interaktive stemmeassistenter og direktesendinger.
Sømløs integrasjon via DashScope SDK
Qwen-TTS er umiddelbart tilgjengelig via Alibaba Clouds Model Studio og Qwen API-endepunktet. Utviklere kan distribuere modellen via PAI-EAS med bare noen få klikk, integrere den i arbeidsflyter gjennom SDK-er og OpenAPI-kompatible kall, eller finjustere den ved hjelp av proprietære taledatasett som ligger på Alibaba Cloud. Den skalerbare arkitekturen støtter batchlydgenerering samt syntese underveis i virtuelle callsentre og konversasjonsbaserte AI-plattformer.
Alibaba Cloud har prioritert enkel integrering for Qwen-TTS, og tilbyr en enkel RESTful API og SDK-er på flere språk. Eksempel på Python-kode illustrerer hvordan minimal konfigurasjon – ganske enkelt å angi en miljøvariabel for API-nøkkelen – lar utviklere aktivere Qwen-TTS med et enkelt funksjonskall. For eksempel:
pythonimport os
from qwen_sdk import SpeechSynthesizer
# Configure API key
os.environ = "your-api-key"
# Synthesize Beijing dialect speech
synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")
Denne enkelheten akselererer tiden til markedet for applikasjoner innen utdanning, medieproduksjon, smarte enheter og mer.
Brukstilfeller og bransjepåvirkning
- Kundeservice automatiseringBedrifter kan bruke empatiske taleagenter med regional aksent for å håndtere store mengder innkommende samtaler, noe som reduserer lønnskostnadene og øker brukertilfredsheten.
- Innholdsproduksjon og mediaUtgivere og kringkastere kan generere flerspråklige lydbøker, podkaster og kunngjøringer på forespørsel med profesjonell kvalitet.
- tilgjengelighetUtdanningsplattformer og hjelpemidler vil dra nytte av klar og engasjerende tale for elever og brukere med synshemming.
- Smarte enheter og IoTOEM-er kan bygge inn Qwen-TTS i bærbare enheter, hjemmeassistenter og infotainmentsystemer i kjøretøy for å levere personlige, kontekstbevisste stemmeinteraksjoner.
Komme i gang
CometAPI er en enhetlig API-plattform som samler over 500 AI-modeller fra ledende leverandører – som OpenAIs GPT-serie, Googles Gemini, Anthropics Claude, Midjourney, Suno og flere – i ett enkelt, utviklervennlig grensesnitt. Ved å tilby konsistent autentisering, forespørselsformatering og svarhåndtering, forenkler CometAPI dramatisk integreringen av AI-funksjoner i applikasjonene dine. Enten du bygger chatboter, bildegeneratorer, musikkomponister eller datadrevne analysepipeliner, lar CometAPI deg iterere raskere, kontrollere kostnader og forbli leverandøruavhengig – alt samtidig som du utnytter de nyeste gjennombruddene på tvers av AI-økosystemet.
For å begynne, utforsk modellenes muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen.
Den nyeste integrasjonen Qwen‑TTS API-et vil snart dukke opp på CometAPI, så følg med! Mens vi ferdigstiller Qwen-VLo-modellopplastingen, kan du utforske de andre modellene våre på Modeller-siden eller prøv dem i AI lekeplassQwens nyeste modell i CometAPI er Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)
