Alibaba Cloud presenta Qwen‑TTS: un modello di sintesi vocale in streaming ad alta fedeltà

On 26 Giugno 2025, lanciato Alibaba Cloud Qwen‑TTS, l'ultima aggiunta alla famiglia di modelli di intelligenza artificiale di grandi dimensioni Tongyi Qianwen (Qwen). Progettato per applicazioni text-to-speech versatili e di alta qualità, Qwen-TTS supporta l'input in cinese, inglese e lingue miste e offre output audio in batch e streaming, adattandosi a diversi casi d'uso, dagli assistenti vocali intelligenti alla produzione di contenuti multimediali.

Principali caratteristiche tecniche

Input multilingue: Elabora testo in cinese puro, inglese puro o cinese-inglese con codice commutato, consentendo una sintesi vocale fluida nelle applicazioni globali. Inoltre, il modello offre sette profili vocali bilingue cinese-inglese (ad esempio, Cherry, Ethan, Chelsie, Serena), facilitando applicazioni multilingua fluide quali assistenza clienti globale, tutoraggio didattico e contenuti multimediali rivolti a un pubblico internazionale.
Uscita streaming: Fornisce audio in tempo reale tramite segmenti codificati in Base64, con un pacchetto finale che fornisce un URL audio completo, ideale per scenari interattivi a bassa latenza.
Codifica audio basata su token: Mappa internamente ogni secondo di audio su 1 token (con ogni secondo parziale arrotondato per eccesso), garantendo prestazioni prevedibili e granularità per gli sviluppatori.
Stili di voce multipli: Offre una tavolozza di voci preimpostate:Cherry, Serena, Ethan, Chelsie, così come Dylan, Jada, Sunny—che consente toni emozionali personalizzati e coerenza del marchio.
Elevata produttività e bassa latenza: Ottimizzato per lo streaming in tempo reale, Qwen-TTS può generare output audio con latenze end-to-end inferiori a 100 ms su istanze GPU standard, rendendolo ideale per assistenti vocali interattivi e trasmissioni in diretta.

Integrazione perfetta tramite DashScope SDK

Qwen‑TTS è immediatamente accessibile tramite Model Studio di Alibaba Cloud e l'endpoint API di Qwen. Gli sviluppatori possono implementare il modello tramite PAI‑EAS con pochi clic, integrarlo nei flussi di lavoro tramite SDK e chiamate conformi a OpenAPI, oppure perfezionarlo utilizzando set di dati vocali proprietari ospitati su Alibaba Cloud. La sua architettura scalabile supporta la generazione di audio in batch e la sintesi al volo in call center virtuali e piattaforme di intelligenza artificiale conversazionale.

Alibaba Cloud ha dato priorità alla facilità di integrazione per Qwen‑TTS, offrendo un API RESTful semplice e SDK in più linguaggi. Un esempio di codice Python illustra come una configurazione minima, ovvero la semplice impostazione di una variabile d'ambiente per la chiave API, consenta agli sviluppatori di invocare Qwen-TTS con una singola chiamata di funzione. Ad esempio:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Questa semplicità accelera il time-to-market delle applicazioni nei settori dell'istruzione, della produzione multimediale, dei dispositivi intelligenti e altro ancora.

Casi d'uso e impatto sul settore

Automazione del servizio clienti:Le aziende possono impiegare agenti vocali empatici e con accento regionale per gestire volumi elevati di chiamate in entrata, riducendo i costi di manodopera e aumentando al contempo la soddisfazione degli utenti.
Creazione di contenuti e media:Editori e emittenti radiotelevisive possono generare audiolibri multilingue, podcast e annunci on-demand con qualità professionale.
Accessibilità:Le piattaforme educative e i dispositivi di assistenza trarranno vantaggio da output vocali chiari e coinvolgenti per studenti e utenti con disabilità visive.
Dispositivi intelligenti e IoT:Gli OEM possono integrare Qwen‑TTS in dispositivi indossabili, assistenti domestici e sistemi di infotainment per veicoli per offrire interazioni vocali personalizzate e basate sul contesto.

Iniziamo

CometAPI è una piattaforma API unificata che aggrega oltre 500 modelli di intelligenza artificiale (IA) di provider leader, come la serie GPT di OpenAI, Gemini di Google, Claude di Anthropic, Midjourney, Suno e altri, in un'unica interfaccia intuitiva per gli sviluppatori. Offrendo autenticazione, formattazione delle richieste e gestione delle risposte coerenti, CometAPI semplifica notevolmente l'integrazione delle funzionalità di IA nelle tue applicazioni. Che tu stia sviluppando chatbot, generatori di immagini, compositori musicali o pipeline di analisi basate sui dati, CometAPI ti consente di iterare più velocemente, controllare i costi e rimanere indipendente dal fornitore, il tutto sfruttando le più recenti innovazioni nell'ecosistema dell'IA.

Per iniziare, esplora le capacità dei modelli in Parco giochi e consultare il Guida API per istruzioni dettagliate. Prima di accedere, assicurati di aver effettuato l'accesso a CometAPI e di aver ottenuto la chiave API.

L'ultima integrazione Qwen‑TTS L'API apparirà presto su CometAPI, quindi rimanete sintonizzati! Mentre finalizziamo il caricamento del modello Qwen-VLo, esplorate i nostri altri modelli su Pagina dei modelli oppure provali nel Parco giochi AIL'ultimo modello di Qwen in CometAPI è API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Principali caratteristiche tecniche

Integrazione perfetta tramite DashScope SDK

Casi d'uso e impatto sul settore

Iniziamo

Leggi di più

500+ Modelli in Una API