Alibaba Cloud Memperkenalkan Qwen‑TTS: Model Sintesis Pertuturan Penstriman Kesetiaan Tinggi

CometAPI
AnnaJun 30, 2025
Alibaba Cloud Memperkenalkan Qwen‑TTS: Model Sintesis Pertuturan Penstriman Kesetiaan Tinggi

On Jun 26, 2025, Alibaba Cloud dilancarkan Qwen‑TTS, tambahan terbaru kepada keluarga Tongyi Qianwen (Qwen) model AI yang besar. Direka bentuk untuk aplikasi teks-ke-pertuturan yang serba boleh dan berkualiti tinggi, Qwen‑TTS menyokong input bahasa Cina, Inggeris dan bahasa campuran serta menawarkan output audio kelompok dan penstriman, memenuhi kes penggunaan yang pelbagai daripada pembantu suara pintar kepada penghasilan kandungan multimedia.

Ciri Teknikal Utama

  • Input berbilang bahasa: Memproses teks bahasa Cina tulen, bahasa Inggeris tulen atau bahasa Cina-bahasa Inggeris yang ditukar kod, membolehkan sintesis suara yang lancar merentas aplikasi global. Selain itu, model ini menawarkan tujuh profil suara Cina-Inggeris dwibahasa (cth, Cherry, Ethan, Chelsie, Serena), memudahkan sintesis suara yang lancar merentas bahasa, aplikasi pendidikan tutor antarabangsa yang lancar, sokongan pelanggan global tutor, pendidikan antarabangsa.
  • Output Penstriman: Menyampaikan audio dalam masa nyata melalui segmen berkod Base64, dengan pakej akhir yang menyediakan URL audio penuh—ideal untuk senario interaktif kependaman rendah.
  • Pengekodan Audio Berasaskan Token: Secara dalaman memetakan setiap 1 saat audio kepada 50 token (dengan mana-mana separa saat dibundarkan ke atas), memastikan prestasi dan butiran yang boleh diramal untuk pembangun .
  • Pelbagai Gaya Suara: Menawarkan palet suara pratetap—Cherry, Serena, Ethan, Chelsie, Serta Dylan, Jada, Sunny—membolehkan nada emosi yang disesuaikan dan konsistensi penjenamaan.
  • Throughput Tinggi & Latensi Rendah: Dioptimumkan untuk penstriman masa nyata, Qwen‑TTS boleh menjana output audio dengan latensi hujung-ke-hujung di bawah 100 ms pada tika GPU standard, menjadikannya ideal untuk pembantu suara interaktif dan penyiaran langsung.

Penyepaduan Lancar melalui DashScope SDK

Qwen‑TTS boleh diakses serta-merta melalui Model Studio Alibaba Cloud dan titik akhir API Qwen. Pembangun boleh menggunakan model melalui PAI‑EAS dengan hanya beberapa klik, menyepadukannya ke dalam aliran kerja melalui SDK dan panggilan yang mematuhi OpenAPI, atau memperhalusinya menggunakan set data suara proprietari yang dihoskan di Alibaba Cloud . Seni bina berskalanya menyokong penjanaan audio kelompok serta sintesis segera dalam pusat panggilan maya dan platform AI perbualan.

Alibaba Cloud telah mengutamakan kemudahan penyepaduan untuk Qwen‑TTS, menawarkan a API RESTful yang mudah dan SDK dalam berbilang bahasa. Contoh kod Python menggambarkan bagaimana konfigurasi minimum—hanya menetapkan pembolehubah persekitaran untuk kunci API—membolehkan pembangun menggunakan Qwen‑TTS dengan satu panggilan fungsi. Contohnya:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

Kesederhanaan ini mempercepatkan masa-ke-pasaran untuk aplikasi dalam pendidikan, pengeluaran media, peranti pintar dan seterusnya.

Kes Penggunaan dan Kesan Industri

  • Automasi Perkhidmatan Pelanggan: Syarikat boleh menggunakan ejen suara empati, beraksen serantau untuk mengendalikan jumlah panggilan masuk yang tinggi, mengurangkan kos buruh sambil meningkatkan kepuasan pengguna.
  • Penciptaan Kandungan & Media: Penerbit dan penyiar boleh menjana buku audio berbilang bahasa, podcast dan pengumuman atas permintaan dengan kualiti gred profesional.
  • Capaian: Platform pendidikan dan peranti bantuan berpeluang mendapat manfaat daripada output suara yang jelas dan menarik untuk pelajar dan pengguna yang mengalami masalah penglihatan.
  • Peranti Pintar & IoT: OEM boleh membenamkan Qwen‑TTS ke dalam alat boleh pakai, pembantu rumah dan sistem infotainmen dalam kenderaan untuk menyampaikan interaksi suara yang diperibadikan dan menyedari konteks.

Bermula

CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—menjadi satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.

Untuk bermula, terokai keupayaan model dalam Taman Permainan dan berunding dengan Panduan API untuk arahan terperinci. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API.

Penyepaduan terkini Qwen‑TTS API akan muncul di CometAPI tidak lama lagi, jadi nantikan! Sementara kami memuktamadkan muat naik Model Qwen‑VLo, teroka model kami yang lain di Halaman model atau cuba mereka dalam Taman Permainan AI. Model terbaru Qwen dalam CometAPI ialah API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Baca Lagi

500+ Model dalam Satu API

Sehingga 20% Diskaun