Alibaba Cloud Luncurkan Qwen‑TTS: Model Sintesis Ucapan Streaming dengan Fidelitas Tinggi

On Juni 26, 2025Alibaba Cloud diluncurkan Qwen-TTS, tambahan terbaru untuk keluarga model AI besar Tongyi Qianwen (Qwen). Dirancang untuk aplikasi text-to-speech berkualitas tinggi dan serbaguna, Qwen-TTS mendukung input bahasa Mandarin, Inggris, dan campuran serta menawarkan output audio batch dan streaming, yang melayani berbagai kasus penggunaan mulai dari asisten suara cerdas hingga produksi konten multimedia.

Fitur Teknis Utama

Masukan Multibahasa: Memproses teks bahasa Mandarin murni, bahasa Inggris murni, atau teks bahasa Mandarin‑Inggris yang diubah kodenya, sehingga memungkinkan sintesis suara yang lancar di seluruh aplikasi global. Selain itu, model ini menawarkan tujuh profil suara bahasa Mandarin‑Inggris dwibahasa (misalnya, Cherry, Ethan, Chelsie, Serena), yang memfasilitasi aplikasi lintas‑bahasa yang lancar seperti dukungan pelanggan global, bimbingan belajar, dan konten multimedia yang menyasar khalayak internasional.
Keluaran Streaming: Menyampaikan audio secara real-time melalui segmen berkode Base64, dengan paket akhir menyediakan URL audio lengkap—ideal untuk skenario interaktif latensi rendah.
Pengkodean Audio Berbasis Token: Secara internal memetakan setiap 1 detik audio ke 50 token (dengan setiap detik parsial dibulatkan), memastikan kinerja dan ketelitian yang dapat diprediksi bagi pengembang.
Berbagai Gaya Suara:Menawarkan palet suara yang telah ditetapkan—Cherry, Serena, Ethan, Chelsie, sebaik Dylan, Jada, Sunny—memungkinkan nada emosi yang disesuaikan dan konsistensi merek.
Throughput Tinggi & Latensi Rendah: Dioptimalkan untuk streaming waktu nyata, Qwen‑TTS dapat menghasilkan keluaran audio dengan latensi ujung ke ujung di bawah 100 ms pada instans GPU standar, menjadikannya ideal untuk asisten suara interaktif dan penyiaran langsung.

Integrasi Sempurna melalui DashScope SDK

Qwen‑TTS dapat langsung diakses melalui Model Studio milik Alibaba Cloud dan titik akhir API Qwen. Pengembang dapat menerapkan model melalui PAI‑EAS hanya dengan beberapa klik, mengintegrasikannya ke dalam alur kerja melalui SDK dan panggilan yang sesuai dengan OpenAPI, atau menyempurnakannya menggunakan kumpulan data suara milik sendiri yang dihosting di Alibaba Cloud. Arsitekturnya yang dapat diskalakan mendukung pembuatan audio batch serta sintesis on‑the‑fly di pusat panggilan virtual dan platform AI percakapan.

Alibaba Cloud memprioritaskan kemudahan integrasi untuk Qwen‑TTS, menawarkan API RESTful yang mudah dipahami dan SDK dalam berbagai bahasa. Contoh kode Python menggambarkan bagaimana konfigurasi minimal—hanya dengan menetapkan variabel lingkungan untuk kunci API—memungkinkan pengembang untuk memanggil Qwen‑TTS dengan satu panggilan fungsi. Misalnya:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Kesederhanaan ini mempercepat waktu pemasaran untuk aplikasi di bidang pendidikan, produksi media, perangkat pintar, dan lainnya.

Kasus Penggunaan dan Dampak Industri

Otomatisasi Layanan Pelanggan:Perusahaan dapat menggunakan agen suara beraksen daerah yang empatik untuk menangani panggilan masuk bervolume tinggi, mengurangi biaya tenaga kerja sekaligus meningkatkan kepuasan pengguna.
Pembuatan Konten & Media: Penerbit dan penyiar dapat membuat buku audio multibahasa, podcast, dan pengumuman sesuai permintaan dengan kualitas tingkat profesional.
Aksesibilitas :Platform pendidikan dan perangkat bantuan akan memperoleh manfaat dari keluaran suara yang jelas dan menarik bagi pelajar dan pengguna dengan gangguan penglihatan.
Perangkat Cerdas & IoT: OEM dapat menanamkan Qwen‑TTS ke dalam perangkat yang dapat dikenakan, asisten rumah tangga, dan sistem infotainment dalam kendaraan guna menghadirkan interaksi suara yang dipersonalisasi dan sadar konteks.

Mulai

CometAPI adalah platform API terpadu yang menggabungkan lebih dari 500 model AI dari penyedia terkemuka—seperti seri GPT OpenAI, Gemini Google, Claude Anthropic, Midjourney, Suno, dan lainnya—menjadi satu antarmuka yang ramah bagi pengembang. Dengan menawarkan autentikasi yang konsisten, pemformatan permintaan, dan penanganan respons, CometAPI secara drastis menyederhanakan integrasi kapabilitas AI ke dalam aplikasi Anda. Baik Anda sedang membangun chatbot, generator gambar, komposer musik, atau alur kerja analitik berbasis data, CometAPI memungkinkan Anda melakukan iterasi lebih cepat, mengendalikan biaya, dan tetap tidak bergantung pada vendor—semuanya sambil memanfaatkan terobosan terbaru di seluruh ekosistem AI.

Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.

Integrasi terbaru Qwen-TTS API akan segera muncul di CometAPI, jadi nantikan! Sementara kami menyelesaikan unggahan Model Qwen‑VLo, jelajahi model kami yang lain di Halaman model atau mencobanya di Taman Bermain AIModel terbaru Qwen di CometAPI adalah API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Fitur Teknis Utama

Integrasi Sempurna melalui DashScope SDK

Kasus Penggunaan dan Dampak Industri

Mulai

Baca Selengkapnya

500+ Model dalam Satu API