Alibaba Cloud ra mắt Qwen‑TTS: Mô hình tổng hợp giọng nói phát trực tuyến có độ trung thực cao

On 26 Tháng Sáu, 2025, Alibaba Cloud ra mắt Qwen-TTS, sự bổ sung mới nhất cho gia đình Tongyi Qianwen (Qwen) gồm các mô hình AI lớn. Được thiết kế cho các ứng dụng chuyển văn bản thành giọng nói đa năng, chất lượng cao, Qwen‑TTS hỗ trợ đầu vào tiếng Trung, tiếng Anh và ngôn ngữ hỗn hợp và cung cấp cả đầu ra âm thanh hàng loạt và phát trực tuyến, đáp ứng nhiều trường hợp sử dụng khác nhau từ trợ lý giọng nói thông minh đến sản xuất nội dung đa phương tiện.

Tính năng kỹ thuật chính

Đầu vào đa ngôn ngữ: Xử lý tiếng Trung thuần túy, tiếng Anh thuần túy hoặc văn bản tiếng Trung-Anh chuyển mã, cho phép tổng hợp giọng nói liền mạch trên các ứng dụng toàn cầu. Ngoài ra, mô hình này còn cung cấp bảy cấu hình giọng nói song ngữ Trung-Anh (ví dụ: Cherry, Ethan, Chelsie, Serena), tạo điều kiện thuận lợi cho các ứng dụng đa ngôn ngữ liền mạch như hỗ trợ khách hàng toàn cầu, gia sư giáo dục và nội dung đa phương tiện hướng đến đối tượng khán giả quốc tế.
Đầu ra phát trực tuyến: Cung cấp âm thanh theo thời gian thực thông qua các phân đoạn được mã hóa Base64, với gói cuối cùng cung cấp URL âm thanh đầy đủ—lý tưởng cho các tình huống tương tác có độ trễ thấp.
Mã hóa âm thanh dựa trên mã thông báo: Ánh xạ nội bộ mỗi giây âm thanh thành 1 mã thông báo (với bất kỳ giây nào được làm tròn), đảm bảo hiệu suất và độ chi tiết có thể dự đoán được cho các nhà phát triển.
Nhiều phong cách giọng nói: Cung cấp bảng màu giọng nói cài đặt sẵn—Anh Đào, Serena, Ethan, Chelsie, Cũng như Dylan, Jada, Nắng—cho phép tạo ra tông màu cảm xúc phù hợp và tính nhất quán của thương hiệu.
Thông lượng cao & Độ trễ thấp: Được tối ưu hóa cho phát trực tuyến thời gian thực, Qwen‑TTS có thể tạo ra đầu ra âm thanh với độ trễ đầu cuối dưới 100 ms trên các phiên bản GPU tiêu chuẩn, khiến nó trở nên lý tưởng cho trợ lý giọng nói tương tác và phát sóng trực tiếp.

Tích hợp liền mạch thông qua DashScope SDK

Qwen‑TTS có thể truy cập ngay lập tức thông qua Model Studio của Alibaba Cloud và điểm cuối Qwen API. Các nhà phát triển có thể triển khai mô hình thông qua PAI‑EAS chỉ bằng vài cú nhấp chuột, tích hợp mô hình vào quy trình làm việc thông qua SDK và các cuộc gọi tuân thủ OpenAPI hoặc tinh chỉnh mô hình bằng cách sử dụng các tập dữ liệu giọng nói độc quyền được lưu trữ trên Alibaba Cloud. Kiến trúc có thể mở rộng của nó hỗ trợ tạo âm thanh hàng loạt cũng như tổng hợp tức thời trong các trung tâm cuộc gọi ảo và nền tảng AI đàm thoại.

Alibaba Cloud đã ưu tiên tính dễ tích hợp cho Qwen‑TTS, cung cấp API RESTful đơn giản và SDK bằng nhiều ngôn ngữ. Mã Python mẫu minh họa cách cấu hình tối thiểu—chỉ cần thiết lập một biến môi trường cho khóa API—cho phép các nhà phát triển gọi Qwen‑TTS bằng một lệnh gọi hàm duy nhất. Ví dụ:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Sự đơn giản này giúp rút ngắn thời gian đưa các ứng dụng ra thị trường trong giáo dục, sản xuất phương tiện truyền thông, thiết bị thông minh, v.v.

Các trường hợp sử dụng và tác động của ngành

Dịch vụ khách hàng tự động:Các công ty có thể triển khai các tổng đài viên có giọng nói truyền cảm, phù hợp với từng vùng miền để xử lý khối lượng lớn cuộc gọi đến, giúp giảm chi phí nhân công đồng thời nâng cao sự hài lòng của người dùng.
Tạo nội dung & phương tiện truyền thông:Các nhà xuất bản và đài phát thanh có thể tạo ra sách nói, podcast và thông báo theo yêu cầu đa ngôn ngữ với chất lượng chuyên nghiệp.
Khả Năng Tiếp Cận:Các nền tảng giáo dục và thiết bị hỗ trợ sẽ được hưởng lợi từ chất lượng giọng nói rõ ràng, hấp dẫn đối với người học và người dùng khiếm thị.
Thiết bị thông minh & IoT: Các OEM có thể nhúng Qwen‑TTS vào các thiết bị đeo được, trợ lý gia đình và hệ thống thông tin giải trí trên xe để cung cấp các tương tác bằng giọng nói có nhận thức theo ngữ cảnh và được cá nhân hóa.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Để bắt đầu, hãy khám phá khả năng của các mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Tích hợp mới nhất Qwen-TTS API sẽ sớm xuất hiện trên CometAPI, vì vậy hãy theo dõi! Trong khi chúng tôi hoàn thiện việc tải lên Mô hình Qwen‑VLo, hãy khám phá các mô hình khác của chúng tôi trên Trang mô hình hoặc thử chúng trong sân chơi trí tuệ nhân tạo. Mô hình mới nhất của Qwen trong CometAPI là API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Tính năng kỹ thuật chính

Tích hợp liền mạch thông qua DashScope SDK

Các trường hợp sử dụng và tác động của ngành

Bắt đầu

Đọc thêm

500+ Mô hình trong Một API