Alibaba Cloud, 고성능 스트리밍 음성 합성 모델인 Qwen‑TTS 공개

On 2025년 6월 26일, Alibaba Cloud 출시 퀀‑TTS, Tongyi Qianwen(Qwen)이라는 대규모 AI 모델 제품군에 새롭게 추가된 제품입니다. 다재다능하고 고품질의 텍스트 음성 변환 애플리케이션을 위해 설계된 Qwen‑TTS는 중국어, 영어 및 여러 언어 입력을 지원하고 일괄 및 스트리밍 오디오 출력을 모두 제공하여 지능형 음성 비서부터 멀티미디어 콘텐츠 제작까지 다양한 사용 사례를 충족합니다.

주요 기술 특징

다국어 입력: 순수 중국어, 순수 영어 또는 코드 전환된 중국어-영어 텍스트를 처리하여 글로벌 애플리케이션에서 원활한 음성 합성을 가능하게 합니다. 또한 이 모델은 7개의 이중 언어 중국어-영어 음성 프로필(예: Cherry, Ethan, Chelsie, Serena)을 제공하여 글로벌 고객 지원, 교육 튜터링, 국제 대상 멀티미디어 콘텐츠와 같은 원활한 언어 간 애플리케이션을 용이하게 합니다.
스트리밍 출력: Base64로 인코딩된 세그먼트를 통해 실시간으로 오디오를 전달하며, 최종 패키지는 전체 오디오 URL을 제공합니다. 지연 시간이 짧은 대화형 시나리오에 이상적입니다.
토큰 기반 오디오 인코딩: 오디오의 1초를 50개 토큰으로 내부적으로 매핑하여(부분적인 XNUMX초는 반올림) 개발자에게 예측 가능한 성능과 세분성을 보장합니다.
다양한 음성 스타일: 사전 설정된 음성 팔레트를 제공합니다.체리, 세레나, 에단, 첼시, 만큼 잘 딜런, 제이다, 써니—맞춤형 감정적 톤과 브랜딩의 일관성을 허용합니다.
높은 처리량 및 낮은 지연 시간: 실시간 스트리밍에 최적화된 Qwen‑TTS는 표준 GPU 인스턴스에서 100ms 미만의 엔드투엔드 지연 시간으로 오디오 출력을 생성할 수 있어 대화형 음성 지원 및 라이브 방송에 이상적입니다.

DashScope SDK를 통한 원활한 통합

Qwen‑TTS는 Alibaba Cloud의 Model Studio와 Qwen API 엔드포인트를 통해 즉시 이용할 수 있습니다. 개발자는 몇 번의 클릭만으로 PAI‑EAS를 통해 모델을 배포하고, SDK 및 OpenAPI 호환 호출을 통해 워크플로에 통합하거나, Alibaba Cloud에 호스팅된 독점 음성 데이터 세트를 사용하여 세부 조정할 수 있습니다. 확장 가능한 아키텍처는 가상 콜센터 및 대화형 AI 플랫폼에서 일괄 오디오 생성은 물론 실시간 합성도 지원합니다.

Alibaba Cloud는 Qwen‑TTS의 통합 용이성을 우선시하여 다음과 같은 기능을 제공합니다. 간단한 RESTful API 여러 언어로 제공되는 SDK를 제공합니다. 샘플 Python 코드는 API 키에 대한 환경 변수 설정만으로 개발자가 Qwen‑TTS를 단일 함수 호출로 호출할 수 있는 최소한의 구성을 보여줍니다. 예를 들면 다음과 같습니다.

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

이러한 단순성 덕분에 교육, 미디어 제작, 스마트 기기 등의 애플리케이션 출시 시간이 단축됩니다.

사용 사례 및 산업 영향

고객 서비스 자동화: 기업에서는 공감 능력이 뛰어나고 지역 사투리를 구사하는 음성 상담원을 배치하여 대량의 인바운드 전화를 처리하고, 이를 통해 인건비를 절감하는 동시에 사용자 만족도를 높일 수 있습니다.
콘텐츠 제작 및 미디어: 출판사와 방송사는 전문가급 품질로 다국어 오디오북, 팟캐스트, 주문형 공지사항을 제작할 수 있습니다.
접근 용이성: 교육 플랫폼과 보조 장치는 시각 장애가 있는 학습자와 사용자에게 명확하고 매력적인 음성 출력을 통해 이점을 얻을 수 있습니다.
스마트 기기 및 IoT: OEM은 Qwen‑TTS를 웨어러블 기기, 홈 어시스턴트, 차량용 인포테인먼트 시스템에 내장하여 개인화되고 상황에 맞는 음성 상호 작용을 제공할 수 있습니다.

시작 가이드

CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.

시작하려면 모델의 기능을 탐색하세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.

최신 통합 퀀‑TTS API가 곧 CometAPI에 등장할 예정이므로 계속 지켜봐 주세요! Qwen‑VLo 모델 업로드를 마무리하는 동안 다른 모델을 탐색해 보세요. 모델 페이지 또는 다음을 시도해 보세요. AI 놀이터. Qwen의 CometAPI 최신 모델은 다음과 같습니다. 퀀 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

주요 기술 특징

DashScope SDK를 통한 원활한 통합

사용 사례 및 산업 영향

시작 가이드

더 보기

하나의 API로 500개 이상의 모델