Alibaba Cloud prezentuje Qwen‑TTS: model syntezy mowy o wysokiej wierności i przesyłaniu strumieniowym

On 26 czerwca 2025 r., Uruchomiono Alibaba Cloud Qwen-TTS, najnowszy dodatek do rodziny dużych modeli AI Tongyi Qianwen (Qwen). Zaprojektowany do wszechstronnych, wysokiej jakości aplikacji zamiany tekstu na mowę, Qwen‑TTS obsługuje wprowadzanie danych w języku chińskim, angielskim i mieszanym oraz oferuje zarówno wyjścia audio wsadowe, jak i strumieniowe, obsługując różnorodne przypadki użycia, od inteligentnych asystentów głosowych po produkcję treści multimedialnych.

Kluczowe cechy techniczne

Wprowadzanie wielojęzyczne: Przetwarza czysty tekst chiński, czysty tekst angielski lub tekst chińsko-angielski z przełączanym kodem, umożliwiając płynną syntezę głosu w aplikacjach o zasięgu globalnym. Ponadto model oferuje siedem dwujęzycznych profili głosu chińsko-angielskiego (np. Cherry, Ethan, Chelsie, Serena), ułatwiając płynną obsługę wielu języków w takich aplikacjach, jak globalna obsługa klienta, korepetycje edukacyjne i treści multimedialne skierowane do odbiorców międzynarodowych.
Wyjście strumieniowe:Dostarcza dźwięk w czasie rzeczywistym za pośrednictwem segmentów zakodowanych w standardzie Base64, a pakiet końcowy zawiera pełny adres URL dźwięku — idealne rozwiązanie w przypadku interaktywnych scenariuszy o niskim opóźnieniu.
Kodowanie audio oparte na tokenach:Wewnętrznie mapuje każdą 1 sekundę dźwięku na 50 tokenów (przy czym każda częściowa sekunda jest zaokrąglana w górę), zapewniając przewidywalną wydajność i szczegółowość dla programistów.
Wiele stylów głosu:Oferuje paletę wstępnie ustawionych głosów —Wiśnia, Serena, Ethan, Chelsie, jak również Dylan, Jada, Słoneczny—umożliwiając dostosowanie tonu emocjonalnego i spójności marki.
Wysoka przepustowość i niskie opóźnienie:Zoptymalizowany pod kątem przesyłania strumieniowego w czasie rzeczywistym Qwen‑TTS może generować wyjścia audio z opóźnieniami od początku do końca poniżej 100 ms na standardowych wystąpieniach GPU, co czyni go idealnym rozwiązaniem dla interaktywnych asystentów głosowych i transmisji na żywo.

Bezproblemowa integracja za pośrednictwem DashScope SDK

Dostęp do Qwen‑TTS jest natychmiastowy za pośrednictwem Model Studio Alibaba Cloud i punktu końcowego Qwen API. Deweloperzy mogą wdrożyć model za pośrednictwem PAI‑EAS za pomocą zaledwie kilku kliknięć, zintegrować go z przepływami pracy za pośrednictwem zestawów SDK i zgodnych z OpenAPI połączeń lub dostroić go za pomocą zastrzeżonych zestawów danych głosowych hostowanych w Alibaba Cloud. Jego skalowalna architektura obsługuje generowanie dźwięku wsadowego, a także syntezę w locie w wirtualnych centrach obsługi telefonicznej i platformach konwersacyjnej AI.

Alibaba Cloud położyła nacisk na łatwość integracji Qwen‑TTS, oferując prosty interfejs API RESTful i SDK w wielu językach. Przykładowy kod Pythona ilustruje, jak minimalna konfiguracja — po prostu ustawienie zmiennej środowiskowej dla klucza API — umożliwia programistom wywołanie Qwen‑TTS za pomocą jednego wywołania funkcji. Na przykład:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Prostota ta przyspiesza wprowadzanie produktów na rynek w przypadku zastosowań w edukacji, produkcji medialnej, urządzeniach inteligentnych i innych obszarach.

Przykłady zastosowań i wpływ na branżę

Automatyzacja Obsługi Klienta:Firmy mogą zatrudniać empatycznych, posługujących się regionalnym akcentem agentów głosowych do obsługi dużej liczby połączeń przychodzących, co pozwala na zmniejszenie kosztów pracy i zwiększenie zadowolenia użytkowników.
Tworzenie treści i media:Wydawcy i nadawcy mogą generować wielojęzyczne audiobooki, podcasty i ogłoszenia na żądanie o jakości profesjonalnej.
Dostępność bez barier:Platformy edukacyjne i urządzenia wspomagające skorzystają na czytelnych i angażujących komunikatach głosowych dla uczniów i użytkowników z dysfunkcją wzroku.
Urządzenia inteligentne i IoTProducenci OEM mogą osadzać Qwen‑TTS w urządzeniach noszonych, asystentach domowych i samochodowych systemach informacyjno-rozrywkowych, aby zapewnić spersonalizowane, zależne od kontekstu interakcje głosowe.

Jak zacząć

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Na początek zapoznaj się z możliwościami modeli w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API.

Najnowsza integracja Qwen-TTS API wkrótce pojawi się w CometAPI, więc bądźcie czujni! Podczas gdy my finalizujemy przesyłanie modelu Qwen‑VLo, zapoznajcie się z naszymi innymi modelami na Strona modeli lub wypróbuj je w Plac zabaw AINajnowszy model Qwena w CometAPI to Interfejs API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Kluczowe cechy techniczne

Bezproblemowa integracja za pośrednictwem DashScope SDK

Przykłady zastosowań i wpływ na branżę

Jak zacząć

Czytaj więcej

500+ modeli w jednym API