Alibaba Cloud stellt Qwen‑TTS vor: Ein High‑Fidelity‑Streaming-Sprachsynthesemodell

CometAPI
AnnaJun 30, 2025
Alibaba Cloud stellt Qwen‑TTS vor: Ein High‑Fidelity‑Streaming-Sprachsynthesemodell

On 26. Juni 2025, Alibaba Cloud gestartet Qwen‑TTS, die neueste Ergänzung der Tongyi Qianwen (Qwen)-Familie großer KI-Modelle. Qwen-TTS wurde für vielseitige, hochwertige Text-to-Speech-Anwendungen entwickelt und unterstützt chinesische, englische und gemischtsprachige Eingaben sowie Batch- und Streaming-Audioausgaben und deckt damit vielfältige Anwendungsfälle ab, von intelligenten Sprachassistenten bis hin zur Produktion multimedialer Inhalte.

Wichtige technische Merkmale

  • Mehrsprachige Eingabe: Verarbeitet reines Chinesisch, reines Englisch oder Code-Switching-Texte zwischen Chinesisch und Englisch und ermöglicht so eine nahtlose Sprachsynthese in globalen Anwendungen. Darüber hinaus bietet das Modell sieben zweisprachige Sprachprofile zwischen Chinesisch und Englisch (z. B. Cherry, Ethan, Chelsie, Serena) und ermöglicht so nahtlose sprachübergreifende Anwendungen wie globalen Kundensupport, pädagogische Nachhilfe und Multimedia-Inhalte für ein internationales Publikum.
  • Streaming-Ausgabe: Liefert Audio in Echtzeit über Base64-codierte Segmente, wobei ein endgültiges Paket eine vollständige Audio-URL bereitstellt – ideal für interaktive Szenarien mit geringer Latenz.
  • Tokenbasierte Audiokodierung: Jede Audiosekunde wird intern in 1 Tokens aufgeteilt (wobei jede angebrochene Sekunde aufgerundet wird), wodurch für Entwickler eine vorhersehbare Leistung und Granularität gewährleistet wird.
  • Mehrere Stimmstile: Bietet eine Palette voreingestellter Stimmen—Cherry, Serena, Ethan, Chelsie, sowie Dylan, Jada, Sunny– ermöglicht maßgeschneiderte emotionale Töne und Markenkonsistenz.
  • Hoher Durchsatz und geringe Latenz: Qwen-TTS ist für Echtzeit-Streaming optimiert und kann Audioausgaben mit End-to-End-Latenzen unter 100 ms auf Standard-GPU-Instanzen generieren, was es ideal für interaktive Sprachassistenten und Live-Übertragungen macht.

Nahtlose Integration über DashScope SDK

Qwen-TTS ist über das Model Studio von Alibaba Cloud und den Qwen-API-Endpunkt sofort zugänglich. Entwickler können das Modell mit wenigen Klicks über PAI-EAS bereitstellen, es über SDKs und OpenAPI-kompatible Aufrufe in Workflows integrieren oder mithilfe proprietärer, auf Alibaba Cloud gehosteter Sprachdatensätze optimieren. Die skalierbare Architektur unterstützt die Batch-Audiogenerierung sowie die On-the-Fly-Synthese in virtuellen Callcentern und auf Conversational-AI-Plattformen.

Alibaba Cloud hat die einfache Integration von Qwen‑TTS priorisiert und bietet eine unkomplizierte RESTful-API und SDKs in mehreren Sprachen. Python-Beispielcode veranschaulicht, wie Entwickler mit minimaler Konfiguration – durch einfaches Setzen einer Umgebungsvariable für den API-Schlüssel – Qwen-TTS mit einem einzigen Funktionsaufruf aufrufen können. Beispiel:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

Diese Einfachheit beschleunigt die Markteinführungszeit für Anwendungen in den Bereichen Bildung, Medienproduktion, Smartgeräte und mehr.

Anwendungsfälle und Branchenauswirkungen

  • Kundenservice-Automatisierung: Unternehmen können einfühlsame Sprachagenten mit regionalem Akzent einsetzen, um eine große Anzahl eingehender Anrufe zu bearbeiten. Dadurch werden die Arbeitskosten gesenkt und gleichzeitig die Benutzerzufriedenheit erhöht.
  • Inhaltserstellung und Medien: Verlage und Rundfunkanstalten können mehrsprachige Hörbücher, Podcasts und On-Demand-Ankündigungen in professioneller Qualität erstellen.
  • Barierrefreiheit: Bildungsplattformen und Hilfsgeräte profitieren von klaren, ansprechenden Sprachausgaben für Lernende und Benutzer mit Sehbehinderungen.
  • Intelligente Geräte und IoT: OEMs können Qwen-TTS in Wearables, Heimassistenten und Infotainmentsysteme im Fahrzeug integrieren, um personalisierte, kontextabhängige Sprachinteraktionen zu ermöglichen.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Erkunden Sie zunächst die Fähigkeiten der Modelle in der Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben.

Die neueste Integration Qwen‑TTS Die API wird bald auf CometAPI erscheinen, also bleiben Sie dran! Während wir den Upload des Qwen‑VLo-Modells abschließen, erkunden Sie unsere anderen Modelle auf der Modelle-Seite oder probieren Sie sie im KI-Spielplatz. Qwens neuestes Modell in CometAPI ist Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Mehr lesen

500+ Modelle in einer API

Bis zu 20% Rabatt