Alibaba Cloud、高忠実度のストリーミング音声合成モデル「Qwen-TTS」を発表

On 2025 年 6 月 26 日アリババクラウドが立ち上げ クウェンTTSは、大規模AIモデルであるTongyi Qianwen（Qwen）ファミリーの最新モデルです。多用途で高品質な音声合成アプリケーション向けに設計されたQwen-TTSは、中国語、英語、および混合言語の入力をサポートし、バッチおよびストリーミングの両方の音声出力を提供し、インテリジェントな音声アシスタントからマルチメディアコンテンツ制作まで、多様なユースケースに対応します。

主な技術的特徴

多言語入力: 純粋な中国語、純粋な英語、またはコードスイッチされた中国語と英語のテキストを処理し、世界中のアプリケーションでシームレスな音声合成を可能にします。さらに、このモデルは 7 つの中国語と英語のバイリンガル音声プロファイル (Cherry、Ethan、Chelsie、Serena など) を提供し、グローバルな顧客サポート、教育指導、国際的なユーザーを対象としたマルチメディアコンテンツなどのシームレスなクロス言語アプリケーションを促進します。
ストリーミング出力: Base64 でエンコードされたセグメントを介してオーディオをリアルタイムで配信し、最終パッケージでは完全なオーディオ URL が提供されるため、低遅延のインタラクティブなシナリオに最適です。
トークンベースのオーディオエンコーディング: 内部的にオーディオの 1 秒ごとに 50 トークン (秒未満の端数は切り上げ) にマッピングし、開発者にとって予測可能なパフォーマンスと粒度を保証します。
多様な音声スタイル: プリセット音声のパレットを提供—チェリー、セリーナ、イーサン、チェルシー、と同様 ディラン、ジェイダ、サニー感情的なトーンとブランドの一貫性をカスタマイズできます。
高スループットと低レイテンシ: リアルタイムストリーミング向けに最適化された Qwen-TTS は、標準 GPU インスタンスでエンドツーエンドのレイテンシが 100 ミリ秒未満のオーディオ出力を生成できるため、インタラクティブな音声アシスタントやライブブロードキャストに最適です。

DashScope SDKによるシームレスな統合

Qwen-TTSは、Alibaba CloudのModel StudioとQwen APIエンドポイントからすぐにアクセスできます。開発者はPAI-EASを介して数回クリックするだけでモデルをデプロイし、SDKやOpenAPI準拠の呼び出しを通じてワークフローに統合したり、Alibaba Cloudでホストされている独自の音声データセットを使用して微調整したりできます。スケーラブルなアーキテクチャは、仮想コールセンターや会話型AIプラットフォームにおけるバッチ音声生成だけでなく、オンザフライ合成もサポートします。

Alibaba CloudはQwen-TTSの統合の容易さを重視しており、 分かりやすいRESTful API 複数の言語で利用可能なSDK。サンプルPythonコードは、APIキーの環境変数を設定するだけの最小限の設定で、開発者が単一の関数呼び出しでQwen-TTSを起動できることを示しています。例えば：

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

このシンプルさにより、教育、メディア制作、スマートデバイスなどのアプリケーションの市場投入までの時間が短縮されます。

ユースケースと業界への影響

顧客サービスの自動化: 企業は、共感力があり、地域特有のアクセントを持つ音声エージェントを導入して大量の着信コールを処理することで、人件費を削減し、ユーザー満足度を高めることができます。
コンテンツ制作とメディア: 出版社や放送局は、プロフェッショナルグレードの品質で、多言語のオーディオブック、ポッドキャスト、オンデマンドアナウンスを作成できます。
ユーザー補助: 教育プラットフォームと支援デバイスは、学習者や視覚障害のあるユーザーにとって明瞭で魅力的な音声出力から恩恵を受けることができます。
スマートデバイスとIoTOEM は、ウェアラブル、ホームアシスタント、車載インフォテインメントシステムに Qwen-TTS を組み込むことで、パーソナライズされたコンテキスト認識型の音声インタラクションを実現できます。

スタートガイド

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

まず、モデルの機能を調べてみましょう。プレイグラウンドそして相談する APIガイド詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。

最新の統合 クウェンTTS APIはまもなくCometAPIに登場しますので、お楽しみに！Qwen-VLoモデルのアップロードが完了するまで、他のモデルもご覧ください。モデルページまたは、 AI プレイグラウンドQwenのCometAPIの最新モデルは Qwen 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

主な技術的特徴

DashScope SDKによるシームレスな統合

ユースケースと業界への影響

スタートガイド

もっと読む

1つのAPIで500以上のモデル