Alibaba Cloud представляет Qwen‑TTS: высококачественную потоковую модель синтеза речи

On 26 июня 2025, запущено облако Alibaba Qwen-TTS, последнее дополнение к семейству крупных моделей ИИ Tongyi Qianwen (Qwen). Разработанный для универсальных высококачественных приложений преобразования текста в речь, Qwen-TTS поддерживает китайский, английский и смешанный ввод и предлагает как пакетный, так и потоковый вывод звука, обслуживая разнообразные варианты использования от интеллектуальных голосовых помощников до производства мультимедийного контента.

Основные технические характеристики

Многоязычный ввод: обрабатывает текст на чистом китайском, чистом английском или с переключением кодов с китайского на английский, обеспечивая бесперебойный синтез голоса в глобальных приложениях. Кроме того, модель предлагает семь двуязычных китайско-английских голосовых профилей (например, Cherry, Ethan, Chelsie, Serena), облегчая бесперебойную работу кросс-языковых приложений, таких как глобальная поддержка клиентов, образовательное обучение и мультимедийный контент, ориентированный на международную аудиторию.
Потоковый вывод: обеспечивает передачу звука в реальном времени с помощью сегментов, закодированных в Base64, а конечный пакет предоставляет полный URL-адрес аудио — идеально подходит для интерактивных сценариев с малой задержкой.
Кодирование звука на основе токенов: Внутренне сопоставляет каждую секунду звука с 1 токенами (с округлением каждой неполной секунды), обеспечивая предсказуемую производительность и детализацию для разработчиков.
Несколько стилей голоса: Предлагает палитру предустановленных голосов —Черри, Серена, Итан, Челси, так же как Дилан, Джада, Санни—позволяя создавать индивидуальные эмоциональные тона и обеспечивать последовательность бренда.
Высокая пропускная способность и низкая задержка: Qwen‑TTS, оптимизированный для потоковой передачи в реальном времени, может генерировать аудиовыходы со сквозной задержкой менее 100 мс на стандартных экземплярах графического процессора, что делает его идеальным для интерактивных голосовых помощников и прямых трансляций.

Простая интеграция через DashScope SDK

Qwen‑TTS немедленно доступен через Model Studio Alibaba Cloud и конечную точку Qwen API. Разработчики могут развернуть модель через PAI‑EAS всего за несколько щелчков, интегрировать ее в рабочие процессы через SDK и вызовы, совместимые с OpenAPI, или настроить ее с помощью собственных наборов голосовых данных, размещенных в Alibaba Cloud. Его масштабируемая архитектура поддерживает пакетную генерацию аудио, а также синтез на лету в виртуальных колл-центрах и разговорных платформах ИИ.

Alibaba Cloud отдает приоритет простоте интеграции для Qwen‑TTS, предлагая простой RESTful API и SDK на нескольких языках. Пример кода Python иллюстрирует, как минимальная конфигурация — простая установка переменной среды для ключа API — позволяет разработчикам вызывать Qwen‑TTS с помощью одного вызова функции. Например:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Эта простота ускоряет выход на рынок приложений в сфере образования, медиапроизводства, интеллектуальных устройств и т. д.

Варианты использования и влияние на отрасль

Автоматизация обслуживания клиентов: Компании могут задействовать чутких, говорящих с региональным акцентом голосовых агентов для обработки больших объемов входящих звонков, сокращая затраты на рабочую силу и одновременно повышая удовлетворенность пользователей.
Создание контента и медиа: Издатели и вещатели могут создавать многоязычные аудиокниги, подкасты и объявления по запросу с профессиональным качеством.
Универсальный доступ: Образовательные платформы и вспомогательные устройства получат выгоду от четких, интересных голосовых сообщений для учащихся и пользователей с нарушениями зрения.
Умные устройства и Интернет вещей: OEM-производители могут встраивать Qwen-TTS в носимые устройства, домашние помощники и информационно-развлекательные системы в автомобилях для обеспечения персонализированного, контекстно-зависимого голосового взаимодействия.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Для начала изучите возможности моделей в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.

Последняя интеграция Qwen-TTS API скоро появится на CometAPI, так что следите за обновлениями! Пока мы завершаем загрузку модели Qwen‑VLo, изучите наши другие модели на Страница моделей или попробуйте их в Площадка с искусственным интеллектом. Последняя модель Qwen в CometAPI — это API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Основные технические характеристики

Простая интеграция через DashScope SDK

Варианты использования и влияние на отрасль

Первые шаги

Читать далее

500+ моделей в одном API