Alibaba Cloud presenta Qwen-TTS: un modelo de síntesis de voz en streaming de alta fidelidad

On 26 de Junio de 2025Se lanzó Alibaba Cloud Qwen‑TTS, la última incorporación a la familia Tongyi Qianwen (Qwen) de grandes modelos de IA. Diseñado para aplicaciones de texto a voz versátiles y de alta calidad, Qwen-TTS admite la entrada de chino, inglés y otros idiomas, y ofrece salidas de audio por lotes y en streaming, adaptándose a diversos casos de uso, desde asistentes de voz inteligentes hasta la producción de contenido multimedia.

Características técnicas clave

Entrada multilingüe:Procesa texto chino puro, inglés puro o chino-inglés con cambio de código, lo que permite una síntesis de voz fluida en aplicaciones globales. Además, el modelo ofrece siete perfiles de voz bilingües chino-inglés (por ejemplo, Cherry, Ethan, Chelsie, Serena), lo que facilita aplicaciones fluidas en varios idiomas, como atención al cliente global, tutoría educativa y contenido multimedia dirigido a audiencias internacionales.
Salida de transmisión:Entrega audio en tiempo real a través de segmentos codificados en Base64, con un paquete final que proporciona una URL de audio completa, ideal para escenarios interactivos de baja latencia.
Codificación de audio basada en tokens:Asigna internamente cada segundo de audio a 1 tokens (y cualquier segundo parcial se redondea hacia arriba), lo que garantiza un rendimiento y una granularidad predecibles para los desarrolladores.
Múltiples estilos de voz:Ofrece una paleta de voces preestablecidas—Cereza, Serena, Ethan, Chelsie, así como las Dylan, Jada, Sunny—permitiendo tonos emocionales personalizados y consistencia de marca.
Alto rendimiento y baja latenciaOptimizado para transmisión en tiempo real, Qwen-TTS puede generar salidas de audio con latencias de extremo a extremo inferiores a 100 ms en instancias de GPU estándar, lo que lo hace ideal para asistentes de voz interactivos y transmisión en vivo.

Integración perfecta a través del SDK de DashScope

Se puede acceder inmediatamente a Qwen-TTS a través de Model Studio de Alibaba Cloud y el punto final de la API de Qwen. Los desarrolladores pueden implementar el modelo mediante PAI-EAS con solo unos clics, integrarlo en flujos de trabajo mediante SDK y llamadas compatibles con OpenAPI, o perfeccionarlo utilizando conjuntos de datos de voz propietarios alojados en Alibaba Cloud. Su arquitectura escalable permite la generación de audio por lotes, así como la síntesis sobre la marcha en centros de llamadas virtuales y plataformas de IA conversacional.

Alibaba Cloud ha priorizado la facilidad de integración para Qwen-TTS, ofreciendo una API RESTful sencilla y SDK en varios idiomas. Un ejemplo de código Python ilustra cómo una configuración mínima (establecer una variable de entorno para la clave API) permite a los desarrolladores invocar Qwen-TTS con una sola llamada de función. Por ejemplo:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Esta simplicidad acelera el tiempo de comercialización de aplicaciones en educación, producción de medios, dispositivos inteligentes y más.

Casos de uso e impacto en la industria

Automatización del servicio al clienteLas empresas pueden implementar agentes de voz empáticos y con acento regional para manejar grandes volúmenes de llamadas entrantes, lo que reduce los costos laborales y mejora la satisfacción del usuario.
Creación de contenido y medios:Los editores y emisoras pueden generar audiolibros, podcasts y anuncios a pedido multilingües con calidad profesional.
AccesibilidadLas plataformas educativas y los dispositivos de asistencia pueden beneficiarse de salidas de voz claras y atractivas para estudiantes y usuarios con discapacidades visuales.
Dispositivos inteligentes e IoT:Los fabricantes de equipos originales (OEM) pueden integrar Qwen-TTS en dispositivos portátiles, asistentes domésticos y sistemas de información y entretenimiento en vehículos para ofrecer interacciones de voz personalizadas y adaptadas al contexto.

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Para comenzar, explore las capacidades de los modelos en el Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API".

La última integración Qwen‑TTS La API aparecerá pronto en CometAPI, ¡así que permanezca atento! Mientras finalizamos la carga del modelo Qwen-VLo, explore nuestros otros modelos en Página de modelos o pruébalos en el Patio de juegos de IAEl último modelo de Qwen en CometAPI es API de Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Características técnicas clave

Integración perfecta a través del SDK de DashScope

Casos de uso e impacto en la industria

Primeros Pasos

Leer Más

500+ Modelos en Una API