Alibaba Cloud revela Qwen-TTS: um modelo de síntese de fala em streaming de alta fidelidade

On 26 de Junho de 2025, Alibaba Cloud lançado Qwen-TTS, a mais recente adição à família Tongyi Qianwen (Qwen) de grandes modelos de IA. Projetado para aplicações versáteis e de alta qualidade de conversão de texto em voz, o Qwen-TTS suporta entrada em chinês, inglês e outros idiomas, além de oferecer saídas de áudio em lote e streaming, atendendo a diversos casos de uso, desde assistentes de voz inteligentes até produção de conteúdo multimídia.

Principais recursos técnicos

Entrada multilíngue: Processa texto em chinês puro, inglês puro ou texto chinês-inglês com comutação de código, permitindo síntese de voz perfeita em aplicativos globais. Além disso, o modelo oferece sete perfis de voz bilíngues chinês-inglês (por exemplo, Cherry, Ethan, Chelsie, Serena), facilitando aplicativos multilíngues perfeitos, como suporte global ao cliente, tutoria educacional e conteúdo multimídia direcionado a públicos internacionais.
Saída de streaming: Fornece áudio em tempo real por meio de segmentos codificados em Base64, com um pacote final fornecendo uma URL de áudio completa, ideal para cenários interativos de baixa latência.
Codificação de áudio baseada em token: Mapeia internamente cada 1 segundo de áudio para 50 tokens (com qualquer segundo parcial arredondado para cima), garantindo desempenho previsível e granularidade para desenvolvedores.
Vários estilos de voz: Oferece uma paleta de vozes predefinidas—Cereja, Serena, Ethan, Chelsie, assim como Dylan, Jada, Sunny—permitindo tons emocionais personalizados e consistência de marca.
Alto rendimento e baixa latência: Otimizado para streaming em tempo real, o Qwen‑TTS pode gerar saídas de áudio com latências de ponta a ponta abaixo de 100 ms em instâncias de GPU padrão, tornando-o ideal para assistentes de voz interativos e transmissões ao vivo.

Integração perfeita via DashScope SDK

O Qwen-TTS pode ser acessado imediatamente através do Model Studio do Alibaba Cloud e do endpoint da API do Qwen. Os desenvolvedores podem implementar o modelo via PAI-EAS com apenas alguns cliques, integrá-lo a fluxos de trabalho por meio de SDKs e chamadas compatíveis com OpenAPI ou ajustá-lo usando conjuntos de dados de voz proprietários hospedados no Alibaba Cloud. Sua arquitetura escalável suporta geração de áudio em lote, bem como síntese dinâmica em call centers virtuais e plataformas de IA conversacional.

O Alibaba Cloud priorizou a facilidade de integração para o Qwen‑TTS, oferecendo uma API RESTful simples e SDKs em diversas linguagens. Um exemplo de código Python ilustra como a configuração mínima — simplesmente definindo uma variável de ambiente para a chave de API — permite que os desenvolvedores invoquem o Qwen-TTS com uma única chamada de função. Por exemplo:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好，欢迎使用 Qwen‑TTS！")
print(f"Audio available at: {audio_url}")

Essa simplicidade acelera o tempo de colocação no mercado de aplicativos em educação, produção de mídia, dispositivos inteligentes e muito mais.

Casos de uso e impacto na indústria

Automação de Atendimento ao Cliente: As empresas podem empregar agentes de voz empáticos e com sotaque regional para lidar com altos volumes de chamadas de entrada, reduzindo custos de mão de obra e aumentando a satisfação do usuário.
Criação de Conteúdo e Mídia: Editoras e emissoras podem gerar audiolivros multilíngues, podcasts e anúncios sob demanda com qualidade profissional.
Acessibilidade: Plataformas educacionais e dispositivos de assistência podem se beneficiar de saídas de voz claras e envolventes para alunos e usuários com deficiência visual.
Dispositivos Inteligentes e IoT: Os OEMs podem incorporar o Qwen‑TTS em dispositivos vestíveis, assistentes domésticos e sistemas de informação e entretenimento veiculares para oferecer interações de voz personalizadas e sensíveis ao contexto.

Começando a jornada

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Para começar, explore as capacidades dos modelos no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API.

A mais recente integração Qwen-TTS A API aparecerá em breve no CometAPI, então fique ligado! Enquanto finalizamos o upload do modelo Qwen-VLo, explore nossos outros modelos no Página de modelos ou experimentá-los no IA PlaygroundO modelo mais recente de Qwen no CometAPI é API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Principais recursos técnicos

Integração perfeita via DashScope SDK

Casos de uso e impacto na indústria

Começando a jornada

Leia Mais

500+ Modelos em Uma API