Alibaba Cloud revela Qwen-TTS: um modelo de síntese de fala em streaming de alta fidelidade

CometAPI
AnnaJun 30, 2025
Alibaba Cloud revela Qwen-TTS: um modelo de síntese de fala em streaming de alta fidelidade

On 26 de Junho de 2025, Alibaba Cloud lançado Qwen-TTS, a mais recente adição à família Tongyi Qianwen (Qwen) de grandes modelos de IA. Projetado para aplicações versáteis e de alta qualidade de conversão de texto em voz, o Qwen-TTS suporta entrada em chinês, inglês e outros idiomas, além de oferecer saídas de áudio em lote e streaming, atendendo a diversos casos de uso, desde assistentes de voz inteligentes até produção de conteúdo multimídia.

Principais recursos técnicos

  • Entrada multilíngue: Processa texto em chinês puro, inglês puro ou texto chinês-inglês com comutação de código, permitindo síntese de voz perfeita em aplicativos globais. Além disso, o modelo oferece sete perfis de voz bilíngues chinês-inglês (por exemplo, Cherry, Ethan, Chelsie, Serena), facilitando aplicativos multilíngues perfeitos, como suporte global ao cliente, tutoria educacional e conteúdo multimídia direcionado a públicos internacionais.
  • Saída de streaming: Fornece áudio em tempo real por meio de segmentos codificados em Base64, com um pacote final fornecendo uma URL de áudio completa, ideal para cenários interativos de baixa latência.
  • Codificação de áudio baseada em token: Mapeia internamente cada 1 segundo de áudio para 50 tokens (com qualquer segundo parcial arredondado para cima), garantindo desempenho previsível e granularidade para desenvolvedores.
  • Vários estilos de voz: Oferece uma paleta de vozes predefinidas—Cereja, Serena, Ethan, Chelsie, assim como Dylan, Jada, Sunny—permitindo tons emocionais personalizados e consistência de marca.
  • Alto rendimento e baixa latência: Otimizado para streaming em tempo real, o Qwen‑TTS pode gerar saídas de áudio com latências de ponta a ponta abaixo de 100 ms em instâncias de GPU padrão, tornando-o ideal para assistentes de voz interativos e transmissões ao vivo.

Integração perfeita via DashScope SDK

O Qwen-TTS pode ser acessado imediatamente através do Model Studio do Alibaba Cloud e do endpoint da API do Qwen. Os desenvolvedores podem implementar o modelo via PAI-EAS com apenas alguns cliques, integrá-lo a fluxos de trabalho por meio de SDKs e chamadas compatíveis com OpenAPI ou ajustá-lo usando conjuntos de dados de voz proprietários hospedados no Alibaba Cloud. Sua arquitetura escalável suporta geração de áudio em lote, bem como síntese dinâmica em call centers virtuais e plataformas de IA conversacional.

O Alibaba Cloud priorizou a facilidade de integração para o Qwen‑TTS, oferecendo uma API RESTful simples e SDKs em diversas linguagens. Um exemplo de código Python ilustra como a configuração mínima — simplesmente definindo uma variável de ambiente para a chave de API — permite que os desenvolvedores invoquem o Qwen-TTS com uma única chamada de função. Por exemplo:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

Essa simplicidade acelera o tempo de colocação no mercado de aplicativos em educação, produção de mídia, dispositivos inteligentes e muito mais.

Casos de uso e impacto na indústria

  • Automação de Atendimento ao Cliente: As empresas podem empregar agentes de voz empáticos e com sotaque regional para lidar com altos volumes de chamadas de entrada, reduzindo custos de mão de obra e aumentando a satisfação do usuário.
  • Criação de Conteúdo e Mídia: Editoras e emissoras podem gerar audiolivros multilíngues, podcasts e anúncios sob demanda com qualidade profissional.
  • Acessibilidade: Plataformas educacionais e dispositivos de assistência podem se beneficiar de saídas de voz claras e envolventes para alunos e usuários com deficiência visual.
  • Dispositivos Inteligentes e IoT: Os OEMs podem incorporar o Qwen‑TTS em dispositivos vestíveis, assistentes domésticos e sistemas de informação e entretenimento veiculares para oferecer interações de voz personalizadas e sensíveis ao contexto.

Começando a jornada

A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.

Para começar, explore as capacidades dos modelos no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API.

A mais recente integração Qwen-TTS A API aparecerá em breve no CometAPI, então fique ligado! Enquanto finalizamos o upload do modelo Qwen-VLo, explore nossos outros modelos no Página de modelos ou experimentá-los no IA PlaygroundO modelo mais recente de Qwen no CometAPI é API Qwen 3(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

Leia Mais

500+ Modelos em Uma API

Até 20% de Desconto