A DAMO Academy da Alibaba foi lançada oficialmente hoje Wan 2.2, um conjunto de modelos de geração de vídeo de código aberto de última geração construído em um Mistura de Especialistas (MoE) Arquitetura. O Wan 2.2 promete melhorias revolucionárias em eficiência computacional, fidelidade de movimento e expressividade cinematográfica, permitindo que desenvolvedores e criadores gerem vídeos 1080p de alta qualidade a partir de prompts de texto ou imagem com controle e flexibilidade sem precedentes. O Wan 2.2 oferece ganhos significativos em qualidade de movimento, detalhes visuais e eficiência computacional em comparação com seu antecessor, o Wan 2.1.
Principais inovações no Wan 2.2
1. Pipeline de redução de ruído acionado por MoE
Com sub-redes, o sistema pode alocar recursos onde eles mais importam — traços gerais para o layout da cena seguidos por um refinamento detalhado. Esse design permite que o modelo principal da Wan 2.2 ostente 27 bilhões de parâmetros no total, ativando apenas 14 bilhões por passagem de inferência, reduzindo efetivamente pela metade os recursos computacionais necessários para síntese de vídeo de alta qualidade.
- Especialista em alto ruído concentra-se em estabelecer as trajetórias gerais de movimento e a composição da cena.
- Especialista em baixo ruído aplica textura meticulosa, detalhes faciais e nuances de iluminação.
Essa estrutura de dupla especialização garante que os criadores possam gerar sequências mais longas e complexas com fidelidade cinematográfica profissional, tudo isso sem aumentar proporcionalmente as demandas de memória da GPU em comparação ao Wan 2.1.
2. Sistema de Controle Estético Cinematográfico
Com base em suas inovações arquitetônicas, ele apresenta um "Sistema de Controle de Estética Cinematográfica" sem precedentes que permite aos usuários controlar a iluminação, a gradação de cores, os ângulos de câmera e a composição por meio de palavras-chave intuitivas. Ao combinar descritores como "brilho do pôr do sol", "luz suave de contorno" ou "composição equilibrada em ângulos baixos", os criadores podem gerar automaticamente cenas que lembram sucessos de bilheteria de Hollywood ou filmes de arte independentes. Por outro lado, entradas como "tons frios", "iluminação forte" e "enquadramento dinâmico" produzem visuais de ficção científica ou noir sob demanda.
Pela primeira vez em modelos de vídeo de IA de código aberto, o Wan 2.2 integra um interface de controle de qualidade de filme:
- Mais de 60 parâmetros ajustáveis abrangendo iluminação, classificação de cores, enquadramento, efeitos de lente e profundidade de campo.
- Link de estilo inteligente, permitindo que os usuários descrevam estados de espírito (por exemplo, “iluminação noir ao crepúsculo”) e que o sistema configure automaticamente configurações complexas de câmera e cor.
- Predefinições cinematográficas predefinidas, como “vintage western”, “neo-ficção científica de Tóquio” e “reportagem documental”, agilizam os fluxos de trabalho criativos.
3. Física aprimorada e realismo emocional
O Wan 2.2 demonstra melhorias significativas na simulação de fenômenos do mundo real e microexpressões humanas:
- Simulação de física para dinâmica de fluidos naturais, iluminação volumétrica e efeitos de colisão.
- Captura de microexpressões faciais, reproduzindo sinais sutis como lábios trêmulos, sobrancelhas se mexendo e lágrimas reprimidas com alta fidelidade.
- Manuseio de cena multi-pessoa, garantindo interações coerentes e iluminação consistente em personagens em movimento.
Variantes do modelo e desempenho
A versão Wan 2.2 inclui:
- Wan 2.2‑T2V‑A14B: Texto para vídeo
- Wan 2.2‑I2V‑A14B: Imagem para vídeo
- Wan 2.2‑IT2V‑5B: Um modelo unificado compacto de 5 bilhões de parâmetros que se adapta a GPUs de nível de consumidor, Unified Generation
A variante 5B utiliza um VAE 3D de alta compressão para redução de token de espaço de tempo de 4×16×16, permitindo uma saída suave de 1080p mesmo em hardware modesto.
O pacote Wan 2.2 inclui duas ofertas principais projetadas para diferentes casos de uso:
Modelo MoE de 14 parâmetros B (Wan 2.2-T2V-A14B e Wan 2.2-I2V-A14B)
- Emprega a arquitetura MoE completa para máxima qualidade.
- Suporta fluxos de trabalho de texto para vídeo e imagem para vídeo com resolução de até 1080p.
- Ideal para produção e pesquisa em nível de estúdio.
Modelo unificado denso de 5 parâmetros (Wan 2.2-IT2V-5B)
- Um modelo compacto e voltado para o desempenho, implantável em uma única GPU de nível de consumidor (por exemplo, NVIDIA RTX 4090).
- Gera vídeos de 720p e 24 fps em minutos, aproveitando um VAE 3D de alta compressão para obter redução de amostragem temporal e espacial de 4×16×16 com perda mínima de qualidade.
- Reduz a barreira para amadores e pequenas equipes experimentarem a geração de vídeos por IA.
Os benchmarks indicam que o modelo menor pode entregar um clipe de alta definição de 5 segundos em menos de cinco minutos em hardware de jogo padrão, tornando o Wan 2.2 uma das soluções de código aberto mais rápidas de sua classe.
Acessibilidade e compromisso com o código aberto
Em linha com o compromisso do Alibaba de democratizar a IA, o Wan 2.2 é totalmente de código aberto e acessível gratuitamente por meio de várias plataformas:
- GitHub e Abraço de Rosto para downloads diretos de modelos e códigos.
- Comunidade Moda para extensões e integrações conduzidas pela comunidade.
- API BaiLian da Alibaba Cloud para hospedagem de modelo sob demanda de nível empresarial.
- Site e aplicativo Tongyi Wanxiang para experimentação sem código e baseada em navegador.
Desde o início de 2025, a série Wan acumulou mais de 5 milhões de downloads na comunidade de código aberto, destacando seu papel no fomento da inovação colaborativa e do desenvolvimento de habilidades entre profissionais de IA em todo o mundo.
Implicações da indústria
O lançamento do Wan 2.2 marca um momento crucial na produção cinematográfica e na criação de conteúdo assistidas por IA:
Potencial Comercial: Marcas, anunciantes e plataformas de mídia social podem se beneficiar da prototipagem rápida de ativos de vídeo, anúncios criativos personalizados e formatos dinâmicos de narrativa.
Reduzindo Barreiras: Profissionais e criadores independentes agora podem obter produção de vídeo quase em nível de estúdio sem licenças caras de hardware ou software.
Catalisador de Inovação: O código aberto de um modelo de vídeo generativo baseado em MoE acelera a colaboração em pesquisas, potencialmente gerando novas arquiteturas e ferramentas artísticas.
Começando a jornada
A CometAPI é uma plataforma de API unificada que agrega mais de 500 modelos de IA de provedores líderes — como a série GPT da OpenAI, a Gemini do Google, a Claude da Anthropic, a Midjourney e a Suno, entre outros — em uma interface única e amigável ao desenvolvedor. Ao oferecer autenticação, formatação de solicitações e tratamento de respostas consistentes, a CometAPI simplifica drasticamente a integração de recursos de IA em seus aplicativos. Seja para criar chatbots, geradores de imagens, compositores musicais ou pipelines de análise baseados em dados, a CometAPI permite iterar mais rapidamente, controlar custos e permanecer independente de fornecedores — tudo isso enquanto aproveita os avanços mais recentes em todo o ecossistema de IA.
A integração mais recente, Wan 2.2, aparecerá em breve no CometAPI, então fique ligado! Enquanto finalizamos o upload do modelo Gemini 2.5 Flash-Lite, explore nossos outros modelos na página Modelos ou experimente-os no AI Playground.
Enquanto esperam, os desenvolvedores podem acessar API do Veo 3 e API de vídeo Midjourney através de CometAPI Para gerar vídeo em vez da WAN 2.2, as versões mais recentes dos modelos Claude listadas são as da data de publicação do artigo. Para começar, explore os recursos do modelo no Playground e consulte o Guia de API para obter instruções detalhadas. Antes de acessar, certifique-se de ter feito login no CometAPI e obtido a chave da API. CometAPI oferecem um preço muito mais baixo que o preço oficial para ajudar você a se integrar.
Em resumo, o Wan 2.2 do Alibaba não apenas avança o estado da arte em IA de vídeo, mas também exemplifica como ecossistemas de código aberto podem acelerar o progresso e diversificar os casos de uso. À medida que os desenvolvedores começam a experimentar sua estrutura MoE e seus controles cinematográficos, a próxima onda de conteúdo em vídeo gerado por IA pode muito bem emergir das mesmas comunidades que o Alibaba ajudou a fortalecer.
