Alibaba presenta Wan 2.2: el primer modelo de generación de vídeo MoE de código abierto del mundo

La Academia DAMO de Alibaba se lanzó oficialmente hoy Wan 2.2, un conjunto de modelos de generación de vídeo de código abierto de última generación creados sobre una Mezcla de expertos (MoE) Arquitectura. Wan 2.2 promete mejoras revolucionarias en eficiencia computacional, fidelidad de movimiento y expresividad cinematográfica, lo que permite a desarrolladores y creadores generar videos de alta calidad de 1080p a partir de indicaciones de texto o imágenes con un control y una flexibilidad sin precedentes. Wan 2.2 ofrece mejoras significativas en calidad de movimiento, detalle visual y eficiencia computacional en comparación con su predecesor, Wan 2.1.

Innovaciones clave en Wan 2.2

1. Canalización de eliminación de ruido impulsada por el Ministerio de Educación

En subredes, el sistema puede asignar recursos donde más importan: desde un diseño general para la escena hasta un refinamiento minucioso de los detalles. Este diseño permite que el modelo insignia de Wan 2.2 cuente con 27 14 millones de parámetros totales, activando solo XNUMX XNUMX millones por pasada de inferencia, lo que reduce a la mitad los recursos computacionales necesarios para la síntesis de vídeo de alta calidad.

Experto en ruidos fuertes Se centra en establecer las trayectorias generales del movimiento y la composición de la escena.
Experto en bajo nivel de ruido Aplica texturas meticulosas, detalles faciales y matices de iluminación.

Este marco de doble experto garantiza que los creadores puedan generar secuencias más largas y complejas con fidelidad cinematográfica profesional, todo ello sin aumentar proporcionalmente las demandas de memoria de la GPU en comparación con Wan 2.1.

2. Sistema de control estético cinematográfico

Basándose en sus innovaciones arquitectónicas, introduce un "Sistema de Control de Estética Cinematográfica" sin precedentes que permite a los usuarios controlar la iluminación, la gradación de color, los ángulos de cámara y la composición mediante intuitivas indicaciones de palabras clave. Al combinar descriptores como "resplandor del atardecer", "luz tenue del borde" o "composición equilibrada con ángulo bajo", los creadores pueden generar automáticamente escenas que evocan éxitos de taquilla de Hollywood o películas independientes. Por otro lado, parámetros como "tonos fríos", "iluminación intensa" y "encuadre dinámico" producen imágenes de ciencia ficción o cine negro a la carta.

Por primera vez en modelos de video de IA de código abierto, Wan 2.2 integra un interfaz de control de calidad cinematográfica:

Más de 60 parámetros ajustables cubriendo iluminación, gradación de color, encuadre, efectos de lente y profundidad de campo.
Enlace de estilo inteligente, permitiendo a los usuarios describir estados de ánimo (por ejemplo, “iluminación oscura al anochecer”) y hacer que el sistema configure automáticamente configuraciones complejas de cámara y color.
Ajustes predefinidos cinematográficos, como el “western clásico”, la “ciencia ficción neo-Tokio” y el “reportaje documental”, agilizan los flujos de trabajo creativos.

3. Física mejorada y realismo emocional

Wan 2.2 demuestra mejoras notables en la simulación de fenómenos del mundo real y microexpresiones humanas:

Simulación de física para dinámica de fluidos naturales, iluminación volumétrica y efectos de colisión.
Captura de microexpresiones faciales, reproduciendo señales sutiles como labios temblorosos, movimientos de cejas y lágrimas contenidas con alta fidelidad.
Manejo de escenas con varias personas, garantizando interacciones coherentes y una iluminación consistente en todos los personajes en movimiento.

Variantes del modelo y rendimiento

La versión 2.2 de Wan incluye:

Wan 2.2‑T2V‑A14B: Texto a vídeo
Wan 2.2‑I2V‑A14B: Imagen a vídeo
Wan 2.2‑IT2V‑5B:Un modelo unificado compacto de 5 mil millones de parámetros que se adapta a las GPU de consumo, Generación Unificada

La variante 5B aprovecha un VAE 3D de alta compresión para una reducción de tokens de tiempo y espacio de 4×16×16, lo que permite una salida fluida de 1080p incluso en hardware modesto.

La suite Wan 2.2 incluye dos ofertas principales diseñadas para diferentes casos de uso:

Modelo MoE de 14B parámetros (Wan 2.2-T2V-A14B y Wan 2.2-I2V-A14B)

Emplea la arquitectura MoE completa para lograr la máxima calidad.
Admite flujos de trabajo de texto a vídeo y de imagen a vídeo con una resolución de hasta 1080p.
Ideal para producción e investigación a nivel de estudio.

Modelo unificado denso de parámetros 5B (Wan 2.2-IT2V-5B)

Un modelo compacto y orientado al rendimiento que se puede implementar en una sola GPU de consumo (por ejemplo, NVIDIA RTX 4090).
Genera videos de 720p, 24 fps en minutos, aprovechando un VAE 3D de alta compresión para lograr un muestreo temporal y espacial de 4×16×16 con una pérdida mínima de calidad.
Reduce la barrera para que los aficionados y los equipos pequeños experimenten con la generación de videos con IA.

Los puntos de referencia indican que el modelo más pequeño puede ofrecer un clip de alta definición de 5 segundos en menos de cinco minutos en hardware de juegos estándar, lo que convierte a Wan 2.2 en una de las soluciones de código abierto más rápidas de su clase.

Accesibilidad y compromiso con el código abierto

En consonancia con el compromiso de Alibaba de democratizar la IA, Wan 2.2 es totalmente de código abierto y de libre acceso a través de múltiples plataformas:

GitHub y Hugging Face para descargas directas de modelos y códigos.
Comunidad de Moda para extensiones e integraciones impulsadas por la comunidad.
API de BaiLian de Alibaba Cloud para alojamiento de modelos bajo demanda de nivel empresarial.
Sitio web y aplicación de Tongyi Wanxiang para experimentación sin código y basada en navegador.

Desde principios de 2025, la serie Wan ha acumulado más de 5 millones de descargas en la comunidad de código abierto, lo que subraya su papel en el fomento de la innovación colaborativa y el desarrollo de habilidades entre los profesionales de IA a nivel mundial.

Implicaciones de la industria

El lanzamiento de Wan 2.2 marca un momento crucial en la realización de películas y la creación de contenido asistida por IA:

Potencial comercial: Las marcas, los anunciantes y las plataformas de redes sociales pueden beneficiarse de la creación rápida de prototipos de recursos de video, creatividades publicitarias personalizadas y formatos de narración dinámicos.

Reducir las barreras: Los profesionales y creadores independientes ahora pueden lograr una producción de video cercana al nivel de un estudio sin necesidad de costosas licencias de hardware o software.

Catalizador de innovación: La publicación de código abierto de un modelo de vídeo generativo basado en MoE acelera la colaboración en investigación, lo que potencialmente genera nuevas arquitecturas y herramientas artísticas.

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

La última integración Wan 2.2 aparecerá pronto en CometAPI, ¡así que estad atentos! Mientras finalizamos la carga del modelo Gemini 2.5 Flash-Lite, explora nuestros otros modelos en la página de Modelos o pruébalos en AI Playground.

Mientras esperan, los desarrolladores pueden acceder API de Veo 3 y API de vídeo de Midjourney atravesar CometAPI Para generar video en lugar de WAN 2.2, las últimas versiones de los modelos Claude mencionadas corresponden a la fecha de publicación del artículo. Para comenzar, explore las capacidades del modelo en... Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

En resumen, Wan 2.2 de Alibaba no solo supone un avance en la vanguardia de la IA de video, sino que también ejemplifica cómo los ecosistemas de código abierto pueden acelerar el progreso y diversificar los casos de uso. A medida que los desarrolladores comiencen a experimentar con su estructura MoE y sus controles cinematográficos, la próxima ola de contenido de video generado por IA bien podría surgir de las mismas comunidades que Alibaba ha ayudado a impulsar.

Leer Más

500+ Modelos en Una API