Alibaba представляет Wan 2.2: первую в мире модель генерации видео MoE с открытым исходным кодом

Сегодня официально запущена Академия DAMO от Alibaba Ван 2.2, набор моделей генерации видео с открытым исходным кодом нового поколения, построенный на Группа экспертов (MoE) Архитектура. Wan 2.2 обещает революционные улучшения в вычислительной эффективности, точности воспроизведения движения и кинематографической выразительности, позволяя разработчикам и создателям создавать высококачественные видеоролики 1080p из текстовых или графических запросов с беспрецедентным контролем и гибкостью. Wan 2.2 обеспечивает значительный прирост качества движения, визуальной детализации и вычислительной эффективности по сравнению с предшественником Wan 2.1.

Ключевые инновации в Wan 2.2

1. Конвейер шумоподавления с управлением MoE

Благодаря подсетям система может распределять ресурсы там, где они наиболее важны — сначала общие контуры для компоновки сцены, а затем детализация деталей. Такая конструкция позволяет флагманской модели Wan 2.2 поддерживать 27 миллиардов параметров, активируя при этом всего 14 миллиардов за один проход вывода, что фактически вдвое сокращает вычислительные ресурсы, необходимые для высококачественного синтеза видео.

Эксперт по высокому уровню шума фокусируется на установлении общих траекторий движения и композиции сцены.
Эксперт по низкому уровню шума тщательно прорабатывает текстуру, детали лица и нюансы освещения.

Эта двухэкспертная платформа гарантирует, что создатели смогут создавать более длинные и сложные последовательности с профессиональной кинематографической точностью — и все это без пропорционального увеличения требований к памяти графического процессора по сравнению с Wan 2.1.

2. Система управления кинематографической эстетикой

Опираясь на свои архитектурные инновации, компания представляет беспрецедентную «Систему управления эстетикой кино», которая позволяет пользователям управлять освещением, цветокоррекцией, ракурсами и композицией с помощью интуитивно понятных ключевых слов. Комбинируя такие характеристики, как «закатное сияние», «мягкий контурный свет» или «сбалансированная композиция с низким углом обзора», создатели могут автоматически создавать сцены, напоминающие голливудские блокбастеры или независимое артхаусное кино. И наоборот, такие параметры, как «холодные тона», «жесткое освещение» и «динамическое кадрирование», позволяют создавать визуальные эффекты в стиле научной фантастики или нуар по запросу.

Впервые в моделях видео с открытым исходным кодом ИИ, Wan 2.2 интегрирует интерфейс управления качеством пленки:

60+ настраиваемых параметров охватывающие освещение, цветокоррекцию, кадрирование, эффекты объектива и глубину резкости.
Умный стиль ссылок, что позволяет пользователям описывать настроение (например, «темное освещение в сумерках») и позволяет системе автоматически настраивать сложные настройки камеры и цвета.
Предустановленные кинематографические настройки, такие как «винтажный вестерн», «неотокийская научная фантастика» и «документальный репортаж», оптимизируют творческие рабочие процессы.

3. Улучшенная физика и эмоциональный реализм

Wan 2.2 демонстрирует заметные улучшения в моделировании явлений реального мира и микровыражений человеческого лица:

Физическое моделирование для естественной динамики жидкости, объемного освещения и эффектов столкновений.
Захват микровыражений лица, с высокой точностью передавая такие тонкие сигналы, как дрожание губ, движение бровей и сдерживаемые слезы.
Обработка сцен с участием нескольких человек, обеспечивая последовательное взаимодействие и равномерное освещение движущихся персонажей.

Варианты моделей и производительность

Релиз Wan 2.2 включает в себя:

Ван 2.2‑T2V‑A14B: Текст в видео
Ван 2.2‑I2V‑A14B: Изображение в видео
Ван 2.2‑IT2V‑5B: Компактная унифицированная модель с 5 миллиардами параметров, подходящая для графических процессоров потребительского уровня, унифицированное поколение

Вариант 5B использует технологию 3D VAE с высокой степенью сжатия для сокращения количества токенов времени и пространства до 4×16×16, что обеспечивает плавный вывод в формате 1080p даже на скромном оборудовании.

Пакет Wan 2.2 включает два основных предложения, разработанных для различных вариантов использования:

14B-параметрическая модель MoE (Wan 2.2-T2V-A14B и Wan 2.2-I2V-A14B)

Использует полную архитектуру MoE для максимального качества.
Поддерживает рабочие процессы преобразования текста в видео и изображения в видео с разрешением до 1080p.
Идеально подходит для студийного производства и исследований.

5B-параметрическая плотная унифицированная модель (Wan 2.2-IT2V-5B)

Компактная, ориентированная на производительность модель, развертываемая на одном графическом процессоре потребительского уровня (например, NVIDIA RTX 4090).
Генерирует видео в формате 720p, 24 кадра в секунду за считанные минуты, используя технологию 3D VAE с высокой степенью сжатия для достижения временной и пространственной субдискретизации 4×16×16 с минимальной потерей качества.
Снижает барьеры для любителей и небольших групп, желающих экспериментировать с генерацией видео с помощью ИИ.

Тесты показывают, что младшая модель способна воспроизвести 5-секундный ролик высокой четкости менее чем за пять минут на стандартном игровом оборудовании, что делает Wan 2.2 одним из самых быстрых решений с открытым исходным кодом в своем классе.

Доступность и приверженность открытому исходному коду

В соответствии с обещанием Alibaba демократизировать ИИ, Wan 2.2 имеет полностью открытый исходный код и доступен бесплатно на нескольких платформах:

GitHub и обнимающее лицо для прямой загрузки модели и кода.
Сообщество моды для расширений и интеграций, инициированных сообществом.
API Alibaba Cloud BaiLian для корпоративного уровня, хостинга по требованию.
Веб-сайт и приложение Tongyi Wanxiang для экспериментов в браузере без написания кода.

С начала 2025 года серия Wan собрала более 5 миллионов загрузок в сообществе разработчиков ПО с открытым исходным кодом, что подчеркивает ее роль в содействии совместным инновациям и развитию навыков среди специалистов по ИИ по всему миру.

Отраслевые последствия

Выпуск Wan 2.2 знаменует собой поворотный момент в развитии кинопроизводства и создания контента с использованием ИИ:

Коммерческий потенциал: Бренды, рекламодатели и платформы социальных сетей могут выиграть от быстрого создания прототипов видеоматериалов, персонализированных рекламных креативов и динамических форматов повествования.

Снижение барьеров: Профессионалы и независимые создатели контента теперь могут добиться видеопроизводства почти студийного уровня без дорогостоящих лицензий на оборудование или программное обеспечение.

Катализатор инноваций: Открытый исходный код генеративной видеомодели на базе MoE ускоряет научное сотрудничество, потенциально порождая новые архитектуры и художественные инструменты.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Последняя интеграция Wan 2.2 скоро появится на CometAPI, так что следите за новостями! Пока мы завершаем загрузку модели Gemini 2.5 Flash‑Lite, изучите другие наши модели на странице «Модели» или опробуйте их в AI Playground.

Во время ожидания разработчики могут получить доступ API Veo3 и API видео в середине пути через CometAPI Для генерации видео вместо WAN 2.2 указаны последние версии моделей Claude на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Подводя итог, можно сказать, что Wan 2.2 от Alibaba не только продвигает передовые технологии в области видеоискусственного интеллекта, но и демонстрирует, как экосистемы с открытым исходным кодом могут ускорить прогресс и диверсифицировать варианты использования. По мере того, как разработчики начнут экспериментировать с базовой платформой MoE и элементами управления кинематографией, следующая волна видеоконтента, генерируемого ИИ, вполне может появиться в тех самых сообществах, которым Alibaba помогла расширить возможности.