Alibaba’s DAMO Academy 今日正式发布 Wan 2.2,这是一套基于 专家混合(MoE) 架构的下一代开源视频生成模型。Wan 2.2 在计算效率、运动保真度与电影化表现力方面实现突破性提升——使开发者与创作者能够以前所未有的可控性与灵活性,从文本或图像提示生成高质量 1080p 视频。Wan 2.2 相较于其前代 Wan 2.1,在运动质量、视觉细节与计算效率上均带来显著提升。
Wan 2.2 的关键创新
1. 由 MoE 驱动的去噪管线
通过专业化的子网络,系统可以将资源分配到最重要的环节——先以“大笔触”完成场景布局,再进行细粒度的细节精修。该设计使 Wan 2.2 的旗舰模型拥有总计 270 亿参数,但每次推理仅激活 140 亿参数,有效将高质量视频合成所需的计算资源减半。
- 高噪声专家 侧重于确立整体运动轨迹与场景构图。
- 低噪声专家 负责精致的纹理、面部细节与光照微妙变化。
这种双专家框架确保创作者能够以专业级电影质感生成更长、更复杂的序列——且与 Wan 2.1 相比,无需按比例增加 GPU 显存需求。
2. 电影美学控制系统
在架构创新的基础上,它引入前所未有的“电影美学控制系统”,允许用户通过直观的关键词提示来操控光照、调色、机位与构图。通过组合“夕阳余晖”“柔和轮廓光”或“低机位均衡构图”等描述,创作者即可自动生成颇具好莱坞商业大片或独立艺术电影风格的场景。相应地,输入诸如“冷色调”“硬光照”和“动态取景”等描述,则可按需生成科幻或黑色电影风格的视觉。
作为开源 AI 视频模型中的首次,Wan 2.2 集成了 电影级控制界面:
- 60+ 个可调参数,覆盖光照、调色、构图/取景、镜头效果与景深。
- 智能风格联动,用户只需描述氛围(如“黄昏时的黑色电影布光”),系统即可自动配置复杂的机位与调色方案。
- 预设电影风格,如“复古西部片”“新东京科幻”“纪实报道”,以简化创作流程。
3. 增强的物理与情感真实感
Wan 2.2 在模拟现实世界现象与人类微表情方面显著提升:
- 物理模拟:更自然的流体动力学、体积光与碰撞效果。
- 面部微表情捕捉:高保真呈现颤抖的嘴唇、眉部变化与强忍的泪水等细微线索。
- 多人物场景处理:保障移动角色之间的交互连贯与光照一致性。
模型变体与性能
Wan 2.2 发布包含:
- Wan 2.2‑T2V‑A14B:Text‑to‑Video
- Wan 2.2‑I2V‑A14B:Image‑to‑Video
- Wan 2.2‑IT2V‑5B:一款紧凑的 50 亿参数统一模型,可适配消费级 GPU,统一生成
该 5B 变体采用高压缩 3D VAE,将时空 token 压缩至 4×16×16,从而即便在入门级硬件上也能流畅输出 1080p。
Wan 2.2 套件面向不同场景提供两项核心方案:
140 亿参数 MoE 模型(Wan 2.2‑T2V‑A14B & Wan 2.2‑I2V‑A14B)
- 采用完整 MoE 架构以获得最高质量。
- 支持 Text‑to‑Video 与 Image‑to‑Video 工作流,最高至 1080p 分辨率。
- 适合工作室级制作与研究。
50 亿参数稠密统一模型(Wan 2.2‑IT2V‑5B)
- 紧凑、性能导向,可在单块消费级 GPU(如 NVIDIA RTX 4090)上部署。
- 数分钟内生成 720p、24 fps 视频,借助高压缩 3D VAE 实现 4×16×16 时空下采样,画质损失极小。
- 降低爱好者与小型团队开展 AI 视频生成实验的门槛。
基准测试显示,在标准游戏硬件上,该小型模型可在 5 分钟内生成一段 5 秒的高清片段,使 Wan 2.2 成为同类中最快的开源方案之一。
可及性与开源承诺
遵循 Alibaba 对普惠 AI 的承诺,Wan 2.2 全面开源,并可通过多种平台免费获取:
- GitHub 与 Hugging Face:直接下载模型与代码。
- Moda Community:由社区驱动的扩展与集成。
- Alibaba Cloud BaiLian API:面向企业级、按需的模型托管。
- Tongyi Wanxiang Website & App:零代码、基于浏览器的试用体验。
自 2025 年初以来,Wan 系列在开源社区累计下载量已超过 500 万次,凸显其在推动全球 AI 从业者协作创新与技能发展的作用。
行业影响
Wan 2.2 的发布标志着 AI 辅助电影制作与内容创作的关键时刻:
商业潜力: 品牌、广告主与社交媒体平台可从视频资产的快速原型制作、个性化广告创意与动态叙事形式中受益。
降低门槛: 专业人士与独立创作者无需昂贵硬件或软件许可,即可实现接近工作室水准的视频制作。
创新催化剂: 将基于 MoE 的生成式视频模型开源将加速研究协作,潜在催生新架构与艺术工具。
入门指南
CometAPI 是一个统一的 API 平台,将来自领先提供商的 500+ 款 AI 模型(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)汇聚到一个对开发者友好的界面中。通过提供一致的身份验证、请求格式与响应处理,CometAPI 大幅简化了将 AI 能力集成到应用中的流程。无论你在构建聊天机器人、图像生成器、音乐创作工具,还是数据驱动的分析流水线,CometAPI 都能让你更快迭代、控制成本并保持对厂商的中立,同时触达 AI 生态的最新突破。
最新集成的 Wan 2.2 即将登陆 CometAPI,敬请期待!在我们完成 Gemini 2.5 Flash‑Lite 模型的上传期间,可先在 Models 页面探索其他模型,或在 AI Playground 中试用。
在此期间,开发者可以通过 CometAPI 访问 Veo 3 API 和 Midjourney Video API 来生成视频,以替代 Wan 2.2;文中所列 Claude 模型的最新版本以文章发布之日为准。要开始,请在 Playground 中探索该模型的能力,并查阅 API guide 获取详细说明。访问前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价的费用,助你完成集成。
总之,Alibaba 的 Wan 2.2 不仅推动了视频 AI 的技术前沿,也示范了开源生态如何加速进步并拓展应用场景。随着开发者开始探索其 MoE 骨干与电影化控制,下一波 AI 生成视频内容很可能就将来自 Alibaba 所赋能的这些社区。
