阿里巴巴達摩院今日正式發布 萬 2.2,這是基於 混合專家(MoE) 架構。 Wan 2.2 承諾在計算效率、運動保真度和電影表現力方面實現突破性改進,使開發人員和創作者能夠以前所未有的控制力和靈活性,從文字或圖像提示生成高品質的 1080p 影片。與其前身 Wan 2.2 相比,Wan 2.1 在運動品質、視覺細節和運算效率方面均有顯著提升。
Wan 2.2 的關鍵創新
1. MoE 驅動的去噪流程
透過子網絡,系統可以將資源分配到最重要的地方——先進行場景佈局的粗略規劃,然後再進行精細的細節細化。這種設計使 Wan 2.2 的旗艦模型擁有 27 億個總參數,而每次推理僅需激活 14 億個參數,從而有效地將高品質視訊合成所需的計算資源減少了一半。
- 高噪音專家 著重建立整體運動軌跡和場景構圖。
- 低噪音專家 應用細緻的紋理、臉部細節和燈光細微差別。
這種雙專家框架確保創作者能夠產生更長、更複雜的序列,並具有專業的電影保真度——與 Wan 2.1 相比,所有這些都不會按比例增加 GPU 記憶體需求。
2. 電影美學控制系統
基於其架構創新,它引入了前所未有的“電影美學控制系統”,允許用戶透過直觀的關鍵字提示來控制燈光、調色、拍攝角度和構圖。透過組合「夕陽餘暉」、「柔和邊緣光」或「低角度平衡構圖」等描述詞,創作者可以自動產生類似好萊塢大片或獨立藝術電影的場景。相反,輸入「冷色調」、「硬光」和「動態取景」等參數,則可以根據需求創作出科幻或黑色電影風格的視覺效果。
Wan 2.2 首次在開源 AI 視訊模型中整合了 膠片級控制介面:
- 60+個可調參數 涵蓋燈光、色彩分級、取景、鏡頭效果和景深。
- 智慧樣式連結,允許使用者描述心情(例如「黃昏時的黑光」)並讓系統自動配置複雜的相機和顏色設定。
- 預先定義的電影預設諸如「復古西部片」、「新東京科幻片」和「紀實報道片」等題材,簡化了創作工作流程。
3. 增強物理和情感真實感
Wan 2.2 在模擬現實世界現象和人類微表情方面表現出了顯著的進步:
- 物理模擬 用於自然流體動力學、體積照明和碰撞效果。
- 臉部微表情捕捉,高度逼真地呈現顫抖的嘴唇、眉毛的移動和抑制的淚水等細微的暗示。
- 多人場景處理,確保移動角色之間的互動連貫且光照一致。
模型變體和性能
Wan 2.2 版本包括:
- 萬 2.2‑T2V‑A14B:文字轉視頻
- 萬 2.2‑I2V‑A14B:圖像轉視頻
- 萬 2.2‑IT2V‑5B:適用於消費級 GPU 的緊湊型 5 億參數統一模型,統一生成
5B 變體利用高壓縮 3D VAE 進行 4×16×16 時空標記減少 - 即使在普通硬體上也能實現流暢的 1080p 輸出。
Wan 2.2 套件包括兩個針對不同用例設計的核心產品:
14B 參數 MoE 模型(Wan 2.2-T2V-A14B 和 Wan 2.2-I2V-A14B)
- 採用完整的 MoE 架構以實現最高品質。
- 支援高達 1080p 解析度的文字到視訊和圖像到視訊的工作流程。
- 非常適合工作室級的製作和研究。
5B參數密集統一模型(Wan 2.2-IT2V-5B)
- 可在單一消費級 GPU(例如 NVIDIA RTX 4090)上部署的緊湊、以效能為導向的模型。
- 在幾分鐘內生成 720p、24 fps 的視頻,利用高壓縮 3D VAE 實現 4×16×16 時間和空間下採樣,同時最大程度地減少質量損失。
- 降低了業餘愛好者和小團隊嘗試 AI 影片生成的門檻。
基準測試表明,較小型號可以在標準遊戲硬體上用不到五分鐘的時間提供 5 秒的高清剪輯,這使得 Wan 2.2 成為同類產品中速度最快的開源解決方案之一。
可訪問性和開源承諾
為實踐阿里巴巴推動人工智慧大眾化的承諾,Wan 2.2 完全開源,可透過多個平台免費存取:
- GitHub 和 Hugging Face 用於直接下載模型和程式碼。
- Moda 社區 用於社區驅動的擴展和整合。
- 阿里雲百聯API 用於企業級、按需模型託管。
- 統一萬向網站及App 用於無程式碼、基於瀏覽器的實驗。
自 2025 年初以來,Wan 系列在開源社群的下載量已超過 5 萬次,凸顯了其在促進全球人工智慧從業者的協作創新和技能發展方面發揮的作用。
產業影響
Wan 2.2 的發布標誌著 AI 輔助電影製作和內容創作的關鍵時刻:
商業潛力: 品牌、廣告商和社群媒體平台將從影片資產的快速原型設計、個人化廣告創意和動態敘事格式中受益。
降低門檻: 專業人士和獨立創作者現在無需昂貴的硬體或軟體許可證即可實現接近工作室級別的影片製作。
創新催化劑: 開源基於 MoE 的生成視訊模型可加速研究合作,並可能催生新的架構和藝術工具。
入門
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
最新的整合 Wan 2.2 很快就會出現在 CometAPI 上,敬請期待!在我們完成 Gemini 2.5 Flash-Lite 模型上傳的同時,您可以在模型頁面上探索我們的其他模型,或在 AI Playground 中嘗試它們。
在等待期間,開發人員可以訪問 Veo 3 API 旅程中影片 API 通過 彗星API 生成視頻,而不是使用 WAN 2.2,列出的最新 Claude 模型版本截至本文發布日期。首先,探索該模型在 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 彗星API 提供遠低於官方價格的價格,幫助您整合。
總而言之,阿里巴巴的 Wan 2.2 不僅推動了視訊 AI 領域的發展,也展現了開源生態系統如何加速進步並豐富用例。隨著開發者開始嘗試其 MoE 主幹和劇院級控制,下一波 AI 產生的影片內容很可能就誕生於阿里巴巴協助賦能的社群。
