アリババ、世界初のオープンソースMoEビデオ生成モデル「Wan 2.2」を発表

アリババのDAMOアカデミーが本日正式にリリースされました ワン 2.2は、オープンソースのビデオ生成モデルの次世代スイートであり、 専門家の混合（文部科学省） アーキテクチャ。Wan 2.2は、計算効率、モーション忠実度、そして映画のような表現力において飛躍的な向上を実現し、開発者やクリエイターが、かつてないほどのコントロールと柔軟性をもって、テキストや画像のプロンプトから高品質の1080pビデオを生成できるようになります。Wan 2.2は、前身のWan 2.1と比較して、モーション品質、ビジュアルディテール、そして計算効率において大幅な向上を実現しています。

Wan 2.2の主な革新

1. MoE駆動型ノイズ除去パイプライン

サブネットを分割することで、システムは最も重要な部分にリソースを割り当てることができます。つまり、シーンレイアウトの大まかな流れを描き、その後、細部を細かく調整していくのです。この設計により、Wan 2.2のフラッグシップモデルは合計27億個のパラメータを誇りながら、推論パスごとに14億個のパラメータしかアクティブ化せず、高品質な動画合成に必要な計算リソースを実質的に半減させることができます。

高騒音の専門家 全体的な動きの軌跡とシーンの構成を確立することに重点を置いています。
低騒音の専門家 細心の注意を払ったテクスチャ、顔のディテール、照明のニュアンスを適用します。

このデュアルエキスパートフレームワークにより、クリエイターは、Wan 2.1 と比較して GPU メモリの需要が比例して増加することなく、プロフェッショナルな映画の忠実度で、より長く複雑なシーケンスを生成できるようになります。

2. 映画美学制御システム

建築における革新を基盤に、これまでにない「映画美学制御システム」を導入。ユーザーは直感的なキーワードプロンプトを通じて、照明、カラーグレーディング、カメラアングル、構図を自在に操ることができます。「夕焼けの輝き」「ソフトリムライト」「ローアングルのバランス構図」といったキーワードを組み合わせることで、クリエイターはハリウッド大作やインディーズアート映画を彷彿とさせるシーンを自動的に生成できます。逆に、「クールトーン」「ハードライティング」「ダイナミックフレーミング」といったキーワードを入力することで、SFやノワール調の映像をオンデマンドで生成できます。

オープンソースのAIビデオモデルとして初めて、Wan 2.2は フィルムグレードのコントロールインターフェース:

60以上の調整可能なパラメータ 照明、カラーグレーディング、フレーミング、レンズ効果、被写界深度などをカバーします。
スマートスタイルのリンクユーザーは、雰囲気（例：「夕暮れ時のノワール照明」）を説明し、システムが複雑なカメラと色の設定を自動的に構成できるようになります。
定義済みのシネマティックプリセット「ヴィンテージウエスタン」、「ネオ東京 SF」、「ドキュメンタリールポルタージュ」などのテーマにより、クリエイティブなワークフローが効率化されます。

3. 強化された物理演算と感情的リアリズム

Wan 2.2 では、現実世界の現象や人間の微妙な表情のシミュレーションにおいて顕著な改善が見られます。

物理シミュレーション 自然な流体力学、ボリュームライティング、衝突効果を実現します。
顔の微表情キャプチャ唇の震え、眉の動き、抑えられた涙などの微妙な動きを高い忠実度で再現します。
複数人によるシーン処理動くキャラクター間で一貫したインタラクションと一貫した照明を確保します。

モデルバリエーションとパフォーマンス

Wan 2.2 リリースには以下が含まれます。

ワン 2.2-T2V-A14B: テキストからビデオへ
ワン 2.2‑I2V‑A14B: 画像からビデオへ
ワン 2.2‑IT2V‑5B: 消費者向けGPUに適合するコンパクトな5億パラメータの統合モデル、Unified Generation

5B バリアントは、3×4×16 の時空間トークン削減に高圧縮 16D VAE を活用し、控えめなハードウェアでもスムーズな 1080p 出力を実現します。

Wan 2.2 スイートには、異なるユースケース向けに設計された XNUMX つのコア製品が含まれています。

14BパラメータMoEモデル（Wan 2.2-T2V-A14BおよびWan 2.2-I2V-A14B）

最高の品質を実現するために完全な MoE アーキテクチャを採用しています。
最大 1080p の解像度で、テキストからビデオへのワークフローと画像からビデオへのワークフローの両方をサポートします。
スタジオレベルの制作や研究に最適です。

5Bパラメータ稠密統一モデル（Wan 2.2-IT2V-5B）

単一のコンシューマーグレード GPU (NVIDIA RTX 4090 など) に展開可能なコンパクトでパフォーマンス重視のモデル。
高圧縮 720D VAE を活用して、品質の低下を最小限に抑えながら 24×3×4 の時間的および空間的なダウンサンプリングを実現し、16p、16 fps のビデオを数分で生成します。
趣味人や小規模チームが AI ビデオ生成を試す際の障壁を下げます。

ベンチマークによれば、小型モデルでも標準的なゲーミングハードウェアで 5 秒の高解像度クリップを 2.2 分以内に配信できるため、Wan XNUMX は同クラスで最も高速なオープンソースソリューションの XNUMX つとなっています。

アクセシビリティとオープンソースへの取り組み

AI を民主化するという Alibaba の誓約に沿って、Wan 2.2 は完全にオープンソースであり、複数のプラットフォームから自由にアクセスできます。

GitHubとHugging Face モデルとコードを直接ダウンロードします。
Modaコミュニティ コミュニティ主導の拡張機能と統合。
アリババクラウド百連API エンタープライズグレードのオンデマンドモデルホスティング向け。
同義万祥のウェブサイトとアプリ コード不要のブラウザベースの実験用。

2025 年初頭以来、Wan シリーズはオープンソースコミュニティ全体で 5 万回以上のダウンロードを記録しており、世界中の AI 実践者の間で共同イノベーションとスキル開発を促進する役割を強調しています。

業界への影響

Wan 2.2 のリリースは、AI 支援による映画制作とコンテンツ作成において極めて重要な瞬間となります。

商業的可能性: ブランド、広告主、ソーシャルメディアプラットフォームは、ビデオアセット、パーソナライズされた広告クリエイティブ、動的なストーリーテリング形式の迅速なプロトタイピングから利益を得ることができます。

障壁を下げる: プロフェッショナルや独立系クリエイターは、高価なハードウェアやソフトウェアのライセンスなしで、スタジオレベルに近いビデオ制作を実現できるようになりました。

イノベーションの触媒: MoE ベースの生成ビデオモデルをオープンソース化することで、研究のコラボレーションが加速し、新しいアーキテクチャや芸術的なツールが生まれる可能性が高まります。

スタートガイド

CometAPIは、OpenAIのGPTシリーズ、GoogleのGemini、AnthropicのClaude、Midjourney、Sunoなど、主要プロバイダーの500以上のAIモデルを、開発者にとって使いやすい単一のインターフェースに統合する統合APIプラットフォームです。一貫した認証、リクエストフォーマット、レスポンス処理を提供することで、CometAPIはAI機能をアプリケーションに統合することを劇的に簡素化します。チャットボット、画像ジェネレーター、音楽作曲ツール、データドリブン分析パイプラインなど、どのようなアプリケーションを構築する場合でも、CometAPIを利用することで、反復処理を高速化し、コストを抑え、ベンダーに依存しない環境を実現できます。同時に、AIエコシステム全体の最新のブレークスルーを活用できます。

最新の統合 Wan 2.2 はまもなく CometAPI に登場しますので、お楽しみに！Gemini 2.5 Flash‑Lite モデルのアップロードが完了するまで、モデルページで他のモデルを調べたり、AI プレイグラウンドで試したりしてください。

待っている間、開発者はアクセスすることができます Veo3 APIについておよび旅の途中のビデオ API 　コメットAPI 動画を生成するには、WAN 2.2の代わりにClaude Modelsのバージョンを使用してください。掲載されている最新バージョンは、記事の公開日時点のものです。まずは、モデルの機能について調べてみましょう。プレイグラウンドそして相談する APIガイド詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。コメットAPI 統合を支援するために、公式価格よりもはるかに低い価格を提供します。

まとめると、アリババのWan 2.2は、ビデオAIの最先端技術を進化させるだけでなく、オープンソース・エコシステムがいかに進歩を加速させ、ユースケースを多様化できるかを示す好例と言えるでしょう。開発者がMoEバックボーンとシネマティック・コントロールの実験を始めるにつれ、AI生成ビデオコンテンツの次世代の波は、アリババが支援してきたまさにそのコミュニティから生まれる可能性を秘めています。

もっと読む

1つのAPIで500以上のモデル