علي بابا تكشف عن Wan 2.2: أول نموذج مفتوح المصدر في العالم لتوليد مقاطع فيديو MoE

تم إطلاق أكاديمية DAMO التابعة لشركة علي بابا رسميًا اليوم وان 2.2، مجموعة من الجيل التالي من نماذج توليد الفيديو مفتوحة المصدر المبنية على مزيج من الخبراء (وزارة التعليم) يبشر Wan 2.2 بتحسينات هائلة في كفاءة الحوسبة، ودقة الحركة، والتعبير السينمائي، مما يُمكّن المطورين والمبدعين من إنشاء مقاطع فيديو عالية الجودة بدقة 1080 بكسل من النصوص أو الصور مع تحكم ومرونة غير مسبوقين. يُحقق Wan 2.2 مكاسب كبيرة في جودة الحركة، والتفاصيل المرئية، والكفاءة الحسابية مقارنةً بسابقه Wan 2.1.

الابتكارات الرئيسية في Wan 2.2

1. خط أنابيب إزالة الضوضاء المُدار من قِبل وزارة البيئة

بفضل الشبكات الفرعية، يُمكن للنظام تخصيص الموارد حسب أهميتها - تخطيطات عامة لتخطيط المشهد، متبوعةً بتحسين دقيق للتفاصيل. يُمكّن هذا التصميم طراز Wan 2.2 الرائد من التفاخر بـ 27 مليار معلمة إجمالية، مع تفعيل 14 مليار معلمة فقط لكل تمريرة استدلال، مما يُقلل فعليًا إلى النصف موارد الحوسبة اللازمة لتوليف فيديو عالي الجودة.

خبير الضوضاء العالية يركز على تحديد مسارات الحركة الشاملة وتكوين المشهد.
خبير الضوضاء المنخفضة يطبق نسيجًا دقيقًا وتفاصيل الوجه وفروق الإضاءة.

يضمن إطار العمل المزدوج الخبير هذا أن يتمكن المبدعون من إنشاء تسلسلات أطول وأكثر تعقيدًا بدقة سينمائية احترافية - كل ذلك دون زيادة متطلبات ذاكرة وحدة معالجة الرسومات بشكل متناسب مقارنةً بـ Wan 2.1.

2. نظام التحكم الجمالي السينمائي

بناءً على ابتكاراتها المعمارية، تُقدّم "نظامًا غير مسبوق للتحكم في جماليات الأفلام" يُتيح للمستخدمين التحكم في الإضاءة، وتصنيف الألوان، وزوايا الكاميرا، والتركيب من خلال كلمات مفتاحية بديهية. من خلال الجمع بين أوصاف مثل "توهج غروب الشمس"، أو "إضاءة حافة ناعمة"، أو "تركيب متوازن بزاوية منخفضة"، يُمكن للمُبدعين إنشاء مشاهد تُذكّر بأفلام هوليوود الرائجة أو أفلام الفن المستقلة على حدٍ سواء. في المقابل، تُنتج مُدخلات مثل "درجات الألوان الهادئة"، و"الإضاءة القوية"، و"التأطير الديناميكي" صورًا بصرية مستوحاة من أفلام الخيال العلمي أو أفلام الجريمة عند الطلب.

لأول مرة في نماذج الفيديو للذكاء الاصطناعي مفتوحة المصدر، يدمج Wan 2.2 واجهة التحكم بدرجة الفيلم:

أكثر من 60 معلمة قابلة للتعديل تغطية الإضاءة، وتصنيف الألوان، والتأطير، وتأثيرات العدسات، وعمق المجال.
ربط الأسلوب الذكي، مما يسمح للمستخدمين بوصف الحالة المزاجية (على سبيل المثال، "إضاءة سوداء عند الغسق") وجعل النظام يقوم تلقائيًا بتكوين إعدادات الكاميرا والألوان المعقدة.
الإعدادات السينمائية المحددة مسبقًامثل "الأفلام الغربية الكلاسيكية"، و"الخيال العلمي النيو طوكيو"، و"التقارير الوثائقية"، والتي تعمل على تبسيط سير العمل الإبداعي.

3. تحسين الفيزياء والواقعية العاطفية

يُظهر Wan 2.2 تحسينات ملحوظة في محاكاة الظواهر الواقعية والتعبيرات الدقيقة البشرية:

محاكاة الفيزياء لديناميكيات السوائل الطبيعية والإضاءة الحجمية وتأثيرات الاصطدام.
التقاط تعبيرات الوجه الدقيقة، مما يؤدي إلى إظهار إشارات خفية مثل ارتعاش الشفاه، وتحرك الحاجبين، والدموع المكبوتة بدقة عالية.
التعامل مع المشهد متعدد الأشخاص، مما يضمن تفاعلات متماسكة وإضاءة متسقة عبر الشخصيات المتحركة.

المتغيرات النموذجية والأداء

يتضمن إصدار Wan 2.2 ما يلي:

وان 2.2‑T2V‑A14B: نص إلى فيديو
وان 2.2‑I2V‑A14B: صورة إلى فيديو
وان 2.2‑IT2V‑5B:نموذج موحد مضغوط يحتوي على 5 مليارات معلمة يناسب وحدات معالجة الرسومات المخصصة للمستهلكين، الجيل الموحد

يستفيد الإصدار 5B من تقنية VAE ثلاثية الأبعاد عالية الضغط لتقليل رمز الزمان والمكان بمقدار 3×4×16 - مما يتيح إخراجًا سلسًا بدقة 16 بكسل حتى على الأجهزة المتواضعة.

تتضمن مجموعة Wan 2.2 عرضين أساسيين مصممين لحالات استخدام مختلفة:

نموذج MoE ذو المعلمات 14B (Wan 2.2-T2V-A14B و Wan 2.2-I2V-A14B)

يستخدم بنية MoE الكاملة للحصول على أقصى قدر من الجودة.
يدعم كل من سير عمل النص إلى الفيديو والصورة إلى الفيديو بدقة تصل إلى 1080 بكسل.
مثالي للإنتاج والبحث على مستوى الاستوديو.

نموذج موحد كثيف ذو 5 ب (Wan 2.2-IT2V-5B)

نموذج مضغوط موجه نحو الأداء وقابل للنشر على وحدة معالجة رسومية واحدة مخصصة للمستهلك (على سبيل المثال، NVIDIA RTX 4090).
يُنشئ مقاطع فيديو بدقة 720 بكسل و24 إطارًا في الثانية في دقائق، ويستفيد من تقنية VAE ثلاثية الأبعاد عالية الضغط لتحقيق تقليل العينات الزمنية والمكانية بمقدار 3×4×16 مع الحد الأدنى من فقدان الجودة.
يخفض الحاجز أمام الهواة والفرق الصغيرة لتجربة إنشاء فيديو الذكاء الاصطناعي.

تشير المعايير إلى أن النموذج الأصغر يمكنه تقديم مقطع فيديو عالي الدقة مدته 5 ثوانٍ في أقل من خمس دقائق على أجهزة الألعاب القياسية، مما يجعل Wan 2.2 أحد أسرع الحلول مفتوحة المصدر في فئته.

إمكانية الوصول والالتزام بالمصدر المفتوح

تمشيا مع تعهد علي بابا بنشر الذكاء الاصطناعي، فإن Wan 2.2 مفتوح المصدر بالكامل ويمكن الوصول إليه بحرية من خلال منصات متعددة:

GitHub و Hugging Face للتنزيل المباشر للنموذج والرمز.
مجتمع مودا للتوسعات والتكاملات التي يقودها المجتمع.
علي بابا كلاود بايليان API للاستضافة حسب الطلب على مستوى المؤسسة.
موقع وتطبيق Tongyi Wanxiang للتجارب التي لا تتطلب كتابة أكواد وتعتمد على المتصفح.

منذ أوائل عام 2025، جمعت سلسلة Wan أكثر من 5 ملايين عملية تنزيل عبر مجتمع المصدر المفتوح، مما يؤكد دورها في تعزيز الابتكار التعاوني وتنمية المهارات بين ممارسي الذكاء الاصطناعي على مستوى العالم.

آثار الصناعة

يشكل إصدار Wan 2.2 لحظة محورية في صناعة الأفلام بمساعدة الذكاء الاصطناعي وإنشاء المحتوى:

الإمكانات التجارية: يمكن للعلامات التجارية والمعلنين ومنصات التواصل الاجتماعي الاستفادة من النماذج الأولية السريعة لأصول الفيديو والإبداعات الإعلانية المخصصة وتنسيقات القصص الديناميكية.

خفض الحواجز: يمكن للمحترفين والمبدعين المستقلين الآن تحقيق إنتاج فيديو بمستوى الاستوديو تقريبًا دون الحاجة إلى تراخيص أجهزة أو برامج باهظة الثمن.

محفز الابتكار: يؤدي توفير نموذج فيديو توليدي قائم على MoE مفتوح المصدر إلى تسريع التعاون البحثي، مما قد يؤدي إلى ظهور هياكل وأدوات فنية جديدة.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

سيظهر أحدث تكامل Wan 2.2 قريبًا على CometAPI، لذا ترقبوا ذلك! بينما ننتهي من تحميل نموذج Gemini 2.5 Flash‑Lite، استكشف نماذجنا الأخرى على صفحة النماذج أو جربها في AI Playground.

أثناء الانتظار، يمكن للمطورين الوصول واجهة برمجة تطبيقات Veo 3 و واجهة برمجة تطبيقات فيديو منتصف الرحلة من خلال كوميت ايه بي اي لإنشاء فيديو بدلاً من WAN 2.2، أحدث إصدارات نماذج كلود المدرجة هي بتاريخ نشر المقال. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

باختصار، لا يُطوّر مشروع وان 2.2 من علي بابا أحدث التقنيات في مجال الذكاء الاصطناعي للفيديو فحسب، بل يُجسّد أيضًا كيف يُمكن لأنظمة المصادر المفتوحة أن تُسرّع التقدم وتُنوّع استخداماتها. ومع بدء المطورين بتجربة هيكله الأساسي (MoE) وأدوات التحكم السينمائية، قد تنبثق الموجة التالية من محتوى الفيديو المُولّد بالذكاء الاصطناعي من نفس المجتمعات التي ساهمت علي بابا في تمكينها.