واجهة برمجة تطبيقات Wan 2.1

CometAPI
AnnaMar 20, 2025
واجهة برمجة تطبيقات Wan 2.1

Wan 2.1 API عبارة عن واجهة متقدمة لتوليد الفيديو تعتمد على الذكاء الاصطناعي والتي تقوم بتحويل مدخلات النص أو الصورة إلى مقاطع فيديو عالية الجودة وواقعية باستخدام نماذج التعلم العميق المتطورة.

واجهة برمجة تطبيقات Wan 2.1

معلومات أساسية: ما هو Wan 2.1؟

Wan 2.1 هو نموذج ذكاء اصطناعي طورته شركة علي بابا كلاود، مصمم لتوليد محتوى فيديو عالي الجودة من مُدخلات نصية أو صورية. ويستفيد من أطر عمل متقدمة للتعلم العميق، بما في ذلك مُحولات الانتشار ومُشفرات التباين التلقائي ثلاثية الأبعاد (VAEs)، لتوليف مقاطع فيديو ديناميكية ومتماسكة بصريًا. وبصفته حلاً مفتوح المصدر، فإن Wan 3 متاح لمجموعة واسعة من المطورين والباحثين ومُنشئي المحتوى، مما يُعزز بشكل كبير قدرات توليد الفيديو المُعتمد على الذكاء الاصطناعي.

مقاييس أداء Wan 2.1

أظهر Wan 2.1 أداءً استثنائيًا في جودة الفيديو المُولّد بالذكاء الاصطناعي، متفوقًا باستمرار على نماذج مفتوحة المصدر الحالية، ومنافسًا للحلول التجارية المغلقة المصدر. ويحتل النموذج مرتبةً متقدمةً على VBench، وهو معيار يُستخدم لتقييم نماذج توليد الفيديو، ويتفوق بشكل خاص في توليد الحركات المعقدة والتفاعل بين الكائنات المتعددة. وبالمقارنة مع الإصدارات السابقة، يوفر Wan 2.1 اتساقًا زمنيًا فائقًا، ودقةً مُحسّنة، وتشوهاتٍ أقل، مما يضمن تجربة مشاهدة سلسة.

التفاصيل الفنية

الابتكارات المعمارية

تم بناء النموذج على إطار عمل متطور يتضمن:

  • مشفر تلقائي متغير ثلاثي الأبعاد (VAE):يعزز الضغط المكاني الزمني ويقلل من استخدام الذاكرة مع الحفاظ على جودة الفيديو العالية.
  • محول الانتشار (DiT):تنفيذ آلية الاهتمام الكاملة التي تمكن الاتساق المكاني الزمني طويل الأمد في إنشاء الفيديو.
  • عملية التدريب متعددة المراحل:يزيد الدقة ومدة الفيديو تدريجيًا لتحسين كفاءة التدريب وتخصيص الموارد الحسابية.

المتغيرات النموذجية

لتلبية احتياجات المستخدمين المختلفة، فهو متوفر في تكوينات متعددة:

  • وان 2.1-T2V-14B:نموذج تحويل النص إلى فيديو يحتوي على 14 مليار معلمة تم تحسينه لإنتاج فيديو عالي الجودة وواقعي.
  • وان 2.1-T2V-1.3B:نموذج أكثر سهولة في الوصول إلى 1.3 مليار معلمة يتطلب 8.19 جيجابايت فقط من ذاكرة الوصول العشوائي للفيديو، مما يسمح لوحدات معالجة الرسومات المخصصة للمستهلكين بإنشاء مقاطع فيديو بدقة 5 بكسل مدتها 480 ثوانٍ في حوالي 4 دقائق.
  • Wan 2.1-I2V-14B-480P و720P:نماذج تحويل الصور إلى فيديو تدعم دقة مختلفة، وهي مصممة لتحويل الصور الثابتة إلى محتوى فيديو ديناميكي.

مجموعة بيانات التدريب والمعالجة المسبقة

تتألف مجموعة البيانات المستخدمة في Wan 2.1 من تسلسلات فيديو عالية الجودة وواسعة النطاق، مُعدّة بعناية باستخدام عملية تنظيف وتضخيم متعددة الخطوات للبيانات. يضمن ذلك التخلص من البيانات منخفضة الجودة مع تحسين دقة الصورة والحركة. تنقسم عملية التدريب المسبق إلى أربع مراحل، مما يُحسّن تدريجيًا قدرة النموذج على التعامل مع درجات دقة وتعقيدات حركة متفاوتة.

تطور وان 2.1

يُعدّ Wan 2.1 تطورًا مباشرًا لنماذج توليد الفيديو السابقة المدعومة بالذكاء الاصطناعي، حيث يتضمن تحسينات جوهرية مقارنةً بالإصدارات السابقة. وقد حسّن الانتقال من شبكات التوليد التنافسية التقليدية (GANs) إلى البنى القائمة على الانتشار بشكل ملحوظ من واقعية وتماسك مقاطع الفيديو المُولّدة. علاوة على ذلك، أتاح اعتماد آليات الانتباه القائمة على المحولات نمذجة مكانية زمانية أكثر تطورًا، مما أدى إلى تحسين الأداء عبر مقاييس تقييم متعددة.

مزايا Wan 2.1

إنشاء فيديو على أحدث طراز

يتفوق Wan 2.1 على النماذج مفتوحة المصدر الموجودة في إنشاء مقاطع فيديو واقعية ذات حركة معقدة وأشياء ذات مظهر طبيعي.

كفاءة حسابية عالية

يضمن التصميم المحسن استخدام وحدة معالجة الرسوميات بكفاءة، مما يسمح حتى للأجهزة المخصصة للمستهلكين بإنشاء محتوى فيديو عالي الجودة.

إمكانات التطبيق المتنوعة

يدعم تحويل النص إلى فيديو (T2V) وتحويل الصورة إلى فيديو (I2V)، مما يجعله قابلاً للتكيف بدرجة كبيرة مع مختلف الصناعات، بما في ذلك الوسائط والتسويق والتعليم والألعاب.

إمكانية الوصول مفتوحة المصدر

يتوفر Wan 2.1 بموجب ترخيص Apache 2.0، مما يعزز الابتكار ويتيح اعتماده على نطاق أوسع بين الباحثين والمطورين في مجال الذكاء الاصطناعي.

المؤشرات الفنية

الأداء المعياري

  • تصنيف VBench:يحقق باستمرار أعلى الدرجات في فئات التفاعل بين الكائنات المتعددة وتعقيد الحركة.
  • سرعة الاستدلال:يقوم الطراز الأصغر (1.3B) بإنشاء مقطع فيديو بدقة 5 بكسل لمدة 480 ثوانٍ في 4 دقائق على RTX 4090 دون الحاجة إلى تقنيات تحسين مثل التكميم.
  • استخدام الذاكرة:يتطلب 8.19 جيجابايت فقط من ذاكرة VRAM للمعالجة الفعالة، مما يجعله متاحًا لمجموعة واسعة من المستخدمين.

سيناريوهات التطبيق

الإعلان والتسويق يتيح للعلامات التجارية إنشاء مقاطع فيديو ترويجية عالية الجودة بسرعة، مما يقلل من تكاليف الإنتاج والجداول الزمنية.

التعليم والتدريب يسهل تطوير المحتوى التعليمي الديناميكي، وتعزيز المشاركة وتجارب التعلم.

الترفيه وإنشاء المحتوى يُمكّن صانعي الأفلام ورسامي الرسوم المتحركة ومنشئي المحتوى من استخدام أدوات إنتاج الفيديو بمساعدة الذكاء الاصطناعي.

الواقع الافتراضي (VR) والواقع المعزز (AR) يدعم إنشاء تجارب رقمية غامرة من خلال أصول الفيديو المولدة بالذكاء الاصطناعي.

مواضيع ذات صلة:أفضل 3 نماذج لتوليد الموسيقى بالذكاء الاصطناعي لعام 2025

الخاتمة

يُمثل Wan 2.1 تقدمًا كبيرًا في مجال إنتاج الفيديو المُدار بالذكاء الاصطناعي، مُرسيًا معايير جديدة للجودة والكفاءة وسهولة الوصول. إنَّ مزيجه من أحدث هياكل التعلم الآلي، والكفاءة الحسابية العالية، والتوافر مفتوح المصدر، يجعله أداةً قيّمةً في مختلف القطاعات. ومع استمرار الذكاء الاصطناعي في دفع حدود الإبداع والأتمتة، يُجسّد هذا النظام إمكانات النماذج التوليدية في إعادة صياغة صناعة المحتوى الرقمي.

كيفية الاتصال بـ Wan 2.1 API من CometAPI

1.تسجيل الدخول إلى كوميتابي.كوم. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولاً

2.احصل على مفتاح API لبيانات اعتماد الوصول للواجهة. انقر على "إضافة رمز" في رمز واجهة برمجة التطبيقات في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx، ثم أرسله.

  1. احصل على عنوان URL لهذا الموقع: https://api.cometapi.com/

٤. حدد نقطة نهاية Wan 4 لإرسال طلب واجهة برمجة التطبيقات (API)، ثم حدد نص الطلب. يتم الحصول على طريقة الطلب ونصه من وثيقة API لموقعنا على الويبيوفر موقعنا أيضًا اختبار Apifox لراحتك.

  1. عالج استجابة واجهة برمجة التطبيقات (API) للحصول على الإجابة المُولَّدة. بعد إرسال طلب واجهة برمجة التطبيقات، ستتلقى كائن JSON يحتوي على الإكمال المُولَّد.
اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%