علی بابا کی ڈیمو اکیڈمی نے آج باضابطہ طور پر ریلیز کیا۔ وان 2.2، اوپن سورس ویڈیو جنریشن ماڈلز کا اگلی نسل کا سوٹ ماہرین کا مرکب (MoE) فن تعمیر وان 2.2 کمپیوٹیشنل کارکردگی، حرکت کی مخلصی، اور سنیما کے اظہار میں نمایاں بہتری کا وعدہ کرتا ہے—ڈیولپرز اور تخلیق کاروں کو بے مثال کنٹرول اور لچک کے ساتھ ٹیکسٹ یا امیج پرامپٹس سے اعلیٰ معیار کی 1080p ویڈیوز بنانے کے قابل بناتا ہے۔ وان 2.2 موشن کے مقابلے میں قابل قدر فوائد فراہم کرتا ہے، موشن کی کارکردگی میں نمایاں اضافہ کرتا ہے۔ اپنے پیشرو، وان 2.1 سے۔
وان 2.2 میں کلیدی اختراعات
1. MoE سے چلنے والی ڈینوائزنگ پائپ لائن
ذیلی نیٹ ورکس، نظام وسائل کو مختص کر سکتا ہے جہاں وہ سب سے زیادہ اہمیت رکھتے ہیں — منظر کے لے آؤٹ کے لیے وسیع اسٹروک جس کے بعد باریک باریک تفصیل کی تطہیر ہوتی ہے۔ یہ ڈیزائن وان 2.2 کے فلیگ شپ ماڈل کو 27 بلین کل پیرامیٹرز پر فخر کرنے کے قابل بناتا ہے جبکہ صرف 14 بلین فی انفرنس پاس کو چالو کرتا ہے، جس سے اعلیٰ معیار کی ویڈیو ترکیب کے لیے درکار کمپیوٹ وسائل کو مؤثر طریقے سے آدھا کر دیا جاتا ہے۔
- ہائی شور کا ماہر مجموعی حرکت کی رفتار اور منظر کی ساخت کو قائم کرنے پر توجہ مرکوز کرتا ہے۔
- کم شور کا ماہر پیچیدہ ساخت، چہرے کی تفصیل، اور روشنی کی باریکیوں کا اطلاق ہوتا ہے۔
یہ دوہری ماہرانہ فریم ورک اس بات کو یقینی بناتا ہے کہ تخلیق کار پیشہ ورانہ سنیما کی مخلصی کے ساتھ طویل، زیادہ پیچیدہ ترتیبیں تخلیق کر سکتے ہیں — یہ سب وان 2.1 کے مقابلے GPU میموری کی مانگ کو متناسب طور پر بڑھائے بغیر۔
2. سنیمیٹک جمالیاتی کنٹرول سسٹم
اپنی آرکیٹیکچرل ایجادات پر استوار کرتے ہوئے، یہ ایک بے مثال "فلم جمالیات کنٹرول سسٹم" متعارف کراتا ہے جو صارفین کو مطلوبہ مطلوبہ الفاظ کے اشارے کے ذریعے لائٹنگ، کلر گریڈنگ، کیمرہ اینگل اور کمپوزیشن کو چلانے کی اجازت دیتا ہے۔ "سن سیٹ گلو"، "نرم رم لائٹ،" یا "کم زاویہ والی متوازن کمپوزیشن" جیسے وضاحت کنندگان کو یکجا کر کے، تخلیق کار خود بخود ہالی ووڈ کی بلاک بسٹرز یا انڈی آرٹ فلموں کی یاد دلانے والے مناظر تخلیق کر سکتے ہیں۔ اس کے برعکس، "کول ٹونز،" "ہارڈ لائٹنگ،" اور "ڈائنیمک فریمنگ" جیسے ان پٹ سائنس فکشن یا نوئر اسٹائل کے بصری مطالب پر تیار کرتے ہیں۔
اوپن سورس AI ویڈیو ماڈلز میں پہلی بار، Wan 2.2 انضمام a فلم گریڈ کنٹرول انٹرفیس:
- 60+ سایڈست پیرامیٹرز روشنی، رنگ کی درجہ بندی، فریمنگ، لینس اثرات، اور فیلڈ کی گہرائی کا احاطہ کرتا ہے۔
- سمارٹ اسٹائل لنکنگ، صارفین کو موڈ کی وضاحت کرنے کی اجازت دیتا ہے (مثال کے طور پر، "گودھولی کے وقت نوئر لائٹنگ") اور سسٹم کو خود بخود پیچیدہ کیمرہ اور رنگین سیٹ اپ ترتیب دینے کی اجازت دیتا ہے۔
- پہلے سے طے شدہ سنیما کے پیش سیٹجیسا کہ "ونٹیج ویسٹرن،" "نیو-ٹوکیو سائنس فائی،" اور "دستاویزی رپورٹ"، تخلیقی کام کے بہاؤ کو ہموار کریں۔
3. بہتر طبیعیات اور جذباتی حقیقت پسندی۔
وان 2.2 حقیقی دنیا کے مظاہر اور انسانی مائیکرو ایکسپریشنز کی تقلید میں نمایاں بہتری کو ظاہر کرتا ہے:
- طبیعیات کا تخروپن قدرتی سیال کی حرکیات، حجمی روشنی، اور تصادم کے اثرات کے لیے۔
- چہرے کے مائیکرو ایکسپریشن کیپچر، کانپتے ہونٹوں، بھنوؤں کی تبدیلی، اور دبے ہوئے آنسو جیسے لطیف اشارے پیش کرنا۔
- ملٹی پرسن سین ہینڈلنگ, متحرک کرداروں کے درمیان مربوط تعامل اور مسلسل روشنی کو یقینی بنانا۔
ماڈل کی مختلف حالتیں اور کارکردگی
وان 2.2 ریلیز میں شامل ہیں:
- Wan 2.2‑T2V‑A14B: متن سے ویڈیو
- Wan 2.2‑I2V‑A14B: تصویر سے ویڈیو
- Wan 2.2‑IT2V‑5B: ایک کمپیکٹ 5 بلین پیرامیٹر یونیفائیڈ ماڈل جو صارف کے گریڈ GPUs، یونیفائیڈ جنریشن پر فٹ بیٹھتا ہے۔
5B ویریئنٹ 3×4×16 ٹائم اسپیس ٹوکن کمی کے لیے ایک ہائی کمپریشن 16D VAE کا فائدہ اٹھاتا ہے — جو کہ معمولی ہارڈ ویئر پر بھی ہموار 1080p آؤٹ پٹ کو قابل بناتا ہے۔
وان 2.2 سوٹ میں دو بنیادی پیشکشیں شامل ہیں جو مختلف استعمال کے معاملات کے لیے ڈیزائن کی گئی ہیں:
14B-پیرامیٹر MoE ماڈل (Wan 2.2-T2V-A14B اور Wan 2.2-I2V-A14B)
- زیادہ سے زیادہ معیار کے لیے مکمل MoE فن تعمیر کا استعمال کرتا ہے۔
- 1080p تک ریزولیوشن پر ٹیکسٹ سے ویڈیو اور امیج ٹو ویڈیو ورک فلو دونوں کو سپورٹ کرتا ہے۔
- سٹوڈیو کی سطح کی پیداوار اور تحقیق کے لیے مثالی۔
5B-پیرامیٹر ڈینس یونیفائیڈ ماڈل (Wan 2.2-IT2V-5B)
- ایک کمپیکٹ، کارکردگی پر مبنی ماڈل جو ایک صارف کے گریڈ GPU پر قابل استعمال ہے (مثلاً، NVIDIA RTX 4090)۔
- منٹوں میں 720p، 24 fps ویڈیوز بناتا ہے، کم سے کم معیار کے نقصان کے ساتھ 3×4×16 عارضی اور مقامی ڈاؤن سیمپلنگ حاصل کرنے کے لیے ایک ہائی کمپریشن 16D VAE کا فائدہ اٹھاتا ہے۔
- شوق رکھنے والوں اور چھوٹی ٹیموں کے لیے AI ویڈیو جنریشن کے ساتھ تجربہ کرنے میں رکاوٹ کو کم کرتا ہے۔
بینچ مارکس بتاتے ہیں کہ چھوٹا ماڈل معیاری گیمنگ ہارڈویئر پر پانچ منٹ سے بھی کم وقت میں 5 سیکنڈ کا ہائی ڈیفینیشن کلپ فراہم کر سکتا ہے، جس سے وان 2.2 کو اپنی کلاس کے تیز ترین اوپن سورس حلوں میں سے ایک بنا دیا گیا ہے۔
رسائی اور اوپن سورس کمٹمنٹ
AI کو جمہوری بنانے کے علی بابا کے عہد کے مطابق، Wan 2.2 مکمل طور پر اوپن سورس ہے اور متعدد پلیٹ فارمز کے ذریعے آزادانہ طور پر قابل رسائی ہے:
- GitHub اور گلے ملنے والا چہرہ براہ راست ماڈل اور کوڈ ڈاؤن لوڈ کے لیے۔
- موڈا کمیونٹی کمیونٹی سے چلنے والے ایکسٹینشنز اور انضمام کے لیے۔
- Alibaba Cloud BaiLian API انٹرپرائز گریڈ، آن ڈیمانڈ ماڈل ہوسٹنگ کے لیے۔
- Tongyi Wanxiang ویب سائٹ اور ایپ بغیر کوڈ، براؤزر پر مبنی تجربہ کے لیے۔
2025 کے اوائل سے، وان سیریز نے اوپن سورس کمیونٹی میں 5 ملین سے زیادہ ڈاؤن لوڈز اکٹھے کیے ہیں، جو عالمی سطح پر AI پریکٹیشنرز کے درمیان باہمی تعاون کے ساتھ جدت طرازی اور مہارت کی ترقی کو فروغ دینے میں اپنے کردار کو واضح کرتی ہے۔
صنعت کے مضمرات
وان 2.2 کی ریلیز AI کی مدد سے فلم سازی اور مواد کی تخلیق میں ایک اہم لمحہ ہے:
تجارتی امکانات: برانڈز، مشتہرین، اور سوشل میڈیا پلیٹ فارمز ویڈیو اثاثوں کی تیز رفتار پروٹو ٹائپنگ، ذاتی نوعیت کی اشتھاراتی تخلیقات، اور کہانی سنانے کے متحرک فارمیٹس سے فائدہ اٹھاتے ہیں۔
رکاوٹیں کم کرنا: پروفیشنلز اور آزاد تخلیق کار اب مہنگے ہارڈ ویئر یا سافٹ ویئر لائسنس کے بغیر سٹوڈیو کی سطح کے قریب ویڈیو پروڈکشن حاصل کر سکتے ہیں۔
انوویشن کیٹالسٹ: MoE پر مبنی جنریٹو ویڈیو ماڈل کو اوپن سورس کرنا تحقیقی تعاون کو تیز کرتا ہے، ممکنہ طور پر نئے فن تعمیرات اور فنکارانہ ٹولز کو جنم دیتا ہے۔
شروع
CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔
تازہ ترین انٹیگریشن Wan 2.2 جلد ہی CometAPI پر ظاہر ہو گا، اس لیے دیکھتے رہیں! جب تک ہم Gemini 2.5 Flash-Lite ماڈل اپ لوڈ کو حتمی شکل دے رہے ہیں، ہمارے دوسرے ماڈلز کو Models کے صفحہ پر دیکھیں یا انہیں AI پلے گراؤنڈ میں آزمائیں۔
انتظار کے دوران، ڈویلپرز رسائی حاصل کر سکتے ہیں۔ Veo 3 API اور مڈجرنی ویڈیو API کے ذریعے CometAPI وان 2.2 کے بجائے ویڈیو بنانے کے لیے، کلاؤڈ ماڈل کا تازہ ترین ورژن مضمون کی اشاعت کی تاریخ کے مطابق ہے۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔
خلاصہ یہ ہے کہ علی بابا کا وان 2.2 نہ صرف ویڈیو AI میں آرٹ کی حالت کو آگے بڑھاتا ہے بلکہ اس بات کی بھی مثال دیتا ہے کہ اوپن سورس ماحولیاتی نظام کس طرح ترقی کو تیز کر سکتا ہے اور استعمال کے معاملات کو متنوع بنا سکتا ہے۔ جیسے ہی ڈویلپرز اس کے MoE بیک بون اور سنیماٹک کنٹرولز کے ساتھ تجربہ کرنا شروع کر دیتے ہیں، AI سے تیار کردہ ویڈیو مواد کی اگلی لہر ان کمیونٹیز سے اچھی طرح سے ابھر سکتی ہے جنہیں علی بابا نے بااختیار بنانے میں مدد کی ہے۔
