25 مارچ کو، کے مطابق کیوین ٹیم کا اعلان، Qwen2.5-VL-32B-Instruct ماڈل باضابطہ طور پر اوپن سورس تھا، 32B پیرامیٹر اسکیل کے ساتھ، اور اس نے امیج کو سمجھنا، ریاضیاتی استدلال، اور ٹیکسٹ جنریشن جیسے کاموں میں بہترین کارکردگی کا مظاہرہ کیا۔ ماڈل کو کمک سیکھنے کے ذریعے مزید بہتر بنایا گیا، اور جوابات انسانی ترجیحات کے مطابق زیادہ تھے، جس نے MMMU اور MathVista جیسے ملٹی موڈل تشخیص میں پہلے جاری کردہ 72B ماڈل کو پیچھے چھوڑ دیا۔

Qwen2.5-VL-32B کیا ہے؟
Qwen2.5-VL-32B-Instruct علی بابا کی Qwen سیریز میں تازہ ترین اضافہ ہے، جس میں 32 بلین پیرامیٹرز ہیں۔ بصری اور متنی دونوں معلومات پر کارروائی اور تشریح کرنے کے لیے ڈیزائن کیا گیا، یہ ماڈل ان کاموں میں سبقت لے جاتا ہے جن کے لیے تصاویر اور زبان کی باریک بینی سے فہم کی ضرورت ہوتی ہے۔ Apache 2.0 لائسنس کے تحت جاری کیا گیا، یہ ڈویلپرز اور محققین کو مختلف ایپلی کیشنز کے لیے ماڈل کو ضم کرنے اور اس کے مطابق ڈھالنے کی لچک فراہم کرتا ہے۔
Qwen2.5-VL سیریز کے پچھلے ماڈلز کے مقابلے میں، 32B ماڈل میں درج ذیل اصلاحات ہیں:
- جوابات انسانی موضوعی ترجیحات کے مطابق ہیں: جوابات کو مزید تفصیلی، فارمیٹ کو زیادہ معیاری، اور انسانی ترجیحات کے مطابق بنانے کے لیے آؤٹ پٹ اسٹائل کو ایڈجسٹ کیا گیا ہے۔
- ریاضیاتی استدلال کی صلاحیت: پیچیدہ ریاضیاتی مسائل کو حل کرنے کی درستگی کو نمایاں طور پر بہتر کیا گیا ہے۔
- عمدہ تصویر کی تفہیم اور استدلال: تصویری تجزیہ، مواد کی شناخت، اور بصری منطق کی کٹوتی جیسے کاموں میں مضبوط درستگی اور عمدہ تجزیہ کی صلاحیتوں کا مظاہرہ کیا گیا ہے۔
آپ مقامی طور پر Qwen2.5-VL-32B کیسے استعمال کر سکتے ہیں؟
مقامی طور پر Qwen2.5-VL-32B کی تعیناتی صارفین کو بیرونی سرورز پر انحصار کیے بغیر اپنی صلاحیتوں کو بروئے کار لانے، ڈیٹا کی رازداری کو یقینی بنانے اور تاخیر کو کم کرنے کی اجازت دیتی ہے۔ سرکاری GitHub ذخیرہ مقامی تعیناتی کے لیے جامع وسائل فراہم کرتا ہے۔ citeturn0search6
ماحولیات کی ترتیب
- ریپوزٹری کو کلون کریں۔:
git clone https://github.com/QwenLM/Qwen2.5-VL
- **پروجیکٹ ڈائرکٹری پر جائیں۔**کلون ڈائرکٹری میں منتقل کریں:
cd Qwen2.5-VL
- تنصیب انسٹال کریں: یقینی بنائیں کہ تمام ضروری پیکجز انسٹال ہیں۔ ذخیرہ میں شامل ہے a
requirements.txtاس کی سہولت کے لیے فائل:
pip install -r requirements.txt
ماڈل چلانا
ماحول کو ترتیب دینے کے بعد:
- ایپلیکیشن لانچ کریں۔: ایپلیکیشن شروع کرنے کے لیے مرکزی اسکرپٹ پر عمل کریں۔ ریپوزٹری کی دستاویزات میں تفصیلی ہدایات فراہم کی گئی ہیں۔
- انٹرفیس تک رسائی حاصل کریں۔: ایک بار چلنے کے بعد، مخصوص مقامی پتے پر ویب براؤزر کے ذریعے ماڈل کے انٹرفیس تک رسائی حاصل کریں۔
اصلاح کی تجاویز
کارکردگی کو بڑھانے اور وسائل کو مؤثر طریقے سے منظم کرنے کے لیے:
- کوانٹائزیشن: استعمال کریں۔
--quantizeمیموری کے استعمال کو کم کرنے کے لیے ماڈل کی تبدیلی کے دوران پرچم۔ - سیاق و سباق کی لمبائی کا نظم کریں۔: جوابات کو تیز کرنے کے لیے ان پٹ ٹوکنز کو محدود کریں۔
- وسائل سے بھری ایپلی کیشنز بند کریں۔: اس بات کو یقینی بنائیں کہ سسٹم کے وسائل کو خالی کرنے کے لیے دیگر انتہائی ایپلی کیشنز بند ہیں۔
- بیچ پراسیسنگ: متعدد امیجز کے لیے، کارکردگی کو بہتر بنانے کے لیے انہیں بیچوں میں پروسیس کریں۔
Qwen2.5-VL-32B کی اہم خصوصیات کیا ہیں؟
Qwen2.5-VL-32B-انسٹرکٹ نے اپنے پیشرووں کے مقابلے میں کئی اضافہ متعارف کرایا ہے:
بہتر انسانوں کی طرح ردعمل
ماڈل کے آؤٹ پٹ سٹائل کو انسانی ترجیحات کے ساتھ مل کر، مزید تفصیلی اور اچھی طرح سے ساختہ جوابات پیدا کرنے کے لیے بہتر کیا گیا ہے۔ یہ بہتری زیادہ فطری اور بدیہی بات چیت کی سہولت فراہم کرتی ہے۔
ایڈوانسڈ میتھمیٹک ریزننگ
پیچیدہ ریاضیاتی مسائل کو درست طریقے سے حل کرنے کی ماڈل کی صلاحیت میں اہم پیش رفت ہوئی ہے۔ یہ Qwen2.5-VL-32B کو ایسے کاموں کے لیے ایک قیمتی ٹول کے طور پر رکھتا ہے جن میں نفیس عددی حساب کی ضرورت ہوتی ہے۔
عمدہ تصویری تفہیم اور استدلال
ماڈل تصویری تجزیہ، مواد کی شناخت، اور بصری منطق کی کٹوتی میں زیادہ درستگی کا مظاہرہ کرتا ہے۔ یہ تصویروں کے اندر پیچیدہ تفصیلات کا تجزیہ کر سکتا ہے، جس سے اسے آبجیکٹ کا پتہ لگانے اور منظر کی تفہیم جیسے کاموں میں ماہر بنایا جا سکتا ہے۔
طاقتور دستاویز پارس کرنے کی صلاحیتیں۔
Qwen2.5-VL-32B اومنی ڈوکیومینٹ پارسنگ میں مہارت رکھتا ہے، کثیر منظر، کثیر لسانی دستاویزات کو مؤثر طریقے سے ہینڈل کرتا ہے، بشمول ہینڈ رائٹنگ، ٹیبل، چارٹ، کیمیائی فارمولے، اور میوزیکل نوٹیشنز۔
Qwen2.5-VL-32B دوسرے ماڈلز کے مقابلے میں کیسے کارکردگی کا مظاہرہ کرتا ہے؟
بینچ مارک کی تشخیص میں، Qwen2.5-VL-32B-Instruct نے غیر معمولی کارکردگی کا مظاہرہ کیا ہے:
- ملٹی موڈل ٹاسکس: ماڈل MMMU، MMMU-Pro، اور MathVista جیسے بینچ مارکس کے ذریعے جانچے گئے کاموں میں بڑے ہم منصبوں، جیسے 72B ماڈل کو پیچھے چھوڑتا ہے۔ citeturn0search9
- متنی صلاحیتیں۔: یہ Mistral-Small-3.1-24B اور Gemma-3-27B-IT جیسے ماڈلز کے مقابلے میں جدید ترین نتائج حاصل کرتا ہے، خالص متن پر مبنی کاموں میں اپنی صلاحیت کا مظاہرہ کرتا ہے۔
متعلقہ موضوعات Grok 3 تک کیسے رسائی حاصل کریں اور اسے استعمال کریں۔
ڈویلپرز کے لیے: API رسائی
CometAPI آپ کو qwen API (ماڈل کا نام: qwen-max;) کو ضم کرنے میں مدد کے لیے سرکاری قیمت سے بہت کم قیمت پیش کرتا ہے، اور آپ کو رجسٹر کرنے اور لاگ ان کرنے کے بعد اپنے اکاؤنٹ میں $1 ملے گا! CometAPI کو رجسٹر کرنے اور تجربہ کرنے میں خوش آمدید۔
CometAPI کئی سرکردہ AI ماڈلز کے APIs کے لیے ایک مرکزی مرکز کے طور پر کام کرتا ہے، جس سے متعدد API فراہم کنندگان کے ساتھ الگ الگ مشغول ہونے کی ضرورت ختم ہوتی ہے۔ CometAPI ماڈلز کی Qwen 2.5 سیریز کو مربوط کرتا ہے۔ آپ API کے ذریعے ان تک رسائی حاصل کر سکتے ہیں۔
ملاحظہ کیجیے Qwen 2.5 Coder 32B Instruct API اور Qwen 2.5 Max API انضمام کی تفصیلات کے لیے۔CometAPI نے تازہ ترین اپ ڈیٹ کیا ہے۔ QwQ-32B API.
نتیجہ
Qwen2.5-VL-32B-انسٹرکٹ ملٹی موڈل AI کے میدان میں ایک اہم پیشرفت کی نمائندگی کرتا ہے۔ اس کی اوپن سورس فطرت، انسان کی طرح کی بات چیت، ریاضیاتی استدلال، اور تصویری تفہیم میں بہتر صلاحیتوں کے ساتھ مل کر، اسے ڈویلپرز اور محققین کے لیے ایک ورسٹائل اور طاقتور ٹول بناتی ہے۔ مقامی تعیناتی اور اصلاح کے لیے وسائل کی پیشکش کرکے، علی بابا اس بات کو یقینی بناتا ہے کہ یہ ماڈل ایپلی کیشنز کی ایک وسیع رینج کے لیے قابل رسائی اور عملی ہے۔
