في 25 مارس، وفقًا لـ كوين بناءً على إعلان الفريق، أصبح نموذج Qwen2.5-VL-32B-Instruct مفتوح المصدر رسميًا، بمقياس معاملات 32B، وأظهر أداءً ممتازًا في مهام مثل فهم الصور، والتفكير الرياضي، وتوليد النصوص. حُسِّن النموذج بشكل أكبر من خلال التعلم التعزيزي، وأصبحت الاستجابات أكثر توافقًا مع التفضيلات البشرية، متجاوزًا نموذج 72B الذي صدر سابقًا في التقييمات متعددة الوسائط مثل MMMU وMathVista.

ما هو Qwen2.5-VL-32B؟
Qwen2.5-VL-32B-Instruct هو أحدث إضافة إلى سلسلة Qwen من Alibaba، ويضم 32 مليار معلمة. صُمم هذا النموذج لمعالجة وتفسير المعلومات المرئية والنصية، ويتفوق في المهام التي تتطلب فهمًا دقيقًا للصور واللغة. صدر بموجب ترخيص Apache 2.0، مما يوفر للمطورين والباحثين مرونةً في دمج النموذج وتكييفه مع مختلف التطبيقات.
بالمقارنة مع موديلات سلسلة Qwen2.5-VL السابقة، يتمتع موديل 32B بالتحسينات التالية:
- الاستجابات تتوافق أكثر مع التفضيلات الذاتية البشرية: تم تعديل أسلوب الإخراج لجعل الإجابات أكثر تفصيلاً، والتنسيق أكثر توحيدًا، وأكثر توافقًا مع التفضيلات البشرية.
- القدرة على التفكير الرياضي: لقد تم تحسين دقة حل المسائل الرياضية المعقدة بشكل كبير.
- فهم الصورة الدقيقة والاستدلال عليها: تم إثبات دقة أقوى وقدرات تحليل دقيقة في مهام مثل تحليل الصور والتعرف على المحتوى والاستنتاج المنطقي البصري
كيف يمكنك استخدام Qwen2.5-VL-32B محليًا؟
يتيح نشر Qwen2.5-VL-32B محليًا للمستخدمين الاستفادة من إمكانياته دون الاعتماد على خوادم خارجية، مما يضمن خصوصية البيانات ويقلل من زمن الوصول. يوفر مستودع GitHub الرسمي موارد شاملة للنشر المحلي. citeturn0search6
تهيئة البيئة
- استنساخ المستودع:
git clone https://github.com/QwenLM/Qwen2.5-VL
- انتقل إلى دليل المشروع:الانتقال إلى الدليل المستنسخ:
cd Qwen2.5-VL
- تثبيت التبعيات:تأكد من تثبيت جميع الحزم اللازمة. يتضمن المستودع
requirements.txtملف لتسهيل ذلك:
pip install -r requirements.txt
تشغيل النموذج
بعد إعداد البيئة:
- بدء تطبيقنفّذ البرنامج النصي الرئيسي لبدء التطبيق. تجد التعليمات المفصلة في وثائق المستودع.
- الوصول إلى الواجهة:بمجرد التشغيل، قم بالوصول إلى واجهة النموذج عبر متصفح الويب على العنوان المحلي المحدد.
نصائح التحسين
لتعزيز الأداء وإدارة الموارد بشكل فعال:
- توضيح: الاستفادة من
--quantizeاستخدم العلم أثناء تحويل النموذج لتقليل استخدام الذاكرة. - إدارة طول السياق:قم بتحديد رموز الإدخال لتسريع الاستجابات.
- إغلاق التطبيقات كثيفة الموارد:تأكد من إغلاق التطبيقات المكثفة الأخرى لتحرير موارد النظام.
- دفعة معالجة:بالنسبة للصور المتعددة، قم بمعالجتها على دفعات لتحسين الكفاءة.
ما هي الميزات الرئيسية لـ Qwen2.5-VL-32B؟
يقدم Qwen2.5-VL-32B-Instruct العديد من التحسينات على الإصدارات السابقة:
استجابات بشرية معززة
تم تحسين أسلوب إخراج النموذج لإنتاج إجابات أكثر تفصيلاً وهيكلة، تتوافق بشكل وثيق مع التفضيلات البشرية. يُسهّل هذا التحسين تفاعلات أكثر طبيعية وبديهية.
التفكير الرياضي المتقدم
لقد حُقِّقَت طفراتٌ كبيرة في قدرة النموذج على حلِّ المسائل الرياضية المعقدة بدقة. وهذا ما يجعل Qwen2.5-VL-32B أداةً قيّمةً للمهام التي تتطلب حساباتٍ عدديةً معقدة.
فهم الصور الدقيقة والاستدلال عليها
يُظهر النموذج دقةً مُحسّنةً في تحليل الصور، والتعرف على المحتوى، والاستنتاج المنطقي البصري. ويُمكنه تحليل التفاصيل المُعقدة داخل الصور، مما يجعله بارعًا في مهام مثل اكتشاف الأجسام وفهم المشهد.
إمكانيات تحليل المستندات القوية
يتميز Qwen2.5-VL-32B بالتفوق في تحليل المستندات الشاملة، والتعامل بفعالية مع المستندات متعددة المشاهد ومتعددة اللغات، بما في ذلك المستندات التي تحتوي على الكتابة اليدوية والجداول والرسوم البيانية والصيغ الكيميائية والملاحظات الموسيقية.
ما هو أداء Qwen2.5-VL-32B مقارنة بالنماذج الأخرى؟
في تقييمات المعايير، أظهر Qwen2.5-VL-32B-Instruct أداءً استثنائيًا:
- المهام المتعددة الوسائط:يتفوق النموذج على نظرائه الأكبر حجمًا، مثل نموذج 72B، في المهام التي يتم تقييمها بواسطة معايير مثل MMMU وMMMU-Pro وMathVista.
- القدرات النصية:إنه يحقق نتائج متطورة قابلة للمقارنة مع نماذج مثل Mistral-Small-3.1-24B وGemma-3-27B-IT، مما يدل على براعته في المهام القائمة على النص البحت.
مواضيع ذات صلة كيفية الوصول إلى Grok 3 واستخدامه
للمطورين: الوصول إلى واجهة برمجة التطبيقات
يقدم CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على دمج واجهة برمجة تطبيقات qwen (اسم الطراز: qwen-max؛)، وستحصل على دولار واحد في حسابك بعد التسجيل وتسجيل الدخول! مرحبًا بك في التسجيل وتجربة CometAPI.
يعمل CometAPI كمركز مركزي لواجهات برمجة التطبيقات (API) للعديد من نماذج الذكاء الاصطناعي الرائدة، مما يُغني عن التواصل مع عدة موفري واجهات برمجة تطبيقات بشكل منفصل. يدمج CometAPI سلسلة نماذج Qwen 2.5، ويمكنك الوصول إليها عبر واجهة برمجة التطبيقات.
يرجى الرجوع إلى واجهة برمجة تطبيقات التعليمات Qwen 2.5 Coder 32B و واجهة برمجة تطبيقات Qwen 2.5 Max للحصول على تفاصيل التكامل، قامت CometAPI بتحديث أحدث إصدار واجهة برمجة التطبيقات QwQ-32B.
الخاتمة
يُمثل Qwen2.5-VL-32B-Instruct تقدمًا ملحوظًا في مجال الذكاء الاصطناعي متعدد الوسائط. طبيعته مفتوحة المصدر، إلى جانب قدراته المُحسّنة في التفاعل البشري، والتفكير الرياضي، وفهم الصور، تجعله أداةً متعددة الاستخدامات وفعّالة للمطورين والباحثين. ومن خلال توفير موارد للنشر والتحسين محليًا، تضمن علي بابا أن يكون هذا النموذج متاحًا وعمليًا لمجموعة واسعة من التطبيقات.
