جهاز Janus Pro من DeepSeek: الميزات والمقارنة وكيفية العمل

CometAPI
AnnaMay 31, 2025
جهاز Janus Pro من DeepSeek: الميزات والمقارنة وكيفية العمل

يُمثل Janus Pro من DeepSeek نقلة نوعية في مجال الذكاء الاصطناعي متعدد الوسائط مفتوح المصدر، إذ يُقدم إمكانيات متقدمة لتحويل النص إلى صورة تُنافس الحلول الحصرية. كُشف النقاب عن Janus Pro في يناير 2025، ويجمع بين استراتيجيات تدريب مُحسّنة، وتوسيع نطاق البيانات على نطاق واسع، وتحسينات في بنية النموذج لتحقيق أداء مُتطور في مهام القياس. تتناول هذه المقالة الشاملة ماهية Janus Pro، وكيفية عمله، ومقارنته بالمنافسين، وكيف يُمكن للمستخدمين المهتمين الوصول إليه، والتطبيقات الأوسع للنموذج ومساره المُستقبلي.

ما هو Janus Pro؟

جانوس برو هو أحدث نموذج ذكاء اصطناعي متعدد الوسائط مفتوح المصدر من ديب سيك، مصمم لفهم الصور وتوليدها. صدر النموذج في 27 يناير 2025، ويأتي بحجمين - مليار و1 مليارات معلمة - لتلبية مختلف الميزانيات الحسابية واحتياجات التطبيقات. يعكس اسمه بنية ثنائية التركيز ("جانوس") تعالج المدخلات المرئية والنصية في مسارات متخصصة، مما يتيح متابعة سلسة للتعليمات عبر مختلف الوسائط. كتحديث لنموذج جانوس الأصلي، يدمج جانوس برو ثلاثة تحسينات أساسية: نظام تدريب مُحسّن، ومجموعات بيانات موسعة بشكل كبير، وإمكانية التوسع إلى أعداد معلمات أكبر.

أصول سلسلة جانوس

دخلت شركة DeepSeek مجال الوسائط المتعددة لأول مرة مع نموذج Janus الأصلي في أواخر عام 2024، محققةً نتائج واعدة في معايير الرؤية واللغة. وبناءً على النجاح وملاحظات المجتمع، تعاونت الشركة مع شركاء أكاديميين لتحسين خوارزميات التدريب وتنويع قاعدة البيانات، وتوج ذلك بإطلاق Janus Pro في أوائل عام 2025.

المواصفات الأساسية

  • خيارات المعلمة: 1 B و 7 B المتغيرات.
  • بيانات التدريب: 72 مليون صورة تركيبية عالية الجودة متوازنة مع صور العالم الحقيقي.
  • قرار الإدخال: تصل إلى 384×384 بكسل، مع التوصية بالترقية الخارجية للمخرجات الأكبر.
  • الترخيص: معهد ماساتشوستس للتكنولوجيا مفتوح المصدر، يسمح بالاستخدام التجاري والبحثي دون شروط تقييدية.

كيف يعمل برنامج Janus Pro؟

في جوهره، يستخدم Janus Pro بنية توليد رؤية منفصلة حيث يتعاون مشفر متخصص ومرمز منفصل لفهم المطالبات وتوليف الصور.

العمارة الفنية

يعالج مُشفِّر الرؤية SigLIP-L من Janus Pro مُدخلات الصورة بدقة 384×384 قبل عرض الميزات في مساحة كامنة. ثم يُدير مُجزِّئ VQ المُنفصل مرحلة التوليد، مستخدمًا تمثيلًا مُخفَّضًا للعينات بمقدار 16× لإنتاج مُخرَجات بكسل بكفاءة. يُتيح هذا الفصل بين الاهتمامات تحسينًا مُستهدفًا، مما يُسرِّع الاستدلال مع الحفاظ على التفاصيل الدقيقة.

نظام التدريب

يتكون خط تدريب النموذج من ثلاث مراحل:

  1. التدريب المسبق على البيانات متعددة الوسائط تم استخلاصها من عمليات البحث على الويب واسعة النطاق ومجموعات البيانات المنسقة.
  2. تحسين الصورة الاصطناعيةحيث تنتج الأساليب التوليدية 72 مليون صورة عالية الدقة تعمل على تعزيز التنوع في العالم الحقيقي.
  3. تعليمات صقل، تكييف النموذج لمتابعة توجيهات النص إلى الصورة المعقدة باستخدام أزواج الصورة والمطالبة التي تم تنظيمها بواسطة الإنسان.

الاستدلال والتوليد

أثناء الاستدلال، يُقدّم المستخدمون مُطالبة نصية يُحوّلها النموذج إلى رموز قبل دمجها مع إشارات مُرمّز الرؤية (عند أداء مهام الفهم). ثم يُفكّك مُرمّز VQ التمثيل الكامن إلى بكسلات تسلسليًا، مما يُنتج صورًا متماسكة ودقيقة السياق. يبلغ زمن التوليد النموذجي لوحدة معالجة رسوميات A100 واحدة حوالي 1.2 ثانية لكل صورة بدقة 384×384.

ما مدى قدرة نموذج توليد الصور الخاص بـ DeepSeek؟

أداء المعيار

في يناير 2025، كشفت شركة DeepSeek عن نموذج Janus-Pro-7B، وهو نموذج تحويل نص إلى صورة بسبعة مليارات معلمة، وتزعم الشركة أنه يتفوق على نموذج DALL-E 7 من OpenAI (بدقة 3%) ونموذج Stable Diffusion 67 من Stability AI (بدقة 3%) في معايير GenEval، محققًا نسبة 74%. وأكدت رويترز لاحقًا هذه النتائج، مشيرةً إلى تصدر Janus-Pro قائمة المتصدرين الرسمية، وعزت ذلك إلى أنظمة التدريب المُحسّنة وإدراج 80 مليون صورة تركيبية مُتوازنة مع بيانات العالم الحقيقي.

  • GenEval (دقة تحويل النص إلى صورة): يحقق Janus Pro-7B دقة إجمالية بنسبة 80% مقابل 67% لـ DALL-E 3 من OpenAI و74% لـ Stable Diffusion 3 Medium.
  • DPG-Bench (التعامل الفوري الكثيف): حصل Janus Pro-7B على 84.19 نقطة، متفوقًا بفارق ضئيل على Stable Diffusion 3 (84.08) و OpenAI's DALL-E 3 (83.50) في أوصاف المشاهد المعقدة.
  • MMBench (الفهم المتعدد الوسائط): يسجل المتغير 7 B درجة 79.2، متجاوزًا Janus الأصلي (69.4) ونماذج المجتمع الأخرى مثل TokenFlow-XL (68.9).

العمارة الفنية

يستخدم Janus-Pro بنية "فرّق تسد" ثنائية المسار: يُعالج مُشفّر الرؤية SigLIP-L مُدخلات تصل إلى 384×384 بكسل، بينما يُدير مُجزّئ VQ المُنفصل عملية التوليد بمعدل تقليص للعينات يبلغ 16×. يُتيح هذا الفصل تحسينًا مُتخصصًا لمسارات الفهم والتوليد، مما يُؤدي إلى استدلال أسرع وعرض أدقّ للتفاصيل مُقارنةً بالتصاميم المُوحّدة.

كيف تقارن Janus-Pro مع منافسيها في الصناعة؟

الأداء ضد DALL-E 3 والانتشار المستقر

تُظهر التقييمات المستقلة تفوق Janus-Pro في متابعة المطالبات المعقدة (DPG-Bench: 84.2% مقابل 74% لـ Stable Diffusion 3 وحوالي 67% لـ DALL-E 3). نوعيًا، أفاد المستخدمون بتكوين مشهد أكثر تماسكًا، وملمس أغنى، وتشوهات أقل - مع أن بعض السيناريوهات الاستثنائية، مثل تفاصيل الوجه الدقيقة عن بُعد، لا تزال تُشكّل تحديًا للنموذج.

النماذج مفتوحة المصدر مقابل النماذج الملكية

يتناقض ترخيص DeepSeek المتساهل مع الشروط الأكثر تقييدًا لتراخيص OpenAI وStability AI، مما يتيح نشرًا محليًا غير مقيد وضبطًا دقيقًا مخصصًا من قِبل المطورين. وقد شجع هذا الانفتاح على تجارب مجتمعية سريعة، ولكنه أثار أيضًا مخاوف على مستوى المؤسسات بشأن التحكم في الإصدارات والدعم. غالبًا ما توفر النماذج الاحتكارية دقة أصلية أعلى (على سبيل المثال، يمكن لـ DALL-E 3 عرض ما يصل إلى 1 × 024 بكسل)، بينما يظل Janus-Pro محدودًا بدقة 1 × 024 ما لم تتم ترقيته خارجيًا.

ما هي القيود والتحديات المحتملة؟

قيود الدقة والتفاصيل

يحدّ حجم الإخراج البالغ 384×384 بكسل من إمكانية استخدام Janus-Pro في طباعة الأصول عالية الجودة أو الوسائط كبيرة الحجم، مما يستلزم غالبًا رفع مستوى الدقة أو تحسينها خارجيًا. تشير مناقشات مجتمع Hugging Face إلى أن مُشفّر تقليل العينة بمقدار 16× قد يُسبب عتامة في التفاصيل الدقيقة، مما يؤثر على وضوح الأجسام البعيدة.

مخاوف الأمن والخصوصية

باعتبارها منصة صينية، تخضع ممارسات بيانات DeepSeek للتدقيق بموجب تفويضات تبادل المعلومات الاستخباراتية الصادرة عن الحزب الشيوعي الصيني. ويحذر باحثو رابطة الدول المستقلة من أن دمج نماذج DeepSeek قد يعرض البيانات الخاصة أو الشخصية للاختراق التنظيمي، مما يُشكل مخاطر امتثال للشركات العالمية. رابطة الدول المستقلةبالإضافة إلى ذلك، قد يؤدي نشر البرامج مفتوحة المصدر إلى استخدام غير مصرح به أو ضار في إنشاء المحتوى المزيف العميق، مما يؤدي إلى تفاقم تحديات المعلومات المضللة.

كيف يمكن للمستخدمين الوصول إلى Janus Pro؟

من بين الميزات المميزة لبرنامج Janus Pro إمكانية الوصول إليه على نطاق واسع: حيث يتوفر النموذج بتنسيقات متعددة لتناسب الباحثين والشركات والهواة على حد سواء.

الإصدارات والمستودعات مفتوحة المصدر

جميع أكواد Janus Pro وأوزانها منشورة بموجب ترخيص MIT على مستودع DeepSeek الرسمي على GitHub. يتضمن الإصدار نقاط تفتيش النماذج، ونصوص الاستدلال، وكود التقييم المتوافق مع مجموعة أدوات VLMEvalKit.

تكامل وجه العناق

نشرت DeepSeek كلا النموذجين على منصة Hugging Face's Model Hub، مع نماذج دفاتر ملاحظات لمستخدمي Python. يتطلب التثبيت فقط pip install transformers accelerate ونص قصير لتحميل deepseek/janus-pro-7b نموذج يسمح بالتجريب الفوري.

واجهات برمجة التطبيقات التجارية ومنصات السحابة

للمستخدمين الباحثين عن خدمات مُدارة، يُقدم العديد من مُزودي الخدمات السحابية ومنصات واجهات برمجة تطبيقات الذكاء الاصطناعي - مثل Helicone وJanusAI.pro - نقاط نهاية Janus Pro المُستضافة. تدعم هذه الخدمات مكالمات RESTful، ومعالجة الدفعات، وخيارات الضبط الدقيق المُخصصة، مع فئات أسعار مُخصصة تُناسب العروض المُماثلة المُقدمة من مُزودي خدمات أكبر.

ما الذي ينتظرنا في مجال توليد الصور بواسطة DeepSeek؟

ترقيات النموذج القادمة

وفقًا لمصادر مطلعة، تُعجّل DeepSeek إصدار نموذج استدلال R2 وخليفة لـ Janus-Pro، والذي يُحتمل أن يُطلق عليه اسم Janus-Ultra، قبل منتصف عام 2025 للحفاظ على زخمه. من المتوقع أن تشمل التحسينات دقة أصلية أعلى، ووحدات رفع مستوى مُحسّنة، ومحاذاة مُحسّنة للوسائط المتعددة.

الاعتبارات الصناعية والتنظيمية

مع رفع القيود الأمريكية على تصدير الرقائق وتزايد المنافسة العالمية، قد تجد DeepSeek فرصًا للتعاون عبر الحدود. ومع ذلك، فإن لوائح الذكاء الاصطناعي المتطورة - مثل قانون الذكاء الاصطناعي الأوروبي والضمانات الأمريكية المحتملة للنماذج التوليدية - قد تفرض حوكمة أكثر صرامة على مصادر بيانات التدريب وتدقيق المخرجات، مما يؤثر على توزيع نماذج DeepSeek مفتوحة المصدر.


الخاتمة

يُمثل Janus Pro من DeepSeek نقطة تحول في مجال الذكاء الاصطناعي متعدد الوسائط مفتوح المصدر، مُثبتًا أن النماذج المُدارة من قِبل المجتمع قادرة على مُضاهاة العروض الحصرية، بل وتتفوق عليها في بعض المجالات. بفضل معاييرها القوية وتطبيقاتها المُتعددة وإمكانية الوصول غير المُقيدة، تُمكّن Janus Pro المُطورين والباحثين والمُبدعين حول العالم. مع تطور مشهد الذكاء الاصطناعي، سيكون التزام DeepSeek بالشفافية والتكرار السريع أمرًا بالغ الأهمية في صياغة ابتكارات مسؤولة ومُتطورة. سواءً لتصميم مواد تسويقية، أو لتطوير التصور العلمي، أو لتعزيز أدوات مجتمعية جديدة، فإن Janus Pro مُستعد لإعادة تعريف إمكانيات توليد النصوص إلى صور.

كيف تبدأ

يوفر CometAPI واجهة REST موحدة تجمع مئات نماذج الذكاء الاصطناعي ضمن نقطة نهاية متسقة، مع إدارة مدمجة لمفاتيح واجهة برمجة التطبيقات، وحصص استخدام، ولوحات معلومات للفواتير. بدلاً من إدارة عناوين URL وبيانات اعتماد متعددة للموردين، يمكنك توجيه عميلك إلى عنوان URL الأساسي وتحديد النموذج المستهدف في كل طلب.

يمكن للمطورين الوصول إلى واجهة برمجة التطبيقات الخاصة بـ DeepSeek مثل DeepSeek-V3(اسم النموذج: deepseek-v3-250324) و Deepseek R1 (اسم الطراز: deepseek-ai/deepseek-r1) من خلال كوميت ايه بي اي.للبدء، استكشف قدرات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API.

هل أنت جديد في CometAPI؟ ابدأ تجربة مجانية بقيمة 1 دولار وأطلق العنان لسورا في أصعب المهام لديك.

نتطلع بشوق لرؤية ما ستُبدعه. إذا وجدتَ أي شيء لا يُناسبك، فانقر على زر التعليقات - فإخبارنا بالخطأ هو أسرع طريقة لتحسينه.

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%