كيف يعمل Qwen3؟

يُمثل Qwen3 قفزة نوعية في مجال نماذج اللغات الكبيرة مفتوحة المصدر (LLMs)، إذ يجمع بين قدرات التفكير المنطقي المتطورة والكفاءة العالية وإمكانية الوصول الواسعة. وقد طورته فرق البحث والحوسبة السحابية في علي بابا، وهو قادر على منافسة الأنظمة الملكية الرائدة مثل GPT-3x من OpenAI وPaLM من جوجل، مع بقائه مفتوح المصدر بالكامل بموجب ترخيص Apache 4. يستكشف هذا المقال بعمق كيفية تصميم Qwen2.0، وآلياته الأساسية، ونظام التدريب الذي صقل قدراته، والسبل التي يمكن من خلالها للمطورين حول العالم الاستفادة من قوته.

ما هو Qwen3 ولماذا هو مهم؟

لقد أحدثت نماذج اللغات الكبيرة نقلة نوعية في فهم اللغة الطبيعية وتوليدها، حيث عززت كل شيء بدءًا من برامج المحادثة وصولًا إلى برامج المساعدة البرمجية. يُعد Qwen3 أحدث إصدار من عائلة Qwen من Alibaba، بعد Qwen2.5 ومتغيراته، ويجسد العديد من الابتكارات الرائدة:

التفكير الهجين:يدمج بسلاسة بين أوضاع "التفكير" و"عدم التفكير" في بنية واحدة، مما يسمح بالتخصيص الديناميكي للموارد الحسابية بناءً على تعقيد المهمة.
خيارات مزيج الخبراء (MoE):يوفر نماذج تعمل على تنشيط مجموعة فرعية فقط من وحدات الخبراء المتخصصة لكل استعلام، مما يعزز الكفاءة دون التضحية بالأداء.
تنوع النطاق:تتراوح من النماذج الخفيفة ذات الكثافة البالغة 0.6 مليار معلمة إلى المتغيرات المتفرقة الضخمة المكونة من 235 مليار معلمة، والتي تلبي سيناريوهات النشر المتنوعة.
نوافذ السياق الممتدة:تدعم معظم الإصدارات الأكبر حجمًا ما يصل إلى 128 ألف سياق رمزي، مما يسهل المستندات الطويلة وقواعد البيانات والمحادثات المتعددة الوسائط.
اتساع متعدد اللغات:تم تدريبه على 36 تريليون رمز يمتد على 119 لغة ولهجة، مما يمكّن التطبيقات العالمية حقًا.

تضع هذه الخصائص Qwen3 ليس فقط كأفضل أداء في معايير توليد التعليمات البرمجية، والتفكير الرياضي، ومهام الوكيل، ولكن أيضًا كحل مرن وفعال من حيث التكلفة للنشر في العالم الحقيقي.

ما هي الهندسة المعمارية التي يستخدمها Qwen3؟

إطار التفكير الموحد

غالبًا ما تفصل أنظمة إدارة التعلم التقليدية (LLM) بين النماذج المُحسّنة للدردشة (مثل GPT-4o) ونماذج الاستدلال المتخصصة (مثل QwQ-32B). يُلغي Qwen3 هذا التقسيم بتضمين كلٍّ من الاستدلال السريع "غير المُفكّر" المُوجّه بالسياق، وعمليات "التفكير" العميقة متعددة الخطوات، ضمن النموذج نفسه. يُفعّل رمز الوضع أو علامة واجهة برمجة التطبيقات (API) إما طبقات انتباه خفيفة للمهام البسيطة، أو خطوط استدلال تكرارية أعمق للاستعلامات المُعقدة.

متغيرات مزيج الخبراء (MoE)

تعتمد بعض نماذج Qwen3 بنية MoE، حيث تتكون الشبكة من مئات الوحدات الفرعية المتخصصة، ولكن يتم تنشيط مجموعة فرعية صغيرة فقط ذات صلة بالمهمة أثناء التشغيل. هذا يُحقق وفورات كبيرة في الحوسبة - حيث يُعالج الخبراء الأكثر صلة فقط كل رمز - مع الحفاظ على دقة عالية في معايير الاستدلال.

النماذج الكثيفة ونماذج مزيج الخبراء

لتحقيق التوازن بين الكفاءة والسعة، تتألف عائلة Qwen3 من ستة نماذج كثيفة (0.6B، 1.7B، 4B، 8B، 14B، و32B من المعلمات) إلى جانب متغيرين من MoE (30B مع 3B من المعلمات النشطة، و235B مع 22B من المعلمات النشطة). توفر النماذج الكثيفة استدلالًا مبسطًا للبيئات محدودة الموارد، بينما تستفيد هياكل MoE من التنشيط المتفرق للحفاظ على سعة عالية دون زيادات خطية في تكلفة الحوسبة.

تُخفف هياكل مزيج الخبراء (MoE) من أعباء الذاكرة والحوسبة في النماذج الكبيرة الكثيفة، وذلك بتفعيل جزء بسيط فقط من معلمات الشبكة لكل رمز. يوفر Qwen3 نسختين متفرقتين:

30B-معامل MoE (3B معلمات نشطة لكل رمز)
235B-معامل MoE (22B معلمات نشطة لكل رمز)

تُضاهي هذه العائلات المتفرقة أداء نظيراتها الكثيفة، بل وتتفوق عليه، في معايير الأداء، مع خفض تكاليف الاستدلال، وهو أمر بالغ الأهمية للتطبيقات الفورية والنشر واسع النطاق. تُظهر الاختبارات الداخلية لشركة علي بابا أن متغيرات MoE تُحقق أوقات استدلال أسرع بما يصل إلى 60 مرة على أجهزة متخصصة مثل محركات Cerebras التي تعمل على نطاق الرقاقات.

وضع التفكير ووضع عدم التفكير

إن الابتكار المميز في Qwen3 هو تصميمه ثنائي الوضع: وضع التفكير للمهام المنطقية المعقدة متعددة الخطوات، و وضع عدم التفكير لاستجابات سريعة وموجهة حسب السياق. بدلاً من الاحتفاظ بنماذج متخصصة منفصلة، يدمج Qwen3 كلتا القدرات ضمن بنية موحدة. يتم تمكين ذلك من خلال ديناميكية آلية التفكير في الميزانية، والذي يخصص الموارد الحسابية بشكل تكيفي أثناء الاستدلال، مما يسمح للنموذج بالموازنة بشكل مرن بين زمن الوصول وعمق التفكير استنادًا إلى تعقيد الإدخال.

التبديل في الوضع الديناميكي

عند تلقي مُطالبة، يُقيّم Qwen3 تعقيد التفكير المطلوب بناءً على عتبات مُحددة مُسبقًا. تُفعّل الاستعلامات البسيطة وضع عدم التفكير، مُعطيةً استجابات في غضون ميلي ثانية، بينما تُفعّل المهام المُعقدة متعددة القفزات - مثل البراهين الرياضية أو التخطيط الاستراتيجي - وضع التفكير، مُخصصةً طبقات مُحوّلات ورؤوس انتباه إضافية حسب الحاجة. يُمكن للمطورين أيضًا تخصيص مُحفّزات تبديل الوضع عبر قوالب الدردشة أو مُعلمات واجهة برمجة التطبيقات، مُصممين بذلك تجربة المستخدم لتطبيقات مُحددة.

وضع عدم التفكير:يخصص الحد الأدنى من الطبقات/استدعاءات الخبراء، مما يعمل على تحسين زمن الوصول والإنتاجية.
وضع التفكير:يمتد الرسم البياني الحسابي بشكل ديناميكي، مما يتيح التفكير متعدد القفزات وتسلسل الأسئلة الفرعية داخليًا.
التبديل التكيفي:يمكن للنموذج التحول بشكل مستقل بين الأوضاع أثناء الاستدلال إذا كانت تعقيدات الاستعلام تتطلب خطوات استدلال إضافية.

كفاءة الاستدلال والزمن الكامن

بالتعاون مع شركاء متخصصين في الأجهزة مثل Cerebras Systems، يحقق Qwen3-32B أداءً في الاستدلال الفوري. تُظهر الاختبارات المعيارية على منصة Cerebras Inference أوقات استجابة أقل من 1.2 ثانية لمهام الاستدلال المعقدة، أي أسرع بما يصل إلى 60 مرة من النماذج المماثلة مثل DeepSeek R1 وOpenAI o3-mini. يُتيح هذا الأداء منخفض الكمون للوكلاء ومساعدي الطيارين استخدامًا عمليًا في بيئات تفاعلية، بدءًا من روبوتات الدردشة لدعم العملاء ووصولًا إلى أنظمة دعم القرار الفوري.

النشر وإمكانية الوصول

الإصدار والتكامل مفتوح المصدر

في 28 أبريل 2025، أصدرت علي بابا رسميًا Qwen3 بموجب ترخيص Apache 2.0، مما أتاح وصولًا غير مقيد إلى الأوزان والأكواد والوثائق على GitHub وHugging Face. في الأسابيع التي تلت الإطلاق، أصبحت عائلة Qwen3 قابلة للنشر على منصات LLM الرئيسية مثل Ollama وLM Studio وSGLang وvLLM، مما يُبسط الاستدلال المحلي للمطورين والشركات حول العالم.

التنسيقات المرنة ودعم التكميم

لتلبية سيناريوهات نشر متنوعة، بدءًا من استدلالات مراكز البيانات عالية الإنتاجية ووصولًا إلى أجهزة الحافة منخفضة الطاقة، يدعم Qwen3 تنسيقات أوزان متعددة، بما في ذلك التنسيق الموحد المُولّد بتقنية GPT، والتكميم الواعي للتنشيط، والتكميم العام بعد التدريب. تشير الدراسات الأولية إلى أن التكميم بعد التدريب بدقة تتراوح بين 4 و8 بت يُحافظ على أداء تنافسي، على الرغم من أن الدقة المنخفضة للغاية (1-2 بت) تُسبب انخفاضًا ملحوظًا في الدقة، مما يُبرز مجالات بحثية مستقبلية في ضغط LLM الفعّال.

الأداء والقياس

ترتيب المتصدرين

وفقًا لقائمة متصدري LiveBench اعتبارًا من 6 مايو 2025، يُصنّف نموذج Qwen3-235B-A22B الرائد كأفضل نموذج مفتوح المصدر لـ LLM، محققًا المركز السابع إجمالًا بين النماذج المفتوحة والمغلقة، ومحققًا أعلى درجة في مهام متابعة التعليمات. يُؤكد هذا الإنجاز التنافسي لـ Qwen7 مع نظرائه المسجلين مثل GPT-3 وDeepSeek R4.

التقييمات المقارنة

تُبرز التقييمات المستقلة التي أجرتها TechCrunch وVentureBeat الأداء المتفوق لـ Qwen3 في معايير البرمجة والرياضيات. وبالمقارنة مع حلول رائدة مثل DeepSeek R1، وOpenAI's o1، وGemini 2.5-Pro من Google، يُظهر Qwen3-235B-A22B نتائج مماثلة أو مُحسّنة في مجموعة من المهام، بدءًا من تركيب الخوارزميات ووصولًا إلى توليد الأدلة الرسمية.

qwen3

المتغيرات المتخصصة: Qwen3-Math و QwenLong-L1

Qwen3-الرياضيات

Qwen3-Math هو إصدار متخصص مصمم لمهام التفكير الرياضي. يدعم هذا الإصدار كلاً من تسلسل الأفكار (CoT) وتكامل الأدوات (TIR) لحل المسائل الرياضية باللغتين الصينية والإنجليزية. يُحسّن تكامل الأدوات (TIR) قدرة النموذج على إجراء حسابات دقيقة، ومعالجة رمزية، وعمليات خوارزمية، مما يُعالج التحديات في المهام التي تتطلب دقة حسابية عالية.

كوين لونج-L1

QwenLong-L1 هو إطار عمل يُكيّف نماذج الاستدلال واسعة النطاق قصيرة السياق مع سيناريوهات السياق الطويل من خلال التوسع التدريجي للسياق. يستخدم الإطار مرحلة إعداد مُشرفة للضبط الدقيق لوضع سياسة أولية متينة، تليها تقنية تعلّم مُعزّز تدريجي مُوجّه بالمنهج الدراسي لتثبيت تطور السياسة. يُمكّن هذا النهج من استدلال قوي في بيئات كثيفة المعلومات.

التحديات والتوجهات المستقبلية

الهلوسة والصلابة

على الرغم من قوة المقاييس الكمية، يُظهر Qwen3 أحيانًا "هلوسات" في سيناريوهات واقعية أو غامضة السياق. تُركز الأبحاث الجارية على تحسين آليات التوليد والتأريض المُعززة بالاسترجاع لتعزيز دقة الحقائق، حيث تُشير التحليلات الأولية إلى انخفاض في معدلات الهلوسة بنسبة 15-20% عند دمج قواعد المعرفة الخارجية.

التكميم ونشر الحافة

بينما يحافظ التكميم المعتدل على القدرات الأساسية لـ Qwen3، يبقى الضغط الشديد تحديًا. يُعدّ المزيد من التقدم في التدريب متعدد الدقة، وخوارزميات التكميم المتوافقة مع الأجهزة، وهياكل المحولات الفعّالة، أمرًا ضروريًا لتعميم الذكاء الاصطناعي المتطور على الأجهزة المحدودة، مثل الهواتف الذكية، وأجهزة استشعار إنترنت الأشياء، والأنظمة المدمجة.

الخاتمة

يعكس تطوير Qwen3 نقلة نوعية نحو هياكل LLM موحدة وقابلة للتكيف ديناميكيًا، تجمع بين طلاقة المحادثة والتفكير العميق. من خلال إتاحة أوزانها مفتوحة المصدر وتقديم خيارات نشر متعددة - من الاستدلال السحابي إلى التسريع على الجهاز - عزز فريق Qwen التابع لشركة علي بابا التعاون والابتكار العالميين في مجال الذكاء الاصطناعي. وبينما يواجه مجتمع البحث التحديات المتبقية في متانة النماذج، والتكميم، والتكامل متعدد الوسائط، يُعد Qwen3 منصةً أساسيةً للجيل القادم من الأنظمة الذكية في مختلف القطاعات.

كيف تبدأ

يوفر CometAPI واجهة REST موحدة تجمع مئات نماذج الذكاء الاصطناعي، بما في ذلك عائلة ChatGPT، ضمن نقطة نهاية موحدة، مع إدارة مدمجة لمفاتيح واجهة برمجة التطبيقات، وحصص الاستخدام، ولوحات معلومات الفواتير. بدلاً من إدارة عناوين URL وبيانات اعتماد متعددة للموردين.