في أغسطس 2025، أعلنت شركة DeepSeek الصينية الناشئة في مجال الذكاء الاصطناعي عن إطلاق برنامج DeepSeek-V3.1، وهو تحديثٌ للجيل المتوسط تُسوّقه الشركة كخطوةٍ أولى نحو "عصر الوكلاء". يُضيف التحديث وضع استدلالٍ هجينًا (نموذجًا واحدًا يُمكن تشغيله في وضع "التفكير" أو "عدم التفكير")، ونافذة سياقٍ أطول بكثير، وتحسيناتٍ مُستهدفةٍ لما بعد التدريب على استدعاء الأدوات وسلوك الوكلاء متعدد الخطوات.
ما هو DeepSeek-V3.1 ولماذا هو مهم؟
DeepSeek-V3.1 هو أحدث تحديث إنتاجي لسلسلة DeepSeek V3. على مستوى عالٍ، يُعدّ نموذجًا لغويًا هجينًا من عائلة نماذج لغة MoE (سلالة V3) قامت DeepSeek بتدريبه لاحقًا وتوسيعه لدعم وضعي تشغيل مرئيين للمستخدم. ستجد نسختين رئيسيتين: DeepSeek-V3.1-Base وDeepSeek-V3.1 الكامل.
- عدم التفكير (الدردشة العميقة): وضع إكمال الدردشة القياسي المحسن للسرعة والاستخدام المحادثة.
- التفكير (البحث العميق-الاستدلال): نمط التفكير الوكيل الذي يعطي الأولوية للتفكير المنظم متعدد الخطوات وتنسيق الأدوات/الوكلاء.
يركز الإصدار على ثلاثة تحسينات مرئية: خط أنابيب استدلال هجين يوازن بين زمن الوصول والقدرة، وتنسيق أدوات/وكلاء أكثر ذكاءً، ونافذة سياق ممتدة بشكل كبير (يتم الإعلان عنها على أنها 128 ألف رمز).
لماذا يهم: يواصل DeepSeek-V3.1 التوجه السائد في هذا المجال، وهو الجمع بين هياكل MoE فعّالة وواسعة النطاق مع أدوات بدائية ونوافذ سياقية طويلة جدًا. يُعدّ هذا المزيج مهمًا لوكلاء المؤسسات، وسير عمل البحث والاستدلال، وتلخيص المستندات الطويلة، والأتمتة المعتمدة على الأدوات، حيث تكون الإنتاجية والقدرة على "الاستدعاء" إلى أدوات خارجية أمرًا ضروريًا.
ما الذي يجعل DeepSeek-V3.1 مختلفًا عن إصدارات DeepSeek السابقة؟
الاستدلال الهجين: نموذج واحد، وضعان تشغيليان
التغيير المعماري الرئيسي هو الاستدلال الهجينيصف DeepSeek الإصدار 3.1 بأنه يدعم وضعي "التفكير" و"عدم التفكير" داخل نفس نموذج النموذج، ويمكن اختيارهما بتغيير قالب الدردشة أو تبديل واجهة المستخدم (زر "التفكير العميق" في DeepSeek). عمليًا، يعني هذا أنه يمكن توجيه النموذج لإنتاج مسارات استدلال داخلية (مفيدة لسير عمل الوكيل بأسلوب سلسلة الأفكار) أو للاستجابة مباشرةً دون الكشف عن رموز الاستدلال الوسيطة - حسب احتياجات المطور. يقدم DeepSeek هذا كمسار نحو سير عمل أكثر استدلالًا، مع السماح للتطبيقات باختيار الموازنة بين زمن الوصول والإسهاب.
نافذة سياق أكبر وبدائيات رمزية
تقرير ملاحظات الإصدار الرسمية نافذة سياق أكبر بكثير في الإصدار 3.1؛ وضع اختبار المجتمع ومنشورات الشركة السياق الموسع في 128 ألف توكينز لبعض المتغيرات المُستضافة، مما يُتيح إجراء محادثات أطول بكثير، أو تحليل مستندات متعددة، أو قواعد بيانات طويلة تُضاف إلى جلسة واحدة. واستكمالاً لذلك، يُقال إن DeepSeek يُقدم بعض رموز التحكم الخاصة (على سبيل المثال <|search_begin|>/<|search_end|>, <think> / </think>) يهدف إلى هيكلة استدعاءات الأدوات وتحديد أجزاء "التفكير" داخليًا - وهو نمط تصميم يبسط التنسيق مع الأدوات الخارجية.
تم تحسين قدرات العميل/الأداة وتحسين زمن الوصول
تذكر شركة DeepSeek أن الإصدار V3.1 يستفيد من تحسين ما بعد التدريب يُركز هذا النموذج على استدعاء الأدوات ومهام الوكيل متعددة الخطوات: يُقال إن النموذج يُحقق إجابات أسرع في وضع "التفكير" مقارنةً بإصدارات DeepSeek R1 السابقة، وأنه أكثر موثوقية عند استدعاء واجهات برمجة تطبيقات خارجية أو تنفيذ خطط متعددة الخطوات. هذا التموضع - أسرع وأكثر قدرة على الاستدلال على الوكيل - يُمثل ميزةً مميزةً للمنتج بالنسبة للفرق التي تُنشئ مساعدين أو أتمتة أو سير عمل الوكيل.
ما هي البنية التحتية لـ DeepSeek-V3.1؟
يعتمد DeepSeek-V3.1 على الأبحاث الأساسية لعائلة DeepSeek-V3: خليط من الخبراء (MoE) العمود الفقري مع مجموعة من الابتكارات المعمارية المصممة لتحقيق الكفاءة والحجم. يصف التقرير الفني العام لـ DeepSeek-V3 (العائلة الأساسية) ما يلي:
- تصميم MoE كبير مع مئات المليارات من المعلمات الإجمالية و تنشيط عدد المعلمات لكل رمز (تدرج بطاقة النموذج 671B إجمالي المعلمات مع ما يقرب من 37B تنشيط لكل رمز).
- الاهتمام الكامن متعدد الرؤوس (MLA) وأساليب التوجيه والتوسع DeepSeekMoE المخصصة التي تقلل من تكلفة الاستدلال مع الحفاظ على السعة.
- أهداف التدريب واستراتيجيات موازنة التحميل التي تزيل الحاجة إلى مصطلحات خسارة موازنة التحميل المساعدة وتبني أهداف التنبؤ متعددة الرموز لتحسين الإنتاجية ونمذجة التسلسل.
لماذا وزارة التعليم + وزارة الشؤون القانونية؟
يُمكّن مزيج الخبراء النموذج من الحفاظ على عدد كبير من المعاملات النظرية مع تفعيل مجموعة فرعية فقط من الخبراء لكل رمز، مما يُقلل من حساب كل رمز. يُعدّ MLA أحد أشكال الانتباه في DeepSeek، ويساعد النموذج على توسيع نطاق عمليات الانتباه بكفاءة عبر العديد من الخبراء والسياقات الطويلة. تُمكّن هذه الخيارات مجتمعةً من تدريب نقاط تفتيش ضخمة جدًا وتقديم خدماتها، مع الحفاظ على تكاليف الاستدلال القابلة للاستخدام للعديد من عمليات النشر.
كيف يعمل DeepSeek-V3.1 في الاختبارات القياسية والواقعية؟
كيفية مقارنة V3.1، بالكلمات
- أكثر من V3 (0324): يُعد الإصدار 3.1 ترقيةً شاملةً وواضحةً في جميع المجالات، خاصةً في مجال البرمجة والمهام الوكيلة. مثال: برنامج LiveCodeBench يقفز من 43.0 - 56.4 (غير مفكر) و → 74.8 (التفكير)؛ أيدر متعدد اللغات تبدأ من 55.1 → 68.4 / 76.3.
- مقابل R1-0528: تظل R1 نقطة مقارنة قوية "مُضبوطة بالمنطق"، ولكن V3.1-التفكير المتكرر يساوي أو يتجاوز R1-0528 (AIME/HMMT، LiveCodeBench)، مع توفير مسار غير تفكيري للاستخدام منخفض الكمون.
- المعرفة العامة (متغيرات MMLU): فتحات V3.1 أسفل R1-0528 عندما يؤخذ "التفكير" في الاعتبار، ولكن أعلى من V3 الأقدم.
المعرفة العامة والأكاديمية
| معيار القياس (المقياس) | الإصدار 3.1-عدم التفكير | في 3 (0324) | V3.1-التفكير | R1-0528 |
|---|---|---|---|---|
| MMLU-ريدوكس (مطابقة دقيقة) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-Pro (مطابقة دقيقة) | 83.7 | 81.2 | 84.8 | 85.0 |
| GPQA-الماس (تمريرة @ 1) | 74.9 | 68.4 | 80.1 | 81.0 |
ماذا يعني هذا: يتحسن الإصدار 3.1 عن الإصدار 3 في المهام المعرفية/الأكاديمية؛ "التفكير" يضيق الفجوة مع R1 في الأسئلة العلمية الصعبة (GPQA-Diamond).
الترميز (غير الوكيل)
| معيار القياس (المقياس) | الإصدار 3.1-عدم التفكير | في 3 (0324) | V3.1-التفكير | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (تمريرة @ 1) | 56.4 | 43.0 | 74.8 | 73.3 |
| أيدر متعدد اللغات (دقة) | 68.4 | 55.1 | 76.3 | 71.6 |
| كودفورس-القسم 1 (تصنيف) | - | - | 2091 | 1930 |
ملاحظة:
- LiveCodeBench (2408–2505) يشير إلى فترة زمنية مجمعة (أغسطس ٢٠٢٤ → مايو ٢٠٢٥). يعكس النجاح الأعلى في الاختبار الأول دقة أعلى في المحاولة الأولى لمهام برمجة متنوعة.
- أيدر متعدد اللغات يحاكي تحرير الكود بأسلوب المساعد عبر العديد من اللغات؛ V3.1-Thinking يقود المجموعة، V3.1-NonThinking يمثل قفزة كبيرة على V3 (0324).
- تظهر بطاقة النموذج V3 (0324) بنسبة 55.1% على Aider—متوافق مع مدخل لوحة المتصدرين العامة لـ Aider لتلك النسخة. (النتائج الأعلى للإصدار 3.1 جديدة على بطاقة النموذج.)
الترميز (مهام الوكيل)
| معيار القياس (المقياس) | الإصدار 3.1-عدم التفكير | في 3 (0324) | V3.1-التفكير | R1-0528 |
|---|---|---|---|---|
| تم التحقق من SWE (وضع الوكيل) | 66.0 | 45.4 | - | 44.6 |
| SWE-bench متعدد اللغات (وضع الوكيل) | 54.5 | 29.3 | - | 30.5 |
| مقعد المحطة الطرفية (إطار العمل الطرفي 1) | 31.3 | 13.3 | - | 5.7 |
تحذير مهم: وهذه هي تقييمات الوكلاء باستخدام الأطر الداخلية لـ DeepSeek (الأدوات، التنفيذ متعدد الخطوات)، وليست اختبارات فك تشفير الرمز التالي فقط. إنها تستوعب قدرة "ماجستير في القانون + التنسيق". تعامل مع هذه الاختبارات على أنها نظام النتائج (قد تعتمد إمكانية إعادة الإنتاج على مجموعة الوكيل الدقيقة والإعدادات).
الرياضيات والمنطق التنافسي
| معيار القياس (المقياس) | الإصدار 3.1-عدم التفكير | في 3 (0324) | V3.1-التفكير | R1-0528 |
|---|---|---|---|---|
| AIME 2024 (تمريرة @ 1) | 66.3 | 59.4 | 93.1 | 91.4 |
| AIME 2025 (تمريرة @ 1) | 49.8 | 51.3 | 88.4 | 87.5 |
| HMMT 2025 (تمريرة @ 1) | 33.5 | 29.2 | 84.2 | 79.4 |
الوجبات الجاهزة: وضع "التفكير" يقود كبيرة جدا المصاعد في مجموعات مسابقة الرياضيات - V3.1-Thinking تتفوق على R1-0528 في AIME/HMMT في الجولات المبلغ عنها.
ضمان الجودة المعزز بالبحث / "الوكيل"
| معيار القياس (المقياس) | الإصدار 3.1-عدم التفكير | في 3 (0324) | V3.1-التفكير | R1-0528 |
|---|---|---|---|---|
| تصفح | - | - | 30.0 | 8.9 |
| تصفحComp_zh | - | - | 49.2 | 35.7 |
| الامتحان الأخير للبشرية (بايثون + البحث) | - | - | 29.8 | 24.8 |
| سيمبل كيو ايه | - | - | 93.4 | 92.3 |
| الامتحان الأخير للبشرية (نص فقط) | - | - | 15.9 | 17.7 |
ملحوظة: تُصرّح DeepSeek بأن نتائج وكيل البحث تستخدم إطار بحثها الداخلي (واجهة برمجة تطبيقات البحث التجاري + تصفية الصفحات، سياق 128 كيلوبايت). المنهجية مهمة هنا؛ فالإعادة تتطلب أدوات مماثلة.
ما هي القيود والطريق أمامنا؟
يُعد DeepSeek-V3.1 خطوةً هندسيةً وتقنيةً مهمةً في تطوير المنتج: فهو يجمع بين التدريب طويل الأمد والقوالب الهجينة وهندسة MoE في نقطة تفتيش قابلة للاستخدام على نطاق واسع. ومع ذلك، لا تزال هناك بعض القيود:
- لا تزال السلامة الوكيلية في العالم الحقيقي، والهلوسة في تلخيص السياق الطويل، والسلوك الفوري العدائي تتطلب تخفيفات على مستوى النظام.
- إن المعايير المرجعية مشجعة ولكنها ليست موحدة: إذ يختلف الأداء حسب المجال واللغة ومجموعة التقييم؛ كما أن التحقق المستقل ضروري.
- كانت العوامل الجيوسياسية وعوامل سلسلة التوريد - توافر الأجهزة وتوافق الشريحة - تؤثر في السابق على الجدول الزمني لشركة DeepSeek وقد تؤثر على كيفية نشر العملاء على نطاق واسع.
البدء عبر CometAPI
CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.
يمكن للمطورين الوصول ديب سيك R1(deepseek-r1-0528) و DeepSeek-V3.1 من خلال كوميت ايه بي ايأحدث إصدارات الطرازات المدرجة هي اعتبارًا من تاريخ نشر المقال. للبدء، استكشف إمكانيات الطراز في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
الخاتمة
يمثل DeepSeek-V3.1 تحديثًا عمليًا متقدمًا في مجال الهندسة: نافذة سياق أكبر، واستدلال فكري/غير فكري هجين، وتفاعلات أدوات محسنة، وواجهة برمجة تطبيقات متوافقة مع OpenAI تجعله خيارًا جذابًا للفرق التي تبني المساعدون الوكلاء، وتطبيقات السياق الطويل، وسير العمل الموجهة نحو الكود منخفضة التكلفة.
