DeepSeek-V3.1-Terminus: الميزات والمعايير والأهمية

DeepSeek-V3.1-Terminus هو أحدث تطوير لسلسلة DeepSeek، وهو نموذج لغة واسع النطاق (LLM) هجين وموجه للوكلاء، تضعه DeepSeek كحلقة وصل بين نماذج الدردشة التقليدية وأنظمة الوكلاء الأكثر كفاءة. بدلاً من شبكة أساسية جديدة كليًا، يُقدم Terminus كتحديث موجه لحزمة الخدمات لسلسلة V3.1، يركز على الاستقرار، واتساق اللغة، وتحسين أداء الوكلاء/الأدوات (لا سيما وكلاء الكود والبحث). الإصدار متاح بالفعل عبر واجهة برمجة تطبيقات DeepSeek، وتوزيع Hugging Face، وقد تم دمجه في أنظمة متعددة لمقدمي الخدمة.

سأشرح النموذج بالتفصيل أدناه.

ما هو DeepSeek-V3.1-Terminus؟

DeepSeek-V3.1-Terminus هو أحدث إصدار نقطي من سلسلة DeepSeek V3، وهو تحسين مُركّز على الاستقرار والوكيل لنماذج Mixture-of-Experts (MoE) عالية السعة التي تقدمها الشركة. يُركز تحديث DeepSeek-V3.1-Terminus على مشكلتين عمليتين واجهتا المستخدم في إصدارات V3 السابقة: خلل متقطع في خلط اللغات/الأحرف، وسلوك غير متسق للوكيل/الأداة. تصف DeepSeek هذا الإصدار بأنه خطوة صيانة وتقوية تحافظ على قدرات V3 الخام مع تحسين الاستقرار، واستخدام أدوات الوكيل (لا سيما وكيل الكود ووكيل البحث)، وموثوقية معايير الأداء المتعددة. يتوفر النموذج والأوزان عبر قنوات DeepSeek وعلى Hugging Face.

ماذا يعني هذا عمليا:

إنه ترقية تدريجية لـ DeepSeek V3.1 تركز على استخدام الوكيل/الأداة (وكيل الكود، وكيل البحث) وتحسينات التفكير متعدد الخطوات.
أفاد الفريق بوجود عدد أقل من أخطاء خلط اللغة ومخرجات أكثر استقرارًا مقارنة بالإصدار V3.1 السابق.
إنه يدعم كل من قوالب الدردشة "التفكير" و"عدم التفكير" (أوضاع التفكير الهجينة) والأدوات المنظمة التي تستدعي سير عمل الوكيل.

ما هو التصميم المعماري الواسع؟

DeepSeek-V3.1 (وتحديث Terminus بالتبعية) هو نموذج استدلال هجين كبير: يمزج هذا النموذج بين أسلوب التدرج بمزيج كبير من الخبراء (MoE) وتوجيه المعلمات النشط، مما يسمح للنظام بالعمل في وضع "التفكير" (استدلال داخلي مكثف، وتخطيط الأدوات) ووضع "الدردشة غير التفكيرية" (زمن وصول أقل، واستجابات مباشرة). يُتاح هذا التصميم الهجين للمطورين من خلال قوالب دردشة وأوضاع تشغيل مختلفة، بدلاً من نماذج منفصلة - تدعم الشبكة الأساسية نفسها كلا السلوكين.

كيف يتم دمج "الوكلاء" في الهندسة المعمارية؟

تعتمد قدرة DeepSeek الوكيلة على استدلال النموذج الأساسي: تُنفَّذ وحدات وكلاء متخصصة (وكيل الكود، وكيل البحث، وكيل التصفح، وكيل الطرفية) كسلوكيات استخدام أدوات موجهة يمكن للنموذج تعلم استدعائها. يُحسِّن DeepSeek-V3.1-Terminus موثوقية وتنسيق هذه الوكلاء من خلال تحسينات ما بعد التدريب وقوالب مطالبات مُحسَّنة. عمليًا، لا تُمثِّل هذه الوكلاء شبكات عصبية منفصلة، بل أنماط سلوك مُدرَّبة (وأحيانًا وحدات تحكم خفيفة الوزن) تُوجِّه النموذج الأساسي متى وكيف يستدعي أدوات أو إجراءات خارجية.

ما هي التحسينات الرئيسية في V3.1-Terminus؟

ما هي مشاكل المستخدمين التي يعالجها Terminus؟

تم إصدار DeepSeek-V3.1-Terminus في الغالب استجابة لفئتين عمليتين من تعليقات المستخدمين:

استقرار اللغة: أبلغ المستخدمون عن اختلاط لغوي عرضي (دمج نقاط الشفرات الصينية/الإنجليزية في المخرجات)، وأحرف مشتتة أو "مشوهة"، وتشوهات في عملية الترميز في سياقات متعددة اللغات. يتضمن DeepSeek-V3.1-Terminus إصلاحات تهدف إلى الحد من هذه المشاكل.
موثوقية الوكيل: طلب المستخدمون سلوكًا أكثر متانة وقابلية للتكرار من النموذج عند استدعاء سلاسل الأدوات (وكيل الشفرة، وكيل البحث، وكيل المحطة الطرفية). يحتوي DeepSeek-V3.1-Terminus على تغييرات ما بعد التدريب والموجِّهات/القالب، بهدف تثبيت استخدام الأدوات وتقليل هلوسات الوكيل أو عدم اكتمال تنفيذ الخطة.

الحلول

صُمم DeepSeek-V3.1-Terminus كإصدار عالي الجودة ومتين. تُدرج الشركة العديد من الإصلاحات والتحسينات الملموسة:

إصلاحات اتساق اللغة: تقليل الخلط غير المتوقع بين اللغتين الصينية والإنجليزية وإزالة الأحرف غير الطبيعية النادرة التي تظهر أحيانًا في المخرجات.
متانة الوكيل: تحسينات ملحوظة على وكيل الكود ووكيل البحث، مع دقة أعلى في استدعاء الأدوات وتقليل استدعاءات الأدوات غير الدقيقة. يُحسّن Terminus عملية تسليم أوامر وكيل الكود إلى المُنفّذ، ويُحسّن تفسير نتائج البحث بواسطة وكيل البحث، ويُقلّل من أخطاء الترميز الزائفة أثناء العمليات المتسلسلة - كل ذلك بهدف جعل سير عمل الوكيل الشامل (مثل: الاستعلام ← البحث ← إنشاء الكود ← التنفيذ) أكثر حتمية وأقل عرضة للأخطاء.
الاستقرار عبر المعايير المرجعية: أفاد الفريق بنتائج أكثر استقرارًا (تباين أقل) عبر معايير مشتركة مقارنة بإصدارات V3 السابقة.

يُصنّف DeepSeek Terminus على أنه متوافق مع نقاط تكامل الإصدار 3.1 الحالية - حيث تمت ترقية نقاط نهاية الدردشة و"reasoner" في مكانها. من الناحية الهندسية، يجعل هذا Terminus إصدارًا إضافيًا للموثوقية والجودة، وليس تغييرًا جذريًا في واجهة برمجة التطبيقات، مع أنه يُمكن توقع سلوك خاص بالخدمة (مثل اختلافات طفيفة في زمن الوصول في وضع التفكير) للتطبيقات التي تعتمد على توقيت دقيق.

كيف يعمل DeepSeek-V3.1-Terminus على المعايير؟

ما هي أرقام المعايير التي نشرتها DeepSeek؟

نشرت DeepSeek نتائج مقارنة معيارية للإصدارين V3.1 وV3.1-Terminus عبر مجموعة من اختبارات الاستدلال، والبرمجة، والاختبارات الوكيلة، والاختبارات متعددة اللغات. تشمل العناصر التمثيلية من الجدول المتاح للجمهور ما يلي:

MMLU-Pro (الاستدلال): V3.1 = 84.8 → النهاية = 85.0.
GPQA-الماس: 80.1 → 80.7.
آخر امتحان للإنسانية: 15.9 → 21.7 (ارتفاع ملحوظ على معيار متخصص).
LiveCodeBench / الكود: 74.8 → 74.9 (مكسب صغير).
كودفورسز (النتيجة): 2091 → 2046 (اختلاف طفيف في النتيجة الإجمالية لمسابقة الترميز).

تظهر معايير استخدام الوكيل/الأداة تحسينات نسبية أكبر:

BrowseComp (التنقل عبر الويب الوكيل): 30.0 → 38.5.
مقعد المحطة الطرفية (كفاءة سطر الأوامر): 31.3 → 36.7.
تم التحقق من SWE (التحقق من هندسة البرمجيات): 66.0 → 68.4.
SimpleQA (دقة ضمان الجودة): 93.4 → 96.8.

تشير هذه الأرقام إلى أنه على الرغم من أن مكاسب التفكير الخام متواضعة، فإن القدرات الوكيلة واستخدام الأدوات تحسنت بشكل ملموس - وهي بالضبط المجالات التي استهدفتها DeepSeek في Terminus.

تعني المعايير من الناحية العملية ما يلي:

مكاسب منطقية صغيرة تشير إلى أن أوزان النموذج الأساسي لم تتغير بشكل كبير؛ جاءت التحسينات من تحسين تنظيم بيانات التدريب وأنابيب الاستدلال.
مكاسب وكلاء أكبر يشير هذا إلى أن النموذج يختار الآن ويستخدم الأدوات بشكل أكثر موثوقية، مما يؤدي إلى أداء مهام أفضل في العالم الحقيقي مثل البحث على الويب متعدد الخطوات، ودورات إنشاء التعليمات البرمجية + الاختبار، وأتمتة سطر الأوامر.

ما هي الميزات المتقدمة التي يوفرها DeepSeek-V3.1-Terminus؟

مجموعة أدوات Agentic: Code Agent، وSearch Agent، وTerminal Agent

تعمل Terminus على مضاعفة الميزات الوكيلة التي تتيح للمطورين تنظيم سير العمل الخارجية متعددة الخطوات:

وكيل الكود: يُولّد شيفرةً قابلةً للتنفيذ، ويُشغّل حلقات التنفيذ (في بيئات عمل مُزوّد الخدمة)، ويُوفّر مساعدةً في تصحيح الأخطاء بشكل تكراري. يهدف التحديث إلى تقليل المقاطع المشوهة وتحسين التفكير التدريجي للمهام الخوارزمية.
وكيل البحث / وكيل التصفح: يُسلسل استعلامات ويب متعددة الخطوات، ويدمج نتائج البحث، ويُجمّع الإجابات من البيانات المُستَلمة. تُشير دلتا BrowseComp المنشورة إلى استقرار أفضل في التصفح.
وكيل المحطة الطرفية: مُصمم للتفاعل مع مهام shell/terminal (مثل إنشاء تسلسلات أوامر متعددة، وتحليل المخرجات)، ويُستخدم في تقييمات "اختبارات الطرفية" حيث يجب على النموذج تخطيط وتنفيذ تسلسلات الأوامر. يُظهر Terminus أداءً مُحسّنًا في اختبارات الطرفية.

أوضاع التشغيل الهجينة للتفكير/عدم التفكير

من تفاصيل التصميم العملية أن النموذج يدعم نموذجًا "مفكرًا" (مزيدًا من الحوسبة الداخلية، وتخطيطًا أفضل) ونموذجًا "غير مفكر" أو نموذج دردشة (زمن انتقال أقل). يعرض DeepSeek كلا النموذجين عبر متغيرات نقطة النهاية (deepseek-chat و deepseek-reasoner) ليتمكن المُدمجون من اختيار ملف تعريف الجودة/الزمن لكل طلب. تُوحّد Terminus هذه القوالب وتُحسّنها لتقليل اختلافات السلوك غير المألوفة التي لوحظت في إصدارات V3.1 السابقة.

بيئة عمل المطور: القوالب والعروض التوضيحية وشجرة النماذج

نشرت DeepSeek أمثلة استدلالية مُحدثة، وشجرة نموذجية أوضح على Hugging Face، وأوزانًا مُكممة للسماح بالتجارب المحلية أو على الحافة. هذا التركيز على عناصر النشر (النماذج المُكممة، كود عرض الاستدلال) يُخفف من صعوبة تجربة النموذج في بيئاتهم الخاصة.

ماذا يعني Terminus للمطورين؟

إذا كنت تستخدم DeepSeek V3.1 بالفعل: من المتوقع أن يكون DeepSeek-V3.1-Terminus ترقيةً سهلةً تُركز على الموثوقية. من المرجح أن تشهد الفرق التي اعتمدت على ميزات الوكيل (البحث، وتنفيذ التعليمات البرمجية، وسير عمل المحطة الطرفية) تحسيناتٍ عملية. قامت الشركة بتحديث نقاط النهاية الموضعية، لذا من المتوقع أن تكون تغييرات التكامل ضئيلة.
إذا قمت بتقييم النماذج للتطبيقات التي تعتمد على أدوات كثيرة: يُركّز DeepSeek-V3.1-Terminus على استقرار الوكيل، وهو أمرٌ جديرٌ بإضافته إلى قائمتك المختصرة إذا كان تطبيقك يحتاج إلى تنسيق متعدد الخطوات للأدوات. مع ذلك، يُنصح بتشغيل إجراءاتك المعيارية الخاصة والمطالبات التنافسية ذات الصلة بمجالك.

الاستنتاج - هل DeepSeek-V3.1-Terminus مهم؟

يُفهم إصدار DeepSeek-V3.1-Terminus على أنه إصدار مُستهدف للجودة والموثوقية: فهو لا يُعيد تصميم عائلة التطبيقات أو يُغير نطاقها جذريًا، ولكنه يُعالج المشكلات العملية المُلحة التي تؤثر على عمليات النشر في الإنتاج - استقرار اللغة، وموثوقية أدوات الوكيل، وتحقيق مكاسب معيارية صغيرة ولكنها جوهرية في مهام الوكيل. بالنسبة للمطورين الذين يعتمدون على تدفقات أدوات متكاملة متعددة الخطوات (تنسيق البحث، وتوليد وتنفيذ الكود، وأتمتة الطرفية)، يُمثل Terminus خطوةً مهمةً إلى الأمام. أما بالنسبة لأولئك الذين يُركزون بشكل صارم على معايير الاستدلال الأولية أحادية المسار، فستكون المكاسب متواضعة.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

يمكن للمطورين الوصول إلى DeepSeek-V3.1-Terminus من خلال CometAPI، أحدث إصدار للنموذج يتم تحديثه دائمًا بالموقع الرسمي. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

هل أنت مستعد للذهاب؟→ سجل في CometAPI اليوم !