كيفية تشغيل DeepSeek-V3.1 على جهازك المحلي

CometAPI
AnnaSep 1, 2025
كيفية تشغيل DeepSeek-V3.1 على جهازك المحلي

DeepSeek-V3.1 هو نموذج دردشة هجين من مزيج الخبراء (MoE) أصدرته DeepSeek في أغسطس 2025 ويدعم وضعان للاستدلال — وضع سريع "غير مفكر" ووضع "مُتعمّد" — من نقطة التفتيش نفسها. النموذج متوفر على Hugging Face ويمكن تشغيله محليًا عبر مسارات متعددة (vLLM، Ollama/llama.cpp، GGUFs بنمط Ollama، أو إعدادات واسعة النطاق متعددة وحدات معالجة الرسومات). سأشرح لكم أدناه المتطلبات، وكيفية عمل وضع التفكير، والعديد من خيارات التشغيل المحلي (مع مقتطفات برمجية قابلة للتشغيل)، ووصفة خطوة بخطوة لنشر "وضع التفكير" مع أمثلة لاستدعاء الأدوات وقوالب الرموز.

ما هو DeepSeek-V3.1 ولماذا هو مهم؟

DeepSeek-V3.1 هو تحديث عائلة v3 من DeepSeek الذي يقدم تصميم الاستدلال الهجين:يمكن تشغيل نفس النموذج في تفكير (متعمد، متعدد الخطوات) أو غير مفكر أوضاع (إجابة مباشرة، أسرع) بتغيير قالب الدردشة. من الناحية المعمارية، تُعدّ هذه المجموعة واسعة النطاق من MoE (نقطة تفتيش أساسية تضم حوالي 671 مليار معلمة إجمالية، وحوالي 37 مليار مُفعّلة لكل رمز) مع تدريب طويل الأمد يمتد إلى 128 ألف رمز، ودعم للتوسع الدقيق FP8. صنّفت DeepSeek الإصدار 3.1 كإصدار جاهز للوكيل: استدعاء أدوات أفضل، ومهارات مُحسّنة للوكيل، وكفاءة تفكير أعلى مقارنةً بإصدارات R1 السابقة. أُعلن عن الإصدار في أغسطس 2025، وتم دمجه في Hugging Face، وأدوات CFD/OSS، وأدلة النشر السحابي.

كيف يعمل النموذج الهجين (مختصر)

  • نقطة تفتيش واحدة، قالبين: يتم التحكم في أوضاع التفكير وعدم التفكير بواسطة قالب الدردشة و <think>/</think> اتفاقية الرمز في الموجه. تُوثِّق بطاقة النموذج البادئات الدقيقة.
  • تحسينات الوكيل/الأداة: تمكّن التعزيزات التي تتم بعد التدريب من إجراء مكالمات أدوات أكثر ذكاءً — يتوقع النموذج تنسيق JSON صارمًا لمكالمات الأدوات من أجل تنفيذ أداة آمن وحاسم.
  • مقايضات الأداء: يُنفق نمط التفكير الرموز على التفكير الداخلي بأسلوب سلسلة الأفكار، ويمكن أن يكون أبطأ أو أكثر كثافةً في استخدام الرموز؛ أما نمط عدم التفكير فهو أسرع وأرخص. تُظهر معايير الأداء في بطاقة النموذج تحسيناتٍ كبيرةً في معايير التفكير والترميز للإصدار 3.1.

كيفية بناء النموذج

  • العمود الفقري لوزارة التربية والتعليم:عدد كبير من المعلمات الإجمالية مع مجموعة فرعية نشطة أصغر لكل رمز (استدلال اقتصادي).
  • التدريب على السياق الطويل:يقوم الإصدار V3.1 بتوسيع مراحل السياق الطويل بشكل كبير (32 ألف → تدريب أكبر على المستندات الطويلة) لدعم أكثر من 128 ألف نافذة في بعض الإصدارات.
  • سير العمل الأصلي لـ FP8:يستخدم DeepSeek تنسيقات FP8 على نطاق واسع (w8a8 / UE8M0) لتحقيق كفاءة الوزن/التنشيط؛ توجد نصوص تحويل المجتمع إذا كنت تفضل BF16/FP16.

ما هي متطلبات تشغيل DeepSeek-V3.1 محليًا؟ (الأجهزة، التخزين، والبرامج)

تشغيل بالإضافة إلى نموذج V3.1 (غير مُكمّم) مشروع ضخم. فيما يلي فئات واقعية من الإعدادات وما تتطلبه عادةً.

دلاء عملية

  • مجموعة / مختبر أبحاث (نموذج كامل): وحدات معالجة رسومية متعددة ذات ذاكرة عالية (فئة H100/H800 أو العديد من وحدات معالجة الرسوميات Ada/Hopper)، وعقد متعددة مع عشرات من وحدات معالجة الرسوميات، والكثير من مساحة تخزين NVMe (مئات الجيجابايت)، وأطر استدلال متخصصة (SGLang، وvLLM، وLMDeploy، وTRT-LLM).
  • خادم فردي عالي الجودة (كمي): ممكن مع التكميم الثقيل (INT4/AWQ/AWQ2/gguf) وأطر العمل مثل Ollama (المُجمَّعة مسبقًا) أو GGUFs المجتمعية — لا يزال يتطلب عشرات إلى مئات الجيجابايت من ذاكرة الوصول العشوائي لوحدة معالجة الرسومات أو تفريغ وحدة المعالجة المركزية ووحدة معالجة الرسومات الذكي.
  • كمبيوتر محمول للمطورين / صندوق مطور:غير ممكن بالنسبة للنموذج الكامل؛ استخدم إصدارات صغيرة مقطرة/مضبوطة بدقة أو اتصل بخادم محلي/مثيل Ollama.

قائمة التحقق من الأجهزة (عملية)

  • وحدات معالجة الرسوماتللحصول على معدل إنتاجية استدلالي حقيقي للإصدار 3.1 الكامل: مجموعات متعددة من وحدات معالجة الرسومات (H100 / H800 / Ada Lovelace+). لتنفيذ FP8، يلزم وجود وحدات معالجة رسومات مزودة بقدرات حوسبة ودعم برامج تشغيل.
  • ذاكرة الوصول العشوائي والتخزينتوقع مساحة تخزين فارغة تبلغ مئات الجيجابايت لملفات النماذج (تشير صفحات النماذج إلى بضع مئات الجيجابايت حسب التنسيق/الكمية)، بالإضافة إلى مساحة عمل للتنسيقات المُحوّلة. تُشير بيانات Ollama الوصفية إلى مساحة تخزين تبلغ حوالي 400 جيجابايت لحزمة DeepSeek V3.1 Ollama في المكتبة.
  • شبكة:بالنسبة لاستدلال العقد المتعددة، فأنت بحاجة إلى وصلات ذات زمن انتقال منخفض (NVLink / InfiniBand) وأدوات تنسيق لإعدادات التوازي الموتر.

قائمة التحقق من البرامج

  • OS:يوصى باستخدام Linux لأدوات الاستدلال المجتمعية (تدرج القائمة التجريبية DeepSeek-Infer Linux/Python).
  • Python: 3.10+ (في العديد من أمثلة DeepSeek). إصدارات الحزمة النموذجية مثبتة في المستودع. requirements.txt.
  • الأطر والأدوات (اختر واحدًا أو أكثر): SGLang، vLLM، LMDeploy، TRT-LLM/TensorRT-LLM، LightLLM، أو Ollama لتثبيتات محلية أسهل. كلٌّ منها يحتوي على تعليمات ودعم مختلف للدقة والكمية.

ملاحظة عملية: إذا كان لديك وحدة معالجة رسومية واحدة للمستهلك (على سبيل المثال، 24–48 جيجابايت)، فمن المحتمل أن تستخدم GGUFs كمية أو استدلالًا عن بعد؛ إذا كان لديك محطة عمل تحتوي على >128 جيجابايت من ذاكرة الوصول العشوائي (RAM) بالإضافة إلى مجموعة وحدات معالجة رسومية من فئة H100/H200، فيمكنك استهداف استدلال FP8/FP16 عالي الدقة باستخدام vLLM.


كيف أقوم بتشغيل DeepSeek-V3.1 محليًا؟

فيما يلي العديد من المسارات العملية التي يمكنك استخدامها، من الأكثر يدوية / مرنة إلى المسار الأسهل لصندوق مطور واحد. سأقدم دروسًا تعليمية خطوة بخطوة وأمثلة برمجية


الخيار أ - العرض التوضيحي الرسمي لـ DeepSeek-Infer (مسار التطوير / المجموعة)

هذا مثال/عرض توضيحي للمستودع لاستنتاج FP8/BF16. استخدمه إذا كنت تخطط لعقد متعددة أو ترغب في تجربة كود الاستدلال الرسمي.

  1. استنساخ، إعداد البيئة
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(مستودع inference/requirements.txt (تسرد قوائم الإصدارات المثبتة من torch/triton/transformers التي أوصى بها الفريق.)

  1. تنزيل أوزان النموذج
  • تنزيل من صفحة نموذج Hugging Face (deepseek-ai/DeepSeek-V3.1) ووضعهم تحت /path/to/DeepSeek-V3. تحتوي بطاقة النموذج وملاحظة المستودع على روابط تخزين Hugging Face الرسمية.
  1. تحويل الأوزان للعرض التوضيحي
# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
  1. تشغيل الجيل التفاعلي (الموزع)
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

هذا هو المثال الأساسي من مستودع DeepSeek لعمليات التشغيل على غرار المجموعة.


الخيار ب — vLLM (موصى به لنشر الخادم وواجهة برمجة التطبيقات المتوافقة مع OpenAI)

يدعم vLLM تقنية DeepSeek في وضعي FP8/BF16، ويوفر لك خادمًا متوافقًا مع OpenAI. يُعدّ هذا المسار الإنتاجي شائعًا للنماذج الكبيرة بفضل تحسينات الذاكرة وتوافقه مع واجهات برمجة التطبيقات.

ابدأ تشغيل خادم vLLM الذي سيعمل على جلب النموذج من Hugging Face (مثال على النمط):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

ثم اطلب الإكمالات باستخدام curl أو عميل متوافق مع OpenAI:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

تتضمن وصفات ووثائق vLLM أمثلةً وملاحظاتٍ حول توافق DeepSeek مع FP8 وتوازي وحدات معالجة الرسومات المتعددة/خطوط الأنابيب. بالنسبة للنماذج الثقيلة، ستحتاج إلى وحدات معالجة رسومات متعددة أو إصدار مُكمّم.


الخيار ج — LMDeploy / SGLang / LightLLM & TensorRT-LLM (أداء عالي)

يوصي مستودع DeepSeek صراحةً SGLang, نشر LMو TensorRT-LLM كمحركات مُحسّنة لـ DeepSeek V3. تُحسّن هذه المحركات زمن وصول الاستدلال، والإنتاجية، ونواة FP8.

استدعاء LMDeploy نموذجي (راجع مستندات LMDeploy لمعرفة واجهة سطر الأوامر الدقيقة):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

تتوفر معايير SGLang ووصفات الإطلاق في المستودع وفي مشروع SGLang benchmark/deepseek_v3 استخدم هذه المجموعات عندما تتحكم في مجموعة وحدة معالجة الرسومات وتريد إنتاجية عالية.


الخيار د — أولاما (أسهل طريق للتطوير المحلي، وغالبًا ما يكون على جهاز واحد)

إذا كنت تريد الطريقة الأقل احتكاكًا لتشغيل DeepSeek محليًا (ويمكنك توفير القرص)، أولاما يوفر نماذج مجمعة وواجهة سطر أوامر بسيطة (ollama pull, ollama runيظهر DeepSeek-V3.1 في مكتبة Ollama ويمكن تشغيله محليًا (قد يتطلب Ollama إصدارًا حديثًا/قبل الإصدار لبعض الميزات).

مثال (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

يُلغي Ollama العديد من تفاصيل التوزيع/التكميم، ويُمكن أن يكون وسيلة رائعة لاختبار سلوك النموذج على مُضيف واحد. ملاحظة: تُدرج صفحة النموذج حجمًا مُجمّعًا يبلغ حوالي 404 جيجابايت لمُدخل Ollama، لذا خُطِّط مساحة القرص وذاكرة الوصول العشوائي (RAM) وفقًا لذلك.


ما هو نمط التفكير وكيفية استخدامه

DeepSeek-V3.1 ينفذ رمز التفكير الهجين النهج: يمكن تشغيل نفس نقطة التفتيش في تفكير الوضع (رموز "سلسلة الفكر" الداخلية) أو غير مفكر الوضع عن طريق تغيير قالب الدردشة/المطالبة. يستخدم النموذج رموزًا واضحة مثل <think> (وإغلاق </think> في بعض القوالب) للإشارة إلى سلسلة الأفكار الداخلية مقابل توليد الإجابات المباشرة. توثق بطاقة النموذج البادئات المفكرة وغير المفكرة، وتُظهر اختلاف القوالب.

مثال: إنشاء رسالة في بايثون (مساعد التجزئة)

تتضمن بطاقة نموذج "وجه العناق" مقتطفًا مفيدًا يوضح كيفية تطبيق قالب الدردشة عبر أداة الترميز. هذا هو النمط الموصى به لتوليد تفكير or غير مفكر المطالبات المنسقة:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

مفاتيح thinking=True لإنتاج مطالبة تستخدم <think> بادئة؛ thinking=False يُنتج نموذجًا غير مفكر. سيختلف سلوك النموذج (التدبر الداخلي مقابل الاستجابة الفورية) تبعًا لهذا العلم.


مرجع سريع - استكشاف الأخطاء وإصلاحها الصغيرة وأفضل الممارسات

إذا نفدت ذاكرة وحدة معالجة الرسومات (GPU): جرّب عمليات البناء المُكمّمة (AWQ/q4/INT4) أو GGUFs المجتمعية؛ تنشر العديد من المساحات المجتمعية عمليات البناء المُكمّمة للاستخدام المحلي. يُمكن لـ Ollama / vLLM أيضًا توفير عمليات بناء مُكمّمة أصغر.

إذا كنت بحاجة إلى أن يقوم النموذج باستدعاء أدوات خارجية: اعتماد استدعاء الأداة المخطط في قالب الدردشة دقيق. اختبر صيغة JSON للأداة دون اتصال بالإنترنت، وتأكد من أن كود التنسيق (الجزء الذي يُنفّذ الأداة) يُعيد صيغة JSON مُعدّلة ومكتوبةً إلى النموذج.

إذا كنت بحاجة إلى سياق طويل: استخدم vLLM أو SGLang مع إضافات السياق الطويل؛ تم تدريب/تمديد DeepSeek بشكل صريح لسياقات 32/128 كيلوبايت، والأدوات ذات الصلة تدعم هذه النافذة. توقع تنازلات في الذاكرة.

هل يمكنني تشغيل DeepSeek-V3.1 على كمبيوتر محمول أو خادم صغير؟

الجواب القصير: نعم، ولكن مع بعض التحذيرات. تقلل عمليات التكميم المجتمعية (AWQ/GGUF/ديناميكية 1 بت) من مساحة التخزين والذاكرة بشكل كبير، وقد مكنت الهواة من تشغيل إصدارات V3.1 على أجهزة كمبيوتر سطح المكتب المتطورة (بمطالبات بـ ~170 جيجابايت من مجموعة العمل). ومع ذلك:

  • الموازنة بين الإخلاص والحجم: التكميم العدواني يقلل من الذاكرة، ولكنه قد يؤثر على أداء الاستدلال/البرمجة. اختبره على أحمال عملك.
  • القانونية والترخيص: تم ترخيص النموذج من قبل معهد ماساتشوستس للتكنولوجيا وفقًا لبطاقة النموذج، ولكن قد تحمل الكميات الخاصة بجهات خارجية تراخيصها الخاصة؛ راجعها قبل الاستخدام في الإنتاج.

الكلمات الأخيرة

يُعد DeepSeek-V3.1 خطوةً هامةً نحو نماذج "الوكلاء" الهجينة ذات السلوك التفكيري/غير التفكيري الواضح، واستخدامٍ مُحسّنٍ للأدوات. إذا كنت ترغب في تشغيله محليًا، فاختر مسارًا يتوافق مع أجهزتك وقدرتك على تحمل المخاطر:

للأبحاث: transformers + موترات أمان كمية وتسريع.

للإنتاج والإنتاج: vLLM + وحدة معالجة رسومية متعددة (H100/H200).

للتجارب المحلية: Ollama/llama.cpp + GGUFs المجتمعية (دمج + تشغيل).

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

يمكن للمطورين الوصول برنامج DeepSeek-V3.1 من خلال CometAPI، أحدث إصدارات النماذج المدرجة هي اعتبارًا من تاريخ نشر المقال. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%