اپنے مقامی ڈیوائس پر DeepSeek-V3.1 کو کیسے چلائیں۔

DeepSeek-V3.1 ایک ہائبرڈ مکسچر آف ایکسپرٹس (MoE) چیٹ ماڈل ہے جسے DeepSeek نے اگست 2025 میں جاری کیا ہے جو سپورٹ کرتا ہے۔ دو انفرنس موڈز - ایک تیز "غیر سوچنے والا" موڈ اور جان بوجھ کر "سوچنے" کا موڈ - اسی چوکی سے۔ ماڈل Hugging Face پر دستیاب ہے اور اسے مقامی طور پر کئی راستوں (vLLM، Ollama/llama.cpp، Ollama طرز کے GGUFs، یا بڑے پیمانے پر ملٹی-GPU سیٹ اپ) کے ذریعے چلایا جا سکتا ہے۔ ذیل میں میں آپ کو ضروریات کے بارے میں بتاتا ہوں، سوچنے کا موڈ کیسے کام کرتا ہے، کئی مقامی رن آپشنز (رن ایبل کوڈ کے ٹکڑوں کے ساتھ)، اور ٹول کالنگ اور ٹوکن ٹیمپلیٹس کی مثالوں کے ساتھ مرحلہ وار "تھنکنگ موڈ ڈیپلائی" ترکیب۔

DeepSeek-V3.1 کیا ہے اور اس سے فرق کیوں پڑتا ہے؟

DeepSeek-V3.1 DeepSeek کی طرف سے v3 فیملی اپ ڈیٹ ہے جو متعارف کراتی ہے۔ ہائبرڈ انفرنس ڈیزائن: ایک ہی ماڈل میں چلایا جا سکتا ہے۔ سوچ (جان بوجھ کر، کثیر مرحلہ) یا غیر سوچنے والا چیٹ ٹیمپلیٹ کو تبدیل کرکے (براہ راست جواب، تیز) موڈز۔ آرکیٹیکچرل طور پر یہ ایک بڑا MoE فیملی ہے (بنیادی چوکی تقریباً 671B کل پیرامیٹرز، ~37B فی ٹوکن چالو) کے ساتھ طویل سیاق و سباق کی تربیت 128K ٹوکنز اور FP8 مائیکرو سکیلنگ سپورٹ تک ہے۔ DeepSeek نے V3.1 کو ایجنٹ کے لیے تیار ریلیز کے طور پر پوزیشن میں رکھا: بہتر ٹول کالنگ، بہتر ایجنٹ کی مہارتیں، اور پہلے کی R1 ریلیزز کے مقابلے میں اعلیٰ سوچ کی کارکردگی۔ ریلیز کا اعلان اگست 2025 میں کیا گیا تھا اور اسے Hugging Face، CFD/OSS ٹولنگ، اور کلاؤڈ تعیناتی گائیڈز میں ضم کر دیا گیا ہے۔

ہائبرڈ ماڈل کیسے کام کرتا ہے (مختصر)

ایک چوکی، دو سانچے: سوچ بمقابلہ نان تھنکنگ موڈز کو کنٹرول کیا جاتا ہے۔ چیٹ ٹیمپلیٹ اور ایک <think>/</think> پرامپٹ میں ٹوکن کنونشن۔ ماڈل کارڈ عین مطابق سابقوں کو دستاویز کرتا ہے۔
ایجنٹ/آل کی بہتری: پوسٹ ٹریننگ بوسٹز زیادہ ہوشیار ٹول کالز کو قابل بناتے ہیں — ماڈل کو محفوظ، تعییناتی ٹول کے عمل کے لیے سخت ٹول کال JSON فارمیٹ کی توقع ہے۔
کارکردگی کا سودا: سوچنے کا موڈ داخلی سلسلہ کی سوچ کے انداز کے استدلال پر ٹوکن خرچ کرتا ہے اور سست/زیادہ ٹوکن-انٹینسی ہو سکتا ہے۔ غیر سوچنا تیز اور سستا ہے۔ ماڈل کارڈ میں بینچ مارکس V3.1 کے لیے استدلال اور کوڈ بینچ مارکس میں کافی بہتری دکھاتے ہیں۔

ماڈل کی ساخت کیسے بنتی ہے۔

MoE ریڑھ کی ہڈی: ایک چھوٹے فعال سب سیٹ فی ٹوکن (معاشی تخمینہ) کے ساتھ کل پیرامیٹر کی بڑی تعداد۔
طویل سیاق و سباق کی تربیت: V3.1 کچھ تعمیرات میں 32K+ ونڈوز کو سپورٹ کرنے کے لیے طویل سیاق و سباق کے مراحل کو نمایاں طور پر بڑھاتا ہے (128k → طویل دستاویزات پر بڑی تربیت)۔
FP8 مقامی ورک فلو: DeepSeek FP8 فارمیٹس کو بڑے پیمانے پر استعمال کرتا ہے (w8a8 / UE8M0) وزن/فعالیت کی کارکردگی کے لیے؛ اگر آپ BF16/FP16 کو ترجیح دیتے ہیں تو کمیونٹی کنورژن اسکرپٹس موجود ہیں۔

DeepSeek-V3.1 کو مقامی طور پر چلانے کے لیے کیا تقاضے ہیں؟ (ہارڈ ویئر، اسٹوریج، اور سافٹ ویئر)

چل رہا ہے مکمل V3.1 ماڈل (غیر مقداری) ایک بڑا اقدام ہے۔ ذیل میں سیٹ اپ کے حقیقت پسندانہ زمرے اور ان کی عام طور پر کیا ضرورت ہوتی ہے۔

عملی بالٹیاں

کلسٹر / ریسرچ لیب (مکمل ماڈل): ایک سے زیادہ ہائی میموری والے GPUs (H100/H800 کلاس یا بہت سے Ada/Hopper GPUs)، دسیوں GPUs کے ساتھ ملٹی نوڈ، بہت سے NVMe اسٹوریج (سینکڑوں GBs)، اور خصوصی انفرنس فریم ورک (SGLang, vLLM, LMDeploy, TRT-LLM)۔
سنگل سرور ہائی اینڈ (کوانٹائزڈ): ہیوی کوانٹائزیشن (INT4/AWQ/AWQ2/gguf) اور فریم ورکس جیسے Ollama (prepackaged) یا کمیونٹی GGUFs کے ساتھ ممکن ہے — اب بھی دسیوں سے لے کر سینکڑوں GB GPU RAM یا ہوشیار CPU+GPU آف لوڈ کی ضرورت ہے۔
ڈویلپر لیپ ٹاپ / دیو باکس: مکمل ماڈل کے لیے ممکن نہیں؛ چھوٹی ڈسٹلڈ / فائن ٹیونڈ ویریئنٹس استعمال کریں یا لوکل سرور/اولاما مثال سے جڑیں۔

ہارڈویئر چیک لسٹ (عملی)

GPUs: مکمل V3.1 کے حقیقی انفرنس تھرو پٹ کے لیے: ملٹی-GPU کلسٹرز (H100/H800/Ada Lovelace+)۔ FP8 پر عمل درآمد کے لیے، کمپیوٹ کی صلاحیت کے ساتھ GPUs اور ڈرائیور کی مدد کی ضرورت ہے۔
رام اور اسٹوریج: ماڈل فائلوں کے لیے سینکڑوں جی بی مفت ڈسک کی توقع کریں (ماڈل صفحات فارمیٹ/کوانٹائزیشن کے لحاظ سے چند سیکڑوں جی بی کی فہرست دیتے ہیں)، نیز تبدیل شدہ فارمیٹس کے لیے کام کرنے کی جگہ۔ Ollama میٹا ڈیٹا لائبریری میں DeepSeek V400 Ollama پیکیج کے لیے ~ 3.1GB فٹ پرنٹ کی فہرست دیتا ہے۔
نیٹ ورک: ملٹی نوڈ انفرنس کے لیے آپ کو کم لیٹنسی انٹر کنیکٹس (NVLink/InfiniBand) اور ٹینسر متوازی سیٹ اپ کے لیے آرکیسٹریشن ٹولنگ کی ضرورت ہے۔

سافٹ ویئر چیک لسٹ

OS: لینکس کی سفارش کمیونٹی انفرنس ٹولز کے لیے کی جاتی ہے (DeepSeek-Infer demo lists Linux/python)۔
ازگر: 3.10+ (بہت سی ڈیپ سیک مثالوں میں)۔ عام پیکیج ورژن ریپو میں پن کیے جاتے ہیں۔ requirements.txt.
فریم ورک اور ٹولز (ایک یا زیادہ چنیں): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM، LightLLM، یا اولاما آسان مقامی تنصیبات کے لیے۔ ہر ایک میں ہدایات اور مختلف درستگی/کوانٹائزیشن سپورٹ ہے۔

عملی نوٹ: اگر آپ کے پاس صرف ایک صارف GPU ہے (مثال کے طور پر، 24–48 GB)، تو آپ ممکنہ طور پر کوانٹائزڈ GGUFs یا ریموٹ انفرنس استعمال کریں گے۔ اگر آپ کے پاس 128 GB RAM کے علاوہ H100/H200 کلاس GPU کلسٹر والا ورک سٹیشن ہے، تو آپ vLLM کے ساتھ اعلیٰ مخلص FP8/FP16 تخمینہ کو نشانہ بنا سکتے ہیں۔

میں مقامی طور پر DeepSeek-V3.1 کیسے چلا سکتا ہوں؟

ذیل میں کئی عملی راستے ہیں جنہیں آپ استعمال کر سکتے ہیں، سب سے زیادہ دستی / لچکدار سے لے کر کسی ایک ڈویلپر باکس کے لیے آسان ترین راستے تک۔ میں مرحلہ وار سبق اور کوڈ کی مثالیں فراہم کروں گا۔

آپشن A — آفیشل ڈیپ سیک-انفر ڈیمو (ترقی / کلسٹر پاتھ)

یہ FP8/BF16 تخمینہ کے لیے ریپو کی مثال/ڈیمو ہے۔ اگر آپ ملٹی نوڈ کی منصوبہ بندی کرتے ہیں یا آفیشل انفرنس کوڈ کے ساتھ تجربہ کرنا چاہتے ہیں تو اسے استعمال کریں۔

کلون، ماحول تیار کریں

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(ریپو inference/requirements.txt ٹیم کی طرف سے تجویز کردہ پن ٹارچ/ٹرائٹن/ٹرانسفارمرز ورژنز کی فہرست۔)

ماڈل وزن ڈاؤن لوڈ کریں۔

ہگنگ فیس ماڈل پیج سے ڈاؤن لوڈ کریں (deepseek-ai/DeepSeek-V3.1) اور انہیں نیچے رکھیں /path/to/DeepSeek-V3. ماڈل کارڈ اور ریپو دونوں سرکاری ہگنگ فیس اسٹوریج لنکس کو نوٹ کرتے ہیں۔

ڈیمو کے لیے وزن کو تبدیل کریں۔

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

انٹرایکٹو جنریشن چلائیں (تقسیم شدہ)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

یہ کلسٹر طرز کے رنز کے لیے ڈیپ سیک ریپو سے کینونیکل مثال ہے۔

آپشن B — vLLM (سرور کی تعیناتیوں اور OpenAI کے موافق API کے لیے تجویز کردہ)

vLLM FP8/BF16 موڈز میں DeepSeek کو سپورٹ کرتا ہے اور آپ کو OpenAI سے مطابقت رکھنے والا سرور فراہم کرتا ہے۔ میموری کی اصلاح اور API مطابقت کی وجہ سے یہ بڑے ماڈلز کے لیے ایک مقبول پروڈکشن کا راستہ ہے۔

ایک vLLM سرور شروع کریں جو Hugging Face سے ماڈل لائے گا۔ (مثال کا نمونہ):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

پھر curl یا OpenAI کے موافق کلائنٹ کے ساتھ تکمیل کی درخواست کریں:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM کی ترکیبیں اور دستاویزات میں DeepSeek مثالیں اور FP8 مطابقت اور ملٹی-GPU/پائپ لائن متوازی کے بارے میں نوٹس شامل ہیں۔ بھاری ماڈلز کے لیے آپ کو اب بھی متعدد GPUs یا ایک کوانٹائزڈ ویرینٹ کی ضرورت ہوگی۔

اختیار C — LMDeploy / SGLang / LightLLM اور TensorRT-LLM (اعلی کارکردگی)

ڈیپ سیک ریپو واضح طور پر تجویز کرتا ہے۔ ایس جی لینگ, LMDeploy، اور TensorRT-LLM DeepSeek V3 کے لیے آپٹمائزڈ انجن کے طور پر۔ وہ بہتر انفرنس لیٹینسی، تھرو پٹ، اور FP8 کرنل فراہم کرتے ہیں۔

ایک عام LMDeploy درخواست (بالکل CLI کے لیے LMDeploy دستاویزات سے رجوع کریں):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang بینچ مارکس اور لانچ کی ترکیبیں ریپو اور SGLang پروجیکٹ میں دستیاب ہیں۔ benchmark/deepseek_v3 فولڈر جب آپ GPU کلسٹر کو کنٹرول کرتے ہیں اور پروڈکشن تھرو پٹ چاہتے ہیں تو یہ اسٹیک استعمال کریں۔

آپشن D — اولاما (سب سے آسان مقامی دیو راستہ، اکثر واحد مشین)

اگر آپ ڈیپ سیک کو مقامی طور پر چلانے کا سب سے کم رگڑ طریقہ چاہتے ہیں (اور آپ ڈسک کو بچا سکتے ہیں)، علامہ پیکیجڈ ماڈل اور ایک سادہ سی ایل آئی فراہم کرتا ہے (ollama pull, ollama run)۔ DeepSeek-V3.1 Ollama لائبریری میں ظاہر ہوتا ہے اور اسے مقامی طور پر چلایا جا سکتا ہے (Ollama کو کچھ خصوصیات کے لیے حالیہ/ پری ریلیز ورژن کی ضرورت ہو سکتی ہے)۔

مثال (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

اولاما بہت ساری تقسیم/مقدار کی تفصیلات کو ختم کرتا ہے اور ایک ہی میزبان پر ماڈل کے رویے کو جانچنے کا ایک بہترین طریقہ ہو سکتا ہے۔ نوٹ: ماڈل صفحہ اولاما کے اندراج کے لیے ~404GB پیکڈ سائز کی فہرست دیتا ہے، اس لیے اسی کے مطابق ڈسک اور ریم کی منصوبہ بندی کریں۔

تھنکنگ موڈ کیا ہے اور اسے کیسے استعمال کیا جائے۔

DeepSeek-V3.1 لاگو کرتا ہے a ہائبرڈ سوچ ٹوکن نقطہ نظر: ایک ہی چوکی اندر چل سکتی ہے۔ سوچ موڈ (اندرونی "سوچ کا سلسلہ" ٹوکن) یا غیر سوچنے والا چیٹ/پرامپٹ ٹیمپلیٹ کو تبدیل کرکے موڈ۔ ماڈل جیسے واضح ٹوکن استعمال کرتا ہے۔ <think> (اور بند کرنا </think> کچھ ٹیمپلیٹس میں) داخلی سلسلہ فکر بمقابلہ براہ راست جواب پیدا کرنے کا اشارہ دینے کے لیے۔ ماڈل کارڈ غیر سوچنے اور سوچنے والے سابقوں کو دستاویز کرتا ہے اور دکھاتا ہے کہ ٹیمپلیٹس کیسے مختلف ہیں۔

مثال: ازگر میں پیغام بنانا (ٹوکنائزر مددگار)

Hugging Face ماڈل کارڈ میں ایک آسان ٹکڑا شامل ہے جس میں دکھایا گیا ہے کہ ٹوکنائزر کے ذریعے چیٹ ٹیمپلیٹ کو کیسے لاگو کیا جائے۔ یہ پیدا کرنے کے لیے تجویز کردہ پیٹرن ہے۔ سوچ or غیر سوچنے والا فارمیٹ شدہ اشارے:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

سوئچ کریں thinking=True ایک پرامپٹ تیار کرنے کے لیے جو استعمال کرتا ہے۔ <think> سابقہ thinking=False غیر سوچنے والا ٹیمپلیٹ تیار کرتا ہے۔ اس پرچم کے لحاظ سے ماڈل مختلف طریقے سے برتاؤ کرے گا (اندرونی غور و فکر بمقابلہ فوری ردعمل)۔

فوری حوالہ - چھوٹی خرابیوں کا سراغ لگانا اور بہترین طرز عمل

اگر آپ کی GPU میموری ختم ہو جاتی ہے: کوانٹائزڈ بلڈز (AWQ/q4/INT4) یا کمیونٹی GGUFs آزمائیں؛ بہت سی کمیونٹی اسپیسز مقامی استعمال کے لیے کوانٹائزیشن شائع کرتی ہیں۔ اولاما/وی ایل ایل ایم چھوٹی کوانٹائزڈ بلڈز بھی پیش کر سکتا ہے۔

اگر آپ کو بیرونی ٹولز کو کال کرنے کے لیے ماڈل کی ضرورت ہو: کو اپنائیں ٹول کال چیٹ ٹیمپلیٹ میں اسکیما بالکل ٹھیک ہے۔ ٹول JSON فارمیٹ کو آف لائن ٹیسٹ کریں اور چیک کریں کہ آپ کا آرکیسٹریشن کوڈ (وہ ٹکڑا جو ٹول کو چلاتا ہے) صاف شدہ، ٹائپ کردہ JSON ماڈل پر واپس آتا ہے۔

اگر آپ کو طویل سیاق و سباق کی ضرورت ہے: طویل سیاق و سباق والے پلگ ان کے ساتھ vLLM یا SGLang استعمال کریں۔ ڈیپ سیک کو 32K/128K سیاق و سباق کے لیے واضح طور پر تربیت/توسیع کی گئی تھی اور متعلقہ ٹولنگ اس ونڈو کو سپورٹ کرتی ہے۔ میموری ٹریڈ آف کی توقع کریں۔

کیا میں واقعتا DeepSeek-V3.1 کو لیپ ٹاپ یا چھوٹے سرور پر چلا سکتا ہوں؟

مختصر جواب: ہاں، لیکن انتباہات کے ساتھ۔ کمیونٹی کوانٹائزیشن (AWQ/GGUF/1-bit ڈائنامک) اسٹوریج اور میموری فوٹ پرنٹ کو کافی حد تک کم کرتی ہے اور اس نے شوق رکھنے والوں کو V3.1 ویریئنٹس کو اعلیٰ درجے کے ڈیسک ٹاپس پر چلانے کے قابل بنایا ہے (~170 GB ورکنگ سیٹ کے دعوے)۔ تاہم:

وفاداری بمقابلہ سائز تجارت: جارحانہ مقدار سازی میموری کو کم کرتی ہے لیکن استدلال/کوڈ کی کارکردگی کو متاثر کر سکتی ہے۔ اپنے کام کے بوجھ کی جانچ کریں۔
قانونی اور لائسنسنگ: ماڈل ماڈل کارڈ کے مطابق MIT لائسنس یافتہ ہے، لیکن فریق ثالث کوانٹائزیشن ان کے اپنے لائسنس لے سکتی ہے۔ پیداوار کے استعمال سے پہلے ان کا جائزہ لیں۔

حتمی الفاظ

DeepSeek-V3.1 ہائبرڈ "ایجنٹ" ماڈلز کی طرف واضح سوچ/غیر سوچنے والے رویے اور بہتر ٹول کے استعمال کی طرف ایک اہم قدم ہے۔ اگر آپ اسے مقامی طور پر چلانا چاہتے ہیں، تو ایسا راستہ منتخب کریں جو آپ کے ہارڈ ویئر اور خطرے کی برداشت سے مماثل ہو:

تحقیق کے لیے: transformers + کوانٹائزڈ سیفٹینسر اور تیز۔

پیداوار اور تھرو پٹ کے لیے: vLLM + ملٹی-GPU (H100/H200)۔

مقامی تجربات کے لیے: Ollama/llama.cpp + کمیونٹی GGUFs (ضم + چلائیں)۔

شروع

CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔

ڈویلپرز رسائی حاصل کر سکتے ہیں۔ DeepSeek-V3.1 CometAPI کے ذریعے، درج کردہ تازہ ترین ماڈل ورژن مضمون کی اشاعت کی تاریخ کے مطابق ہیں۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔