اگست 2025 کو چینی اے آئی اسٹارٹ اپ ڈیپ سیک نے ریلیز کا اعلان کیا۔ DeepSeek-V3.1، ایک وسط نسل کمپنی کے بلوں کو اپنے پہلے قدم کے طور پر "ایجنٹ دور کی طرف" اپ گریڈ کرتی ہے۔ اپ ڈیٹ ایک ہائبرڈ انفرنس موڈ لاتا ہے (ایک واحد ماڈل جو "سوچ" یا "نان تھنکنگ" موڈ میں چل سکتا ہے)، کافی لمبی سیاق و سباق کی ونڈو، اور ٹول کالنگ اور ملٹی سٹیپ ایجنٹ کے رویے میں تربیت کے بعد کی بہتری کو ہدف بنایا گیا ہے۔
DeepSeek-V3.1 کیا ہے اور اس سے فرق کیوں پڑتا ہے؟
DeepSeek-V3.1 DeepSeek کی V3 سیریز کا تازہ ترین پروڈکشن گریڈ اپ ڈیٹ ہے۔ اعلیٰ سطح پر یہ ایک ہائبرڈ MoE لینگویج ماڈل فیملی (V3 نسب) ہے جسے DeepSeek نے بعد میں تربیت دی ہے اور دو صارف کے نظر آنے والے آپریٹنگ طریقوں کو سپورٹ کرنے کے لیے بڑھایا ہے,آپ کو دو اہم قسمیں ملیں گی: DeepSeek-V3.1-Base اور مکمل DeepSeek-V3.1:
- غیر سوچنا (ڈیپ سیک چیٹ): رفتار اور بات چیت کے استعمال کے لیے ایک معیاری چیٹ مکمل کرنے کا موڈ بہتر بنایا گیا ہے۔
- سوچنا (گہری تلاش کرنے والا): ایک ایجنٹی استدلال موڈ جو ساختی، کثیر مرحلہ استدلال اور ٹول/ایجنٹ آرکیسٹریشن کو ترجیح دیتا ہے۔
ریلیز میں نظر آنے والی تین بہتریوں پر توجہ مرکوز کی گئی ہے: ایک ہائبرڈ انفرنس پائپ لائن جو تاخیر اور صلاحیت کو متوازن رکھتی ہے، بہتر ٹول کالنگ/ایجنٹ آرکیسٹریشن، اور کافی حد تک توسیع شدہ سیاق و سباق کی ونڈو (128K ٹوکنز کے طور پر مشتہر)۔
یہ معاملہ کیوں ہے: DeepSeek-V3.1 بڑے پیمانے پر موثر MoE فن تعمیر کو ٹولنگ پرائمیٹوز اور بہت لمبی سیاق و سباق والی ونڈوز کے ساتھ جوڑنے کے وسیع تر صنعتی رجحان کو جاری رکھے ہوئے ہے۔ یہ امتزاج انٹرپرائز ایجنٹس، سرچ پلس ریزننگ ورک فلو، طویل دستاویز کا خلاصہ اور ٹول سے چلنے والی آٹومیشن کے لیے اہم ہے، جہاں تھرو پٹ اور بیرونی ٹولز کو "کال آؤٹ" کرنے کی صلاحیت دونوں کی ضرورت ہے۔
کیا چیز DeepSeek-V3.1 کو پچھلی ڈیپ سیک ریلیز سے مختلف بناتی ہے؟
ہائبرڈ انفرنس: ایک ماڈل، دو آپریشنل موڈز
سرخی آرکیٹیکچرل تبدیلی ہے۔ ہائبرڈ تخمینہ. DeepSeek V3.1 کو ایک ہی ماڈل مثال کے اندر "تھنک" موڈ اور "نان تھنک" موڈ دونوں کو سپورٹ کرنے کے طور پر بیان کرتا ہے، جو چیٹ ٹیمپلیٹ یا UI ٹوگل (DeepSeek کا "DeepThink" بٹن) کو تبدیل کر کے منتخب کیا جا سکتا ہے۔ عملی طور پر اس کا مطلب یہ ہے کہ ماڈل کو اندرونی استدلال کے نشانات پیدا کرنے کی ہدایت کی جا سکتی ہے (چین آف تھیٹ اسٹائل ایجنٹ ورک فلو کے لیے مفید) یا انٹرمیڈیٹ ریجننگ ٹوکن کو سامنے لائے بغیر براہ راست جواب دینے کے لیے — ڈویلپر کی ضروریات پر منحصر ہے۔ ڈیپ سیک اسے مزید ایجنٹی ورک فلو کی طرف ایک راستے کے طور پر پیش کرتا ہے جبکہ ایپلی کیشنز کو تاخیر/وربوسٹی ٹریڈ آف کا انتخاب کرنے دیتا ہے۔
سیاق و سباق کی بڑی ونڈو اور ٹوکن پرائمیٹوز
سرکاری ریلیز نوٹس رپورٹ a بہت بڑی سیاق و سباق کی ونڈو V3.1 میں؛ کمیونٹی ٹیسٹنگ اور کمپنی پوسٹس میں توسیعی سیاق و سباق کو شامل کیا گیا ہے۔ 128k ٹوکن کچھ میزبان مختلف حالتوں کے لیے، کافی طویل گفتگو، کثیر دستاویزی استدلال، یا طویل کوڈ بیسز کو ایک ہی سیشن میں فیڈ کرنے کے قابل بنانا۔ اس کی تکمیل کرتے ہوئے، ڈیپ سیک نے مبینہ طور پر چند خصوصی کنٹرول ٹوکن متعارف کرائے ہیں (مثال کے طور پر <|search_begin|>/<|search_end|>, <think> / </think>) کا مقصد ٹول کالز کو ڈھانچہ بنانا اور اندرونی طور پر "سوچنے" کے حصوں کی وضاحت کرنا ہے - ایک ڈیزائن پیٹرن جو بیرونی ٹولز کے ساتھ ہم آہنگی کو آسان بناتا ہے۔
تیز ایجنٹ/آل کی صلاحیتیں اور تاخیر میں بہتری
ڈیپ سیک کا کہنا ہے کہ V3.1 سے فائدہ ہوتا ہے۔ تربیت کے بعد کی اصلاح ٹول کالنگ اور ملٹی سٹیپ ایجنٹ کے کاموں پر توجہ مرکوز کی گئی: کہا جاتا ہے کہ ماڈل ڈیپ سیک R1 کی سابقہ تعمیرات کے مقابلے "سوچیں" موڈ میں تیزی سے جوابات تک پہنچتا ہے، اور بیرونی APIs کی درخواست کرتے وقت یا ملٹی سٹیپ پلانز پر عمل درآمد کرتے وقت زیادہ قابل اعتماد ہوتا ہے۔ وہ پوزیشننگ — تیز تر لیکن زیادہ ایجنٹ کے قابل اندازہ — ٹیموں کے معاونین، آٹومیشنز، یا ایجنٹ ورک فلو بنانے والی ٹیموں کے لیے ایک واضح پروڈکٹ تفریق ہے۔
DeepSeek-V3.1 کے پیچھے فن تعمیر کیا ہے؟
DeepSeek-V3.1 کی تعمیر DeepSeek-V3 خاندان کی بنیادی تحقیق پر ہے: a ماہرین کا مرکب (MoE) کارکردگی اور پیمانے کے لیے ڈیزائن کردہ تعمیراتی اختراعات کے سیٹ کے ساتھ ریڑھ کی ہڈی۔ DeepSeek-V3 (اندرونی خاندان) کے لیے عوامی تکنیکی رپورٹ بیان کرتی ہے:
- سینکڑوں بلین کل پیرامیٹرز کے ساتھ ایک بڑا MoE ڈیزائن اور ایک چھوٹا چالو پیرامیٹر کی گنتی فی ٹوکن (ماڈل کارڈ 671B کل پیرامیٹرز کی فہرست دیتا ہے جس میں تقریباً 37B فی ٹوکن چالو ہوتا ہے)۔
- ملٹی ہیڈ لیٹنٹ اٹینشن (MLA) اور اپنی مرضی کے مطابق DeepSeekMoE روٹنگ اور اسکیلنگ اپروچز جو صلاحیت کو محفوظ رکھتے ہوئے تخمینہ لاگت کو کم کرتے ہیں۔
- تربیتی مقاصد اور لوڈ بیلنسنگ کی حکمت عملی جو معاون لوڈ بیلنسنگ نقصان کی شرائط کی ضرورت کو دور کرتی ہے اور تھرو پٹ اور ترتیب ماڈلنگ کو بہتر بنانے کے لیے ملٹی ٹوکن پیشین گوئی کے مقاصد کو اپناتی ہے۔
ایم او ای + ایم ایل اے کیوں؟
ماہرین کا مرکب ماڈل کو ایک اعلی نظریاتی پیرامیٹر کی گنتی برقرار رکھنے کی اجازت دیتا ہے جبکہ صرف ماہرین کے ایک ذیلی سیٹ کو فی ٹوکن فعال کرتا ہے — اس سے فی ٹوکن کمپیوٹ کم ہو جاتا ہے۔ ایم ایل اے ڈیپ سیک کی توجہ کا متغیر ہے جو بہت سے ماہرین اور طویل سیاق و سباق میں ماڈل پیمانے پر توجہ کے کاموں کو موثر انداز میں مدد کرتا ہے۔ یہ انتخاب ایک ساتھ مل کر بہت بڑی چوکیوں کو تربیت دینا اور ان کی خدمت کرنا ممکن بناتے ہیں جبکہ بہت ساری تعیناتیوں کے لیے قابل استعمال تخمینہ لاگت کو برقرار رکھتے ہیں۔
ڈیپ سیک-V3.1 بینچ مارکس اور حقیقی دنیا کے ٹیسٹوں میں کیسے کارکردگی کا مظاہرہ کرتا ہے؟
الفاظ میں V3.1 کا موازنہ کیسے ہوتا ہے۔
- V3 سے زیادہ (0324): V3.1 پورے بورڈ میں ایک واضح اپ گریڈ ہے—خاص طور پر کوڈنگ اور ایجنٹی کاموں میں۔ مثال: لائیو کوڈ بینچ سے چھلانگ لگاتا ہے 43.0،56.4 → XNUMX،XNUMX (غیر سوچنے والا) اور → 74.8 (سوچ) ایڈر پولی گلوٹ سے 55.1 → 68.4 / 76.3.
- بمقابلہ R1-0528: R1 موازنہ کا ایک مضبوط "تجزیہ سازی" نقطہ ہے، لیکن V3.1-سوچنا اکثر R1-0528 کے برابر یا اس سے زیادہ ہوتا ہے۔ (AIME/HMMT، LiveCodeBench)، جبکہ کم تاخیر کے استعمال کے لیے ایک غیر سوچنے والا راستہ بھی پیش کرتا ہے۔
- عمومی علم (MMLU متغیرات): V3.1 سلاٹ R1-0528 کے بالکل نیچے جب "سوچ" کو سمجھا جاتا ہے، لیکن پرانے V3 سے اوپر۔
عمومی علم اور تعلیمی
| بینچ مارک (میٹرک) | V3.1-Non Thinking | V3 (0324) | V3.1-سوچنا | R1-0528 |
|---|---|---|---|---|
| MMLU-Redux (بالکل میچ) | 91.8 | 90.5 | 93.7 | 93.4 |
| MMLU-Pro (بالکل میچ) | 83.7 | 81.2 | 84.8 | 85.0 |
| جی پی کیو اے ڈائمنڈ (Pass@1) | 74.9 | 68.4 | 80.1 | 81.0 |
اس سے کیا مراد ہے: V3.1 علم/تعلیمی کاموں پر V3 سے بہتر کرتا ہے۔ "سوچ" سائنس کے سخت سوالات (GPQA-Diamond) پر R1 کے ساتھ خلا کو کم کرتی ہے۔
کوڈنگ (غیر ایجنٹ)
| بینچ مارک (میٹرک) | V3.1-Non Thinking | V3 (0324) | V3.1-سوچنا | R1-0528 |
|---|---|---|---|---|
| LiveCodeBench (2408–2505) (Pass@1) | 56.4 | 43.0 | 74.8 | 73.3 |
| ایڈر پولی گلوٹ (درستگی) | 68.4 | 55.1 | 76.3 | 71.6 |
| Codeforces-Div1 (درجہ بندی) | - | - | 2091 | 1930 |
تبصرہ:
- LiveCodeBench (2408–2505) ایک مجموعی ونڈو کو ظاہر کرتا ہے (اگست 2024 → مئی 2025)۔ ہائر پاس@1 متنوع کوڈنگ کے کاموں پر پہلے کوشش کی مضبوط درستگی کی عکاسی کرتا ہے۔
- ایڈر پولی گلوٹ بہت سی زبانوں میں اسسٹنٹ طرز کے کوڈ ایڈیٹنگ کی نقل کرتا ہے۔ V3.1-سوچنا سیٹ کی قیادت کرتا ہے، V3.1-NonThinking V3 (0324) پر ایک بڑی چھلانگ ہے۔
- ماڈل کارڈ دکھاتا ہے۔ V3 (0324) 55.1% پر ایڈر پر — اس ونٹیج کے لیے ایڈر کے عوامی لیڈر بورڈ کے اندراج سے مطابقت رکھتا ہے۔ (V3.1 کے اعلی اسکور ماڈل کارڈ پر نئے ہیں۔)
کوڈنگ (ایجنٹ کے کام)
| بینچ مارک (میٹرک) | V3.1-Non Thinking | V3 (0324) | V3.1-سوچنا | R1-0528 |
|---|---|---|---|---|
| SWE تصدیق شدہ (ایجنٹ موڈ) | 66.0 | 45.4 | - | 44.6 |
| SWE بینچ کثیر لسانی (ایجنٹ موڈ) | 54.5 | 29.3 | - | 30.5 |
| ٹرمینل بنچ (ٹرمینس 1 فریم ورک) | 31.3 | 13.3 | - | 5.7 |
اہم انتباہ: یہ ہیں ڈیپ سیک کے اندرونی فریم ورک کا استعمال کرتے ہوئے ایجنٹ کی تشخیص (ٹولنگ، ملٹی سٹیپ ایگزیکیوشن)، خالص نیکسٹ ٹوکن ڈی کوڈنگ ٹیسٹ نہیں۔ وہ "LLM + آرکیسٹریشن" کی صلاحیت کو حاصل کرتے ہیں۔ ان کے ساتھ سلوک کریں۔ کے نظام نتائج (دوبارہ پیدا کرنے کا انحصار عین ایجنٹ کے اسٹیک اور ترتیبات پر ہوسکتا ہے)۔
ریاضی اور مقابلہ استدلال
| بینچ مارک (میٹرک) | V3.1-Non Thinking | V3 (0324) | V3.1-سوچنا | R1-0528 |
|---|---|---|---|---|
| AIME 2024۔ (Pass@1) | 66.3 | 59.4 | 93.1 | 91.4 |
| AIME 2025۔ (Pass@1) | 49.8 | 51.3 | 88.4 | 87.5 |
| ایچ ایم ایم ٹی 2025 (Pass@1) | 33.5 | 29.2 | 84.2 | 79.4 |
takeaway ہے: "سوچ" موڈ ڈرائیوز بہت بڑی ریاضی کے مقابلہ کے سیٹوں پر لفٹیں— V3.1- رپورٹ کردہ رنز میں AIME/HMMT پر R1-0528 سے آگے سوچنے والے کنارے۔
تلاش بڑھا ہوا / "ایجنٹک" QA
| بینچ مارک (میٹرک) | V3.1-Non Thinking | V3 (0324) | V3.1-سوچنا | R1-0528 |
|---|---|---|---|---|
| براؤز کمپ | - | - | 30.0 | 8.9 |
| BrowseComp_zh | - | - | 49.2 | 35.7 |
| انسانیت کا آخری امتحان (Python + Search) | - | - | 29.8 | 24.8 |
| سادہ کیو اے | - | - | 93.4 | 92.3 |
| انسانیت کا آخری امتحان (صرف متن) | - | - | 15.9 | 17.7 |
نوٹ: ڈیپ سیک کا کہنا ہے کہ سرچ ایجنٹ کے نتائج اس کے داخلی تلاش کے فریم ورک کا استعمال کرتے ہیں (تجارتی تلاش API + صفحہ فلٹرنگ، 128K سیاق و سباق)۔ طریقہ کار یہاں اہمیت رکھتا ہے۔ پنروتپادن کے لیے اسی طرح کے ٹولنگ کی ضرورت ہوتی ہے۔
آگے کی حدود اور راستے کیا ہیں؟
DeepSeek-V3.1 ایک اہم انجینئرنگ اور پروڈکٹ مرحلہ ہے: یہ طویل سیاق و سباق کی تربیت، ہائبرڈ ٹیمپلیٹس، اور MoE فن تعمیر کو ایک وسیع پیمانے پر استعمال کے قابل چیک پوائنٹ میں سلائی کرتا ہے۔ تاہم، حدود باقی ہیں:
- حقیقی دنیا کے ایجنٹ کی حفاظت، طویل سیاق و سباق کے خلاصے میں فریب کاری، اور مخالفانہ فوری رویے کے لیے اب بھی نظام کی سطح پر تخفیف کی ضرورت ہے۔
- بینچ مارکس حوصلہ افزا ہیں لیکن یکساں نہیں: کارکردگی ڈومین، زبان اور تشخیصی سوٹ کے لحاظ سے مختلف ہوتی ہے۔ آزاد توثیق ضروری ہے.
- جیو پولیٹیکل اور سپلائی چین کے عوامل - ہارڈ ویئر کی دستیابی اور چپ کی مطابقت - نے پہلے ڈیپ سیک کے ٹائم ٹیبل کو متاثر کیا ہے اور یہ متاثر کر سکتا ہے کہ کس طرح صارفین پیمانے پر تعینات کرتے ہیں۔
CometAPI کے ذریعے شروعات کرنا
CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔
ڈویلپرز رسائی حاصل کر سکتے ہیں۔ ڈیپ سیک آر 1(deepseek-r1-0528) اور DeepSeek-V3.1 کے ذریعے CometAPI, درج کردہ تازہ ترین ماڈل ورژن مضمون کی اشاعت کی تاریخ کے مطابق ہیں۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔
نتیجہ
DeepSeek-V3.1 ایک عملی، انجینئرنگ فارورڈ اپ ڈیٹ کی نمائندگی کرتا ہے: ایک بڑی سیاق و سباق کی ونڈو، ہائبرڈ تھنک/نان تھنک انفرنس، بہتر ٹول انٹریکشن، اور ایک OpenAI-مطابق API اسے ٹیموں کی تعمیر کے لیے ایک پرکشش آپشن بناتا ہے۔ ایجنٹ کے معاونین، طویل سیاق و سباق کی ایپلی کیشنز، اور کم لاگت کوڈ پر مبنی ورک فلو.
