DeepSeek-OCR-2 کی تکنیکی خصوصیات
| فیلڈ | DeepSeek-OCR-2 (شائع شدہ) |
|---|---|
| ریلیز کی تاریخ / ورژن | 27 جنوری، 2026 — DeepSeek-OCR-2 (پبلک ریپو / HF کارڈ). |
| پیرامیٹرز | ~3 ارب (3B) ماڈل (DeepSeek 3B MoE ڈیکوڈر + کمپریسر). |
| آرکیٹیکچر | ویژن انکوڈر (DeepEncoder V2 / آپٹیکل کمپریشن) → 3B ویژن-لینگویج ڈیکوڈر (MoE ویرینٹس جن کا حوالہ DeepSeek کے مواد میں دیا گیا ہے). |
| ان پٹ | ہائی-ریزولوشن تصاویر / اسکین شدہ صفحات / PDFs (امیج فارمیٹس: PNG، JPEG، ملٹی پیج PDFs کنورژن پائپ لائنز کے ذریعے). |
| آؤٹ پٹ | سادہ متن (UTF-8)، اسٹرکچرڈ لے آؤٹ میٹاڈیٹا (bounding/flow)، ڈاؤن اسٹریم پارسنگ کے لیے اختیاری JSON K-V. |
| کانٹیکسٹ کی لمبائی (موثر) | کمپریسڈ بصری ٹوکن سلسلے استعمال کرتا ہے — ڈیزائن کا ہدف: طویل، دستاویزی پیمانے کے کانٹیکسٹس (عملی حدود کمپریشن ریشو پر منحصر؛ عمومی پائپ لائن سادہ tokenization کے مقابلے میں 10× ٹوکن کمی دیتی ہے). |
| زبانیں | 100+ زبانیں / اسکرِپٹس (پروڈکٹ نوٹس میں کثیر لسانی کوریج کا دعویٰ). |
DeepSeek-OCR-2 کیا ہے
DeepSeek-OCR-2، DeepSeek AI کا دوسرا بڑا OCR/دستاویزی فہم ماڈل ہے۔ OCR کو صرف سادہ حرفی استخراج سمجھنے کے بجائے، یہ ماڈل بصری دستاویزی معلومات کو کمپیکٹ بصری ٹوکنز میں سکیڑتا ہے (وہ عمل جسے DeepSeek ویژن-ٹیکسٹ کمپریشن یا اس کے DeepEncoder خاندان کے طور پر بیان کرتا ہے)، پھر ان ٹوکنز کو 3B پیرا میٹر Mixture-of-Experts (MoE) طرز کے VLM ڈیکوڈر سے ڈیکوڈ کرتا ہے جو متن کی جنریشن اور لے آؤٹ استدلال کو یکجا ماڈل کرتا ہے۔ یہ طریقہ کار طویل سیاق والے دستاویزات (جدول، ملٹی کالم لے آؤٹس، ڈایاگرام، کثیرلسانی اسکرِپٹس) کو ہدف بناتا ہے، جبکہ ہر پکسل/پیچ کو ٹوکنائز کرنے کے مقابلے میں سلسلے کی لمبائی اور کل رن ٹائم لاگت کو کم کرتا ہے۔
DeepSeek-OCR-2 کی اہم خصوصیات
- انسانی طرز کے مطالعے کی ترتیب اور لے آؤٹ آگاہی — مقررہ گرڈ کے مطابق اسکین کرنے کے بجائے متن کی منطقی ترتیب (سرخیاں→پیراگراف→جدول) سیکھتا ہے۔
- ویژن-ٹیکسٹ کمپریشن — بصری ان پٹ کو بہت مختصر ٹوکن سلسلوں میں سکیڑتا ہے (عام ہدف 10×)، جس سے ڈیکوڈر کے لیے طویل دستاویزی سیاق ممکن ہوتا ہے۔
- کثیر لسانی اور کثیر اسکرِپٹ — پروڈکٹ نوٹس کے مطابق 100+ زبانوں اور متنوع اسکرِپٹس کی معاونت۔
- اعلیٰ تھروپُٹ / سیلف ہوسٹیبل — آن-پریم انفرنس کے لیے ڈیزائن (A100 مثالیں)، اور کمیونٹی GGUF/لوکل بلڈز رپورٹڈ۔
- فائن ٹیوننگ کے قابل — ریپو اور گائیڈز میں ڈومین ایڈاپٹیشن (انوائسز، سائنسی پیپرز، فارمز) کے لیے فائن ٹیوننگ ہدایات شامل ہیں۔
- لے آؤٹ + مواد آؤٹ پٹ — صرف سادہ متن نہیں: ڈاؤن اسٹریم KIE/NER اور RAG پائپ لائنز کے لیے اسٹرکچرڈ آؤٹ پٹس۔
DeepSeek-OCR-2 کی بینچ مارک کارکردگی
- Fox benchmark / اندرونی میٹرک: ~97% بالکل مماثل درستگی 10× کمپریشن پر اپنے Fox benchmark پر (کمپریشن کے تحت دستاویزی وفاداری پر مرکوز کمپنی کا بینچ مارک)۔ یہ DeepSeek کی مارکیٹنگ میں نمایاں دعوؤں میں سے ایک ہے۔
- کمپریشن کے ٹریڈ آفز: معتدل کمپریشن (≈10×) پر درستگی بلند رہتی ہے، مگر زیادہ جارحانہ کمپریشن پر گھٹتی ہے (Tom’s Hardware کے خلاصہ ٹیسٹس کے مطابق بعض منظرناموں میں 20× پر درستگی ~60% تک گر جاتی ہے)۔ یہ تھروپُٹ اور وفاداری کے مابین عملی ٹریڈ آفز کو واضح کرتا ہے۔
- تھروپُٹ: عام ورک لوڈز کے لیے ~200k صفحات/دن ایک واحد NVIDIA A100 پر — لاگت/اسکیل بمقابلہ کلاؤڈ OCR APIs کا جائزہ لیتے وقت مفید۔
استعمال کے کیسز اور تجویز کردہ ڈپلائمنٹس
- انٹرپرائز دستاویزی ان جیسشن اور انڈیکسنگ: سالانہ رپورٹس، PDFs، اور اسکین شدہ دستاویزات کے بڑے ذخیرے کو تلاش پذیر متن + لے آؤٹ میٹاڈیٹا میں تبدیل کریں تاکہ RAG/LLM پائپ لائنز میں فیڈ کیا جا سکے۔ (اسکیل کے لیے DeepSeek کا تھروپُٹ دعویٰ پرکشش ہے۔)
- اسٹرکچرڈ جدول اخذ کرنا / مالیاتی رپورٹنگ: لے آؤٹ آگاہ انکوڈر سیل-در-سیل تعلقات کو برقرار رکھنے میں مدد دیتا ہے تاکہ ڈاؤن اسٹریم KIE اخذ اور مفاہمت ممکن ہو۔ عددی درستی کی ضرورت کے مقابل کمپریشن لیول کی توثیق کریں۔
- کثیر لسانی آرکائیو ڈیجیٹائزیشن: 100+ زبانوں کی معاونت اسے لائبریریوں، سرکاری آرکائیوز یا کثیر القومی دستاویزی پروسیسنگ کے لیے موزوں بناتی ہے۔
- آن-پریم، پرائیویسی حساس ڈپلائمنٹس: سیلف ہوسٹیبل HF/GGUF ویریئنٹس کلاؤڈ فراہم کنندگان کے بجائے ڈیٹا کو ان ہاؤس رکھنے کی سہولت دیتے ہیں۔
- LLM RAG کے لیے پری پروسیسنگ: جب کانٹیکسٹ لمبائی ایک رکاوٹ ہو، تو وفادار متن + لے آؤٹ کو کمپریس اور اخذ کر کے RAG ان جیسشن کے لیے فراہم کریں۔
CometAPI کے ذریعے DeepSeek-OCR-2 تک رسائی کیسے حاصل کریں
مرحلہ 1: API کلید کے لیے سائن اپ کریں
cometapi.com میں لاگ اِن کریں۔ اگر آپ ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI کنسول میں سائن اِن کریں۔ انٹرفیس کی رسائی کے لیے API کلید حاصل کریں۔ ذاتی مرکز میں API ٹوکن پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کرائیں۔

مرحلہ 2: DeepSeek-OCR-2 API کو درخواستیں بھیجیں
“deepseek-ocr-2” اینڈپوائنٹ منتخب کریں تاکہ API درخواست بھیجی جا سکے اور ریکویسٹ باڈی سیٹ کریں۔ درخواست کا طریقہ کار اور ریکویسٹ باڈی ہماری ویب سائٹ کے API ڈاک سے حاصل کیے جاتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ اپنے اکاؤنٹ سے اصل CometAPI کلید سے تبدیل کریں۔ base url ہے Chat Completions۔
اپنا سوال یا درخواست content فیلڈ میں داخل کریں — ماڈل اسی کا جواب دے گا۔ API ریسپانس کو پروسیس کریں تاکہ جنریٹڈ جواب حاصل ہو۔
مرحلہ 3: نتائج حاصل کریں اور تصدیق کریں
API ریسپانس کو پروسیس کریں تاکہ تیار شدہ جواب حاصل ہو۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔