المواصفات التقنية لـ DeepSeek-OCR-2
| الحقل | DeepSeek-OCR-2 (منشور) |
|---|---|
| تاريخ الإصدار / الإصدار | 27 يناير 2026 — DeepSeek-OCR-2 (المستودع العام / بطاقة HF). |
| المعلمات | ~3 مليارات (3B) نموذج (DeepSeek 3B MoE decoder + compressor). |
| البنية | Vision encoder (DeepEncoder V2 / optical compression) → 3B vision-language decoder (متغيرات MoE المشار إليها في مواد DeepSeek). |
| الإدخال | صور عالية الدقة / صفحات ممسوحة ضوئيًا / ملفات PDF (تنسيقات الصور: PNG وJPEG وملفات PDF متعددة الصفحات عبر مسارات تحويل). |
| الإخراج | نص عادي (UTF-8)، بيانات وصفية مهيكلة للتخطيط (bounding/flow)، JSON K-V اختياري للتحليل اللاحق. |
| طول السياق (الفعّال) | يستخدم تسلسلات رموز بصرية مضغوطة — هدف التصميم: سياقات طويلة على مستوى المستندات (تعتمد الحدود العملية على نسبة الضغط؛ ويُنتج المسار النموذجي تقليلًا للرموز بمقدار 10× مقارنةً بالتقسيم الساذج إلى رموز). |
| اللغات | أكثر من 100 لغة / نظام كتابة (تغطية متعددة اللغات مُعلنة في ملاحظات المنتج). |
ما هو DeepSeek-OCR-2
DeepSeek-OCR-2 هو ثاني نموذج رئيسي للتعرّف الضوئي على الحروف/فهم المستندات من DeepSeek AI. وبدلًا من التعامل مع OCR على أنه مجرد استخراج أحرف خام، يضغط النموذج معلومات المستندات البصرية إلى رموز بصرية مدمجة (وهي عملية تسميها DeepSeek vision-text compression أو عائلة DeepEncoder الخاصة بها)، ثم يفك ترميز هذه الرموز باستخدام مفكك ترميز VLM بأسلوب mixture-of-experts (MoE) بعدد 3B من المعلمات، بحيث ينمذج توليد النص والاستدلال على التخطيط معًا. يستهدف هذا النهج المستندات ذات السياق الطويل (الجداول، والتخطيطات متعددة الأعمدة، والرسوم البيانية، والأنظمة الكتابية متعددة اللغات) مع تقليل طول التسلسل وتكلفة وقت التشغيل الإجمالية مقارنةً بترميز كل بكسل/رقعة.
الميزات الرئيسية لـ DeepSeek-OCR-2
- ترتيب قراءة شبيه بالبشر ووعي بالتخطيط — يتعلم الترتيب المنطقي للنص (العناوين→الفقرات→الجداول) بدلًا من مسح شبكات ثابتة.
- ضغط الرؤية-النص — يضغط الإدخال البصري إلى تسلسلات رموز أقصر بكثير (هدف ضغط نموذجي 10×)، مما يتيح سياقات مستندات طويلة للمفكك.
- متعدد اللغات ومتعدد الأنظمة الكتابية — يزعم دعم أكثر من 100 لغة وأنظمة كتابة متنوعة.
- إنتاجية عالية / قابل للاستضافة الذاتية — مصمم للاستدلال داخل البنية المحلية (مع أمثلة A100)، مع الإشارة إلى توفر إصدارات مجتمعية GGUF/محلية.
- قابل للضبط الدقيق — يتضمن المستودع والأدلة إرشادات للضبط الدقيق من أجل تكييف المجالات (الفواتير، والأوراق العلمية، والنماذج).
- إخراج للتخطيط + المحتوى — ليس نصًا عاديًا فقط: مخرجات مهيكلة لتسهيل مسارات KIE/NER وRAG اللاحقة.
أداء DeepSeek-OCR-2 في الاختبارات المعيارية
- معيار Fox / مقياس داخلي: ~97% دقة مطابقة تامة عند ضغط 10× على معيار Fox الخاص به (وهو معيار الشركة الذي يركز على دقة المستند تحت الضغط). ويُعد هذا أحد أبرز الادعاءات في المواد التسويقية لـ DeepSeek.
- المفاضلات في الضغط: بينما تبقى الدقة مرتفعة عند الضغط المتوسط (≈10×)، فإنها تتدهور مع الضغط الأكثر شدة (لخّصت Tom’s Hardware اختبارات تُظهر انخفاض الدقة إلى ~60% عند 20× في بعض السيناريوهات). وهذا يبرز المفاضلات العملية بين الإنتاجية والدقة.
- الإنتاجية: ~200k صفحة/يوم على NVIDIA A100 واحدة لأحمال العمل النموذجية — وهذا مفيد عند تقييم الكلفة/النطاق مقارنةً بواجهات cloud OCR API.
حالات الاستخدام وعمليات النشر الموصى بها
- إدخال المستندات المؤسسية وفهرستها: تحويل مجموعات كبيرة من التقارير السنوية وملفات PDF والمستندات الممسوحة ضوئيًا إلى نص قابل للبحث + بيانات وصفية للتخطيط لمسارات RAG/LLM. (ادعاء DeepSeek بشأن الإنتاجية جذاب على مستوى التوسع.)
- استخراج الجداول المهيكلة / التقارير المالية: يساعد المشفّر الواعي بالتخطيط في الحفاظ على علاقات خلايا الجداول لاستخراج KIE اللاحق والمطابقة. تحقّق من مستوى الضغط مقابل احتياجات الدقة الرقمية.
- رقمنة الأرشيفات متعددة اللغات: يجعل دعم أكثر من 100 لغة هذا النموذج مناسبًا للمكتبات، أو الأرشيفات الحكومية، أو معالجة المستندات لدى الشركات متعددة الجنسيات.
- عمليات نشر محلية تراعي الخصوصية: تُمكّن متغيرات HF/GGUF القابلة للاستضافة الذاتية من إبقاء البيانات داخل المؤسسة بدلًا من مزودي الخدمات السحابية.
- المعالجة المسبقة لـ LLM RAG: ضغط النص واستخراجه بأمانة مع التخطيط من أجل إدخاله في RAG عندما يكون طول السياق عنق زجاجة.
كيفية الوصول إلى DeepSeek-OCR-2 عبر CometAPI
الخطوة 1: التسجيل للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولًا. سجّل الدخول إلى لوحة تحكم CometAPI الخاصة بك. احصل على بيانات الاعتماد الخاصة بالوصول، أي مفتاح API الخاص بالواجهة. انقر على “Add Token” ضمن API token في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.

الخطوة 2: إرسال الطلبات إلى واجهة DeepSeek-OCR-2 API
حدّد نقطة النهاية “deepseek-ocr-2” لإرسال طلب API واضبط نص الطلب. يتم الحصول على طريقة الطلب ونص الطلب من وثائق API على موقعنا. كما يوفر موقعنا أيضًا اختبار Apifox لراحتك. استبدل ذلك بمفتاح CometAPI الفعلي الخاص بك من حسابك. عنوان base url هو Chat Completions.
أدرج سؤالك أو طلبك في حقل content—وهذا ما سيرد عليه النموذج. عالج استجابة API للحصول على الإجابة المُولدة.
الخطوة 3: استرداد النتائج والتحقق منها
عالج استجابة API للحصول على الإجابة المُولدة. بعد المعالجة، تستجيب API بحالة المهمة وبيانات الإخراج.