ماڈلزسپورٹانٹرپرائزبلاگ
500+ AI ماڈل API، تمام ایک API میں۔ صرف CometAPI میں
ماڈلز API
ڈویلپر
فوری آغازدستاویزاتAPI ڈیش بورڈ
وسائل
AI ماڈلزبلاگانٹرپرائزتبدیلیوں کا ریکارڈہمارے بارے میں
2025 CometAPI۔ تمام حقوق محفوظ ہیں۔رازداری کی پالیسیخدمات کی شرائط
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

فی درخواست:$0.04
DeepSeek-OCR 2، DeepSeek کی جانب سے 27 جنوری، 2026 کو جاری کیا گیا ایک ماڈل ہے، جو جدت پر مبنی DeepEncoder V2 طریقہ استعمال کرتا ہے، جو AI کو تصویر کے حصوں کو اس کے معنی کی بنیاد پر متحرک طور پر ازسرِنو ترتیب دینے کی اجازت دیتا ہے، محض بائیں سے دائیں میکانکی انداز میں اسکین کرنے کے بجائے۔ اعلیٰ ڈیٹا کمپریشن افادیت برقرار رکھتے ہوئے، اس ماڈل نے متعدد بینچ مارکس اور پروڈکشن میٹرکس میں نمایاں پیش رفتیں حاصل کی ہیں۔ یہ ماڈل صرف 256 سے 1120 ویژن ٹوکنز کے ساتھ پیچیدہ دستاویزی صفحات کو کور کر سکتا ہے، اور OmniDocBench v1.5 کے جائزے میں 91.09% کا مجموعی اسکور حاصل کرتا ہے۔
نیا
تجارتی استعمال
Playground
خلاصہ
خصوصیات
قیمت
API

DeepSeek-OCR-2 کی تکنیکی خصوصیات

فیلڈDeepSeek-OCR-2 (شائع شدہ)
ریلیز کی تاریخ / ورژن27 جنوری، 2026 — DeepSeek-OCR-2 (پبلک ریپو / HF کارڈ).
پیرامیٹرز~3 ارب (3B) ماڈل (DeepSeek 3B MoE ڈیکوڈر + کمپریسر).
آرکیٹیکچرویژن انکوڈر (DeepEncoder V2 / آپٹیکل کمپریشن) → 3B ویژن-لینگویج ڈیکوڈر (MoE ویرینٹس جن کا حوالہ DeepSeek کے مواد میں دیا گیا ہے).
ان پٹہائی-ریزولوشن تصاویر / اسکین شدہ صفحات / PDFs (امیج فارمیٹس: PNG، JPEG، ملٹی پیج PDFs کنورژن پائپ لائنز کے ذریعے).
آؤٹ پٹسادہ متن (UTF-8)، اسٹرکچرڈ لے آؤٹ میٹاڈیٹا (bounding/flow)، ڈاؤن اسٹریم پارسنگ کے لیے اختیاری JSON K-V.
کانٹیکسٹ کی لمبائی (موثر)کمپریسڈ بصری ٹوکن سلسلے استعمال کرتا ہے — ڈیزائن کا ہدف: طویل، دستاویزی پیمانے کے کانٹیکسٹس (عملی حدود کمپریشن ریشو پر منحصر؛ عمومی پائپ لائن سادہ tokenization کے مقابلے میں 10× ٹوکن کمی دیتی ہے).
زبانیں100+ زبانیں / اسکرِپٹس (پروڈکٹ نوٹس میں کثیر لسانی کوریج کا دعویٰ).

DeepSeek-OCR-2 کیا ہے

DeepSeek-OCR-2، DeepSeek AI کا دوسرا بڑا OCR/دستاویزی فہم ماڈل ہے۔ OCR کو صرف سادہ حرفی استخراج سمجھنے کے بجائے، یہ ماڈل بصری دستاویزی معلومات کو کمپیکٹ بصری ٹوکنز میں سکیڑتا ہے (وہ عمل جسے DeepSeek ویژن-ٹیکسٹ کمپریشن یا اس کے DeepEncoder خاندان کے طور پر بیان کرتا ہے)، پھر ان ٹوکنز کو 3B پیرا میٹر Mixture-of-Experts (MoE) طرز کے VLM ڈیکوڈر سے ڈیکوڈ کرتا ہے جو متن کی جنریشن اور لے آؤٹ استدلال کو یکجا ماڈل کرتا ہے۔ یہ طریقہ کار طویل سیاق والے دستاویزات (جدول، ملٹی کالم لے آؤٹس، ڈایاگرام، کثیرلسانی اسکرِپٹس) کو ہدف بناتا ہے، جبکہ ہر پکسل/پیچ کو ٹوکنائز کرنے کے مقابلے میں سلسلے کی لمبائی اور کل رن ٹائم لاگت کو کم کرتا ہے۔

DeepSeek-OCR-2 کی اہم خصوصیات

  • انسانی طرز کے مطالعے کی ترتیب اور لے آؤٹ آگاہی — مقررہ گرڈ کے مطابق اسکین کرنے کے بجائے متن کی منطقی ترتیب (سرخیاں→پیراگراف→جدول) سیکھتا ہے۔
  • ویژن-ٹیکسٹ کمپریشن — بصری ان پٹ کو بہت مختصر ٹوکن سلسلوں میں سکیڑتا ہے (عام ہدف 10×)، جس سے ڈیکوڈر کے لیے طویل دستاویزی سیاق ممکن ہوتا ہے۔
  • کثیر لسانی اور کثیر اسکرِپٹ — پروڈکٹ نوٹس کے مطابق 100+ زبانوں اور متنوع اسکرِپٹس کی معاونت۔
  • اعلیٰ تھروپُٹ / سیلف ہوسٹیبل — آن-پریم انفرنس کے لیے ڈیزائن (A100 مثالیں)، اور کمیونٹی GGUF/لوکل بلڈز رپورٹڈ۔
  • فائن ٹیوننگ کے قابل — ریپو اور گائیڈز میں ڈومین ایڈاپٹیشن (انوائسز، سائنسی پیپرز، فارمز) کے لیے فائن ٹیوننگ ہدایات شامل ہیں۔
  • لے آؤٹ + مواد آؤٹ پٹ — صرف سادہ متن نہیں: ڈاؤن اسٹریم KIE/NER اور RAG پائپ لائنز کے لیے اسٹرکچرڈ آؤٹ پٹس۔

DeepSeek-OCR-2 کی بینچ مارک کارکردگی

  • Fox benchmark / اندرونی میٹرک: ~97% بالکل مماثل درستگی 10× کمپریشن پر اپنے Fox benchmark پر (کمپریشن کے تحت دستاویزی وفاداری پر مرکوز کمپنی کا بینچ مارک)۔ یہ DeepSeek کی مارکیٹنگ میں نمایاں دعوؤں میں سے ایک ہے۔
  • کمپریشن کے ٹریڈ آفز: معتدل کمپریشن (≈10×) پر درستگی بلند رہتی ہے، مگر زیادہ جارحانہ کمپریشن پر گھٹتی ہے (Tom’s Hardware کے خلاصہ ٹیسٹس کے مطابق بعض منظرناموں میں 20× پر درستگی ~60% تک گر جاتی ہے)۔ یہ تھروپُٹ اور وفاداری کے مابین عملی ٹریڈ آفز کو واضح کرتا ہے۔
  • تھروپُٹ: عام ورک لوڈز کے لیے ~200k صفحات/دن ایک واحد NVIDIA A100 پر — لاگت/اسکیل بمقابلہ کلاؤڈ OCR APIs کا جائزہ لیتے وقت مفید۔

استعمال کے کیسز اور تجویز کردہ ڈپلائمنٹس

  • انٹرپرائز دستاویزی ان جیسشن اور انڈیکسنگ: سالانہ رپورٹس، PDFs، اور اسکین شدہ دستاویزات کے بڑے ذخیرے کو تلاش پذیر متن + لے آؤٹ میٹاڈیٹا میں تبدیل کریں تاکہ RAG/LLM پائپ لائنز میں فیڈ کیا جا سکے۔ (اسکیل کے لیے DeepSeek کا تھروپُٹ دعویٰ پرکشش ہے۔)
  • اسٹرکچرڈ جدول اخذ کرنا / مالیاتی رپورٹنگ: لے آؤٹ آگاہ انکوڈر سیل-در-سیل تعلقات کو برقرار رکھنے میں مدد دیتا ہے تاکہ ڈاؤن اسٹریم KIE اخذ اور مفاہمت ممکن ہو۔ عددی درستی کی ضرورت کے مقابل کمپریشن لیول کی توثیق کریں۔
  • کثیر لسانی آرکائیو ڈیجیٹائزیشن: 100+ زبانوں کی معاونت اسے لائبریریوں، سرکاری آرکائیوز یا کثیر القومی دستاویزی پروسیسنگ کے لیے موزوں بناتی ہے۔
  • آن-پریم، پرائیویسی حساس ڈپلائمنٹس: سیلف ہوسٹیبل HF/GGUF ویریئنٹس کلاؤڈ فراہم کنندگان کے بجائے ڈیٹا کو ان ہاؤس رکھنے کی سہولت دیتے ہیں۔
  • LLM RAG کے لیے پری پروسیسنگ: جب کانٹیکسٹ لمبائی ایک رکاوٹ ہو، تو وفادار متن + لے آؤٹ کو کمپریس اور اخذ کر کے RAG ان جیسشن کے لیے فراہم کریں۔

CometAPI کے ذریعے DeepSeek-OCR-2 تک رسائی کیسے حاصل کریں

مرحلہ 1: API کلید کے لیے سائن اپ کریں

cometapi.com میں لاگ اِن کریں۔ اگر آپ ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI کنسول میں سائن اِن کریں۔ انٹرفیس کی رسائی کے لیے API کلید حاصل کریں۔ ذاتی مرکز میں API ٹوکن پر “Add Token” پر کلک کریں، ٹوکن کلید حاصل کریں: sk-xxxxx اور جمع کرائیں۔

cometapi-key

مرحلہ 2: DeepSeek-OCR-2 API کو درخواستیں بھیجیں

“deepseek-ocr-2” اینڈپوائنٹ منتخب کریں تاکہ API درخواست بھیجی جا سکے اور ریکویسٹ باڈی سیٹ کریں۔ درخواست کا طریقہ کار اور ریکویسٹ باڈی ہماری ویب سائٹ کے API ڈاک سے حاصل کیے جاتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ اپنے اکاؤنٹ سے اصل CometAPI کلید سے تبدیل کریں۔ base url ہے Chat Completions۔

اپنا سوال یا درخواست content فیلڈ میں داخل کریں — ماڈل اسی کا جواب دے گا۔ API ریسپانس کو پروسیس کریں تاکہ جنریٹڈ جواب حاصل ہو۔

مرحلہ 3: نتائج حاصل کریں اور تصدیق کریں

API ریسپانس کو پروسیس کریں تاکہ تیار شدہ جواب حاصل ہو۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔

اکثر پوچھے جانے والے سوالات

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 معنوی مطالعے کی ترتیب کا تعین کرنے کے لیے Visual Causal Flow استعمال کرتا ہے، جس کی بدولت یہ grid-based OCR engines کے مقابلے میں جدولوں اور کثیر کالمی layout کو زیادہ درستگی سے دوبارہ تشکیل دے سکتا ہے۔

Can DeepSeek-OCR-2 handle complex tables and formulas?

جی ہاں، اسے خاص طور پر اس طرح بہتر بنایا گیا ہے کہ structured Markdown یا JSON output میں جدول کی ساخت اور ریاضیاتی notation محفوظ رہے۔

Is DeepSeek-OCR-2 suitable for RAG pipelines?

جی ہاں، اس کا structured output اسے retrieval-augmented generation workflows میں document preprocessing کے لیے نہایت موزوں بناتا ہے۔

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2، OCR-1 کے مقابلے میں layout کی بہتر سمجھ فراہم کرتا ہے، character error rates کو کم کرتا ہے، اور پیچیدہ دستاویزات پر بہتر کارکردگی دکھاتا ہے۔

Does DeepSeek-OCR-2 support multilingual OCR?

جی ہاں، یہ 100 سے زائد زبانوں کی معاونت کرتا ہے، جن میں non-Latin scripts اور mixed-language documents بھی شامل ہیں۔

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Community tooling fine-tuning کی معاونت کرتی ہے، اور finance اور scientific documents جیسے domain-specific OCR accuracy میں بہتری کی اطلاعات ملی ہیں۔

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

DeepSeek-OCR-2 کا انتخاب اس وقت کریں جب document structure کی درست مطابقت اور OCR accuracy، عمومی multimodal reasoning سے زیادہ اہم ہوں۔

DeepSeek-OCR2 کے لیے خصوصیات

[ماڈل کا نام] کی اہم خصوصیات دریافت کریں، جو کارکردگی اور قابل استعمال کو بہتر بنانے کے لیے ڈیزائن کی گئی ہیں۔ جانیں کہ یہ صلاحیتیں آپ کے منصوبوں کو کیسے فائدہ پہنچا سکتی ہیں اور صارف کے تجربے کو بہتر بنا سکتی ہیں۔

DeepSeek-OCR2 کی قیمتیں

[ماڈل کا نام] کے لیے مسابقتی قیمتوں کو دریافت کریں، جو مختلف بجٹ اور استعمال کی ضروریات کے مطابق ڈیزائن کیا گیا ہے۔ ہمارے لچکدار منصوبے اس بات کو یقینی بناتے ہیں کہ آپ صرف اسی کے لیے ادائیگی کریں جو آپ استعمال کرتے ہیں، جس سے آپ کی ضروریات بڑھنے کے ساتھ ساتھ اسکیل کرنا آسان ہو جاتا ہے۔ دریافت کریں کہ [ماڈل کا نام] کیسے آپ کے پروجیکٹس کو بہتر بنا سکتا ہے جبکہ اخراجات کو قابو میں رکھتا ہے۔
Comet قیمت (USD / M Tokens)سرکاری قیمت (USD / M Tokens)رعایت
فی درخواست:$0.04
فی درخواست:$0.05
-20%

DeepSeek-OCR2 کے لیے نمونہ کوڈ اور API

DeepSeek-OCR2 کے لیے جامع نمونہ کوڈ اور API وسائل تک رسائی حاصل کریں تاکہ آپ کے انضمام کے عمل کو آسان بنایا جا سکے۔ ہماری تفصیلی دستاویزات قدم بہ قدم رہنمائی فراہم کرتی ہیں، جو آپ کو اپنے پروجیکٹس میں DeepSeek-OCR2 کی مکمل صلاحیت سے فائدہ اٹھانے میں مدد کرتی ہیں۔
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

مزید ماڈلز