DeepSeek-OCR-2'nin teknik özellikleri
| Alan | DeepSeek-OCR-2 (yayınlanan) |
|---|---|
| Yayın tarihi / Sürüm | 27 Ocak 2026 — DeepSeek-OCR-2 (genel repo / HF kartı). |
| Parametreler | ~3 milyar (3B) model (DeepSeek 3B MoE decoder + compressor). |
| Mimari | Vision encoder (DeepEncoder V2 / optical compression) → 3B vision-language decoder (DeepSeek materyallerinde MoE varyantlarına atıf yapılır). |
| Girdi | Yüksek çözünürlüklü görüntüler / taranmış sayfalar / PDF'ler (görüntü biçimleri: PNG, JPEG, dönüştürme işlem hatları aracılığıyla çok sayfalı PDF'ler). |
| Çıktı | Düz metin (UTF-8), yapılandırılmış düzen meta verileri (bounding/flow), aşağı akış ayrıştırma için isteğe bağlı JSON K-V. |
| Bağlam uzunluğu (etkili) | Sıkıştırılmış görsel belirteç dizileri kullanır — tasarım hedefi: uzun, belge ölçekli bağlamlar (pratik sınırlar sıkıştırma oranına bağlıdır; tipik işlem hattı, naif belirteçleştirmeye kıyasla 10× belirteç azaltımı sağlar). |
| Diller | 100+ dil / yazı sistemi (ürün notlarında iddia edilen çok dilli kapsam). |
DeepSeek-OCR-2 nedir
DeepSeek-OCR-2, DeepSeek AI'ın ikinci büyük OCR/belge anlama modelidir. Model, OCR'yi düz karakter çıkarımı olarak ele almak yerine, görsel belge bilgisini kompakt görsel belirteçlere sıkıştırır (DeepSeek'in vision-text compression veya DeepEncoder ailesi olarak adlandırdığı bir süreç), ardından bu belirteçleri metin üretimi ve düzen akıl yürütmesini birlikte modelleyen 3B parametreli mixture-of-experts (MoE) tarzı bir VLM decoder ile çözümler. Bu yaklaşım, her pikseli/parçayı belirteçleştirmeye kıyasla dizi uzunluğunu ve genel çalışma zamanı maliyetini azaltırken uzun bağlamlı belgeleri (tablolar, çok sütunlu düzenler, diyagramlar, çok dilli yazı sistemleri) hedefler.
DeepSeek-OCR-2'nin başlıca özellikleri
- İnsan benzeri okuma sırası ve düzen farkındalığı — sabit ızgaraları taramak yerine metnin mantıksal sıralamasını (başlıklar→paragraflar→tablolar) öğrenir.
- Vision-text compression — görsel girdiyi çok daha kısa belirteç dizilerine sıkıştırır (tipik 10× sıkıştırma hedefi), böylece decoder için uzun belge bağlamlarını mümkün kılar.
- Çok dilli ve çok yazı sistemli — 100+ dil ve çeşitli yazı sistemleri desteği iddia eder.
- Yüksek çıktı hacmi / self-hostable — şirket içi çıkarım için tasarlanmıştır (A100 örnekleri) ve topluluk tarafından GGUF/yerel derlemeler bildirilmiştir.
- İnce ayar yapılabilir — repo ve kılavuzlar, alan uyarlaması (faturalar, bilimsel makaleler, formlar) için fine-tuning talimatları içerir.
- Düzen + içerik çıktısı — yalnızca düz metin değil: aşağı akış KIE/NER ve RAG işlem hatlarını kolaylaştırmak için yapılandırılmış çıktılar üretir.
DeepSeek-OCR-2'nin benchmark performansı
- Fox benchmark / dahili metrik: 10× sıkıştırmada ~%97 exact-match doğruluğu Fox benchmark'ında (şirketin sıkıştırma altında belge doğruluğuna odaklanan benchmark'ı). Bu, DeepSeek pazarlama materyallerindeki öne çıkan iddialardan biridir.
- Sıkıştırma ödünleşimleri: Doğruluk orta düzey sıkıştırmada (≈10×) yüksek kalırken, daha agresif sıkıştırmada düşer (Tom’s Hardware, bazı senaryolarda doğruluğun 20×'te ~%60'a düştüğünü gösteren testleri özetledi). Bu, çıktı hacmi ile doğruluk arasındaki pratik ödünleşimleri vurgular.
- Çıktı hacmi: Tipik iş yüklerinde tek bir NVIDIA A100 üzerinde günde ~200 bin sayfa — maliyet/ölçek ile bulut OCR API'lerini değerlendirirken faydalıdır.
Kullanım senaryoları ve önerilen dağıtımlar
- Kurumsal belge alımı ve indeksleme: yıllık raporlar, PDF'ler ve taranmış belgelerden oluşan büyük koleksiyonları, RAG/LLM işlem hatları için aranabilir metin + düzen meta verilerine dönüştürün. (DeepSeek'in çıktı hacmi iddiası ölçek açısından caziptir.)
- Yapılandırılmış tablo çıkarımı / finansal raporlama: düzen farkındalıklı encoder, aşağı akış KIE çıkarımı ve mutabakat için tablo hücresi ilişkilerinin korunmasına yardımcı olur. Sıkıştırma düzeyini sayısal hassasiyet gereksinimlerine göre doğrulayın.
- Çok dilli arşiv dijitalleştirme: 100+ dil desteği, onu kütüphaneler, devlet arşivleri veya çok uluslu belge işleme için uygun hale getirir.
- Şirket içi, gizlilik hassas dağıtımlar: self-hostable HF/GGUF varyantları, verileri bulut sağlayıcıları yerine kurum içinde tutmayı mümkün kılar.
- LLM RAG için ön işleme: bağlam uzunluğunun darboğaz olduğu durumlarda, RAG alımı için doğru metin + düzenin sıkıştırılması ve çıkarılması.
CometAPI üzerinden DeepSeek-OCR-2'ye nasıl erişilir
Adım 1: API Anahtarı için Kaydolun
cometapi.com'a giriş yapın. Henüz kullanıcımız değilseniz, lütfen önce kayıt olun. CometAPI console hesabınıza giriş yapın. Arayüzün erişim kimlik bilgisi olan API anahtarını alın. Kişisel merkezde API token bölümünde “Add Token” seçeneğine tıklayın, token anahtarını alın: sk-xxxxx ve gönderin.

Adım 2: DeepSeek-OCR-2 API'ye İstek Gönderin
API isteğini göndermek için “deepseek-ocr-2” endpoint'ini seçin ve istek gövdesini ayarlayın. İstek yöntemi ve istek gövdesi web sitemizdeki API dokümanından alınır. Web sitemiz ayrıca kolaylığınız için Apifox testi de sağlar. Hesabınızdaki gerçek CometAPI anahtarınızla değiştirin. base url Chat Completions şeklindedir.
Sorunuzu veya isteğinizi content alanına ekleyin — modelin yanıtlayacağı kısım burasıdır. Oluşturulan yanıtı almak için API yanıtını işleyin.
Adım 3: Sonuçları Alın ve Doğrulayın
Oluşturulan yanıtı almak için API yanıtını işleyin. İşlemeden sonra API, görev durumunu ve çıktı verilerini döndürür.