ModelDukunganPerusahaanBlog
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pengembang
Mulai CepatDokumentasiDasbor API
Sumber Daya
Model AIBlogPerusahaanCatatan PerubahanTentang
2025 CometAPI. Semua hak dilindungi undang-undang.Kebijakan PrivasiSyarat dan Ketentuan Layanan
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Per Permintaan:$0.04
DeepSeek-OCR 2 adalah model yang dirilis oleh DeepSeek pada 27 Januari 2026, menggunakan metode DeepEncoder V2 yang inovatif, yang memungkinkan AI untuk menyusun ulang secara dinamis bagian-bagian gambar berdasarkan maknanya, alih-alih hanya memindai secara mekanis dari kiri ke kanan. Sambil mempertahankan efisiensi kompresi data yang tinggi, model ini telah mencapai terobosan signifikan pada berbagai tolok ukur dan metrik produksi. Model ini dapat mencakup halaman dokumen yang kompleks hanya dengan 256 hingga 1120 token visi, dengan skor keseluruhan 91.09% dalam evaluasi OmniDocBench v1.5.
Baru
Penggunaan komersial
Playground
Ikhtisar
Fitur
Harga
API

Spesifikasi teknis DeepSeek-OCR-2

FieldDeepSeek-OCR-2 (published)
Tanggal rilis / Versi27 Jan 2026 — DeepSeek-OCR-2 (repo publik / kartu HF).
Parameter~3 miliar (3B) model (decoder MoE DeepSeek 3B + compressor).
ArsitekturEncoder visi (DeepEncoder V2 / kompresi optik) → decoder visi-bahasa 3B (varian MoE dirujuk dalam materi DeepSeek).
InputGambar beresolusi tinggi / halaman hasil pindaian / PDF (format gambar: PNG, JPEG, PDF multi-halaman melalui pipeline konversi).
OutputTeks biasa (UTF-8), metadata tata letak terstruktur (bounding/flow), JSON K-V opsional untuk parsing downstream.
Panjang konteks (efektif)Menggunakan urutan token visual terkompresi — tujuan desain: konteks panjang skala dokumen (batas praktis bergantung pada rasio kompresi; pipeline tipikal menghasilkan pengurangan token 10× dibanding tokenisasi naif).
Bahasa100+ bahasa / skrip (cakupan multibahasa diklaim dalam catatan produk).

Apa itu DeepSeek-OCR-2

DeepSeek-OCR-2 adalah model OCR/pemahaman dokumen utama kedua dari DeepSeek AI. Alih-alih memperlakukan OCR sebagai ekstraksi karakter biasa, model ini mengompresi informasi dokumen visual menjadi token visual yang ringkas (proses yang oleh DeepSeek disebut sebagai vision-text compression atau keluarga DeepEncoder-nya), lalu mendekode token tersebut dengan decoder VLM bergaya mixture-of-experts (MoE) berparameter 3B yang memodelkan generasi teks dan penalaran tata letak secara bersamaan. Pendekatan ini menargetkan dokumen berkonteks panjang (tabel, tata letak multi-kolom, diagram, skrip multibahasa) sambil mengurangi panjang urutan dan biaya runtime keseluruhan dibandingkan dengan menokenisasi setiap piksel/patch.

Fitur utama DeepSeek-OCR-2

  • Urutan baca mirip manusia & kesadaran tata letak — mempelajari pengurutan logis teks (judul→paragraf→tabel) alih-alih memindai grid tetap.
  • Kompresi vision-text — mengompresi input visual menjadi urutan token yang jauh lebih pendek (target kompresi tipikal 10×), memungkinkan konteks dokumen panjang untuk decoder.
  • Multibahasa & multi-skrip — mengklaim dukungan untuk 100+ bahasa dan beragam skrip.
  • Throughput tinggi / dapat di-host sendiri — dirancang untuk inferensi on-prem (contoh A100), dan build komunitas GGUF/lokal juga dilaporkan.
  • Dapat di-fine-tune — repo dan panduan mencakup instruksi fine-tuning untuk adaptasi domain (faktur, makalah ilmiah, formulir).
  • Output tata letak + konten — bukan hanya teks biasa: output terstruktur untuk memfasilitasi pipeline KIE/NER dan RAG downstream.

Kinerja benchmark DeepSeek-OCR-2

  • Benchmark Fox / metrik internal: ~97% akurasi exact-match pada kompresi 10× pada benchmark Fox miliknya (benchmark perusahaan yang berfokus pada fidelitas dokumen di bawah kompresi). Ini adalah salah satu klaim utama dalam materi pemasaran DeepSeek.
  • Trade-off kompresi: Meskipun akurasi tetap tinggi pada kompresi moderat (≈10×), akurasi menurun pada kompresi yang lebih agresif (Tom’s Hardware merangkum pengujian yang menunjukkan akurasi turun menjadi ~60% pada 20× dalam beberapa skenario). Ini menyoroti trade-off praktis antara throughput & fidelitas.
  • Throughput: ~200k halaman/hari pada satu NVIDIA A100 untuk beban kerja tipikal — berguna saat mengevaluasi biaya/skala vs API OCR cloud.

Kasus penggunaan & deployment yang direkomendasikan

  • Ingesti & pengindeksan dokumen enterprise: mengonversi korpus besar laporan tahunan, PDF, dan dokumen hasil pindaian menjadi teks yang dapat dicari + metadata tata letak untuk pipeline RAG/LLM. (Klaim throughput DeepSeek menarik untuk skala.)
  • Ekstraksi tabel terstruktur / pelaporan keuangan: encoder yang sadar tata letak membantu mempertahankan hubungan sel tabel untuk ekstraksi dan rekonsiliasi KIE downstream. Validasi tingkat kompresi terhadap kebutuhan presisi numerik.
  • Digitalisasi arsip multibahasa: dukungan 100+ bahasa membuatnya cocok untuk perpustakaan, arsip pemerintah, atau pemrosesan dokumen multinasional.
  • Deployment on-prem yang sensitif terhadap privasi: varian HF/GGUF yang dapat di-host sendiri memungkinkan data tetap disimpan di internal dibandingkan dengan penyedia cloud.
  • Prapemrosesan untuk LLM RAG: mengompresi dan mengekstrak teks + tata letak yang setia untuk ingest RAG ketika panjang konteks menjadi bottleneck.

Cara mengakses DeepSeek-OCR-2 melalui CometAPI

Langkah 1: Daftar untuk API Key

Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke konsol CometAPI Anda. Dapatkan kredensial akses API key untuk antarmuka tersebut. Klik “Add Token” pada bagian API token di pusat personal, dapatkan token key: sk-xxxxx lalu kirimkan.

cometapi-key

Langkah 2: Kirim Request ke API DeepSeek-OCR-2

Pilih endpoint “deepseek-ocr-2” untuk mengirim request API dan atur request body. Metode request dan request body diperoleh dari dokumentasi API di situs web kami. Situs web kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti dengan CometAPI key aktual dari akun Anda. base url ada di Chat Completions.

Masukkan pertanyaan atau permintaan Anda ke dalam field content—ini adalah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.

Langkah 3: Ambil dan Verifikasi Hasil

Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API akan merespons dengan status tugas dan data output.

FAQ

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 menggunakan Visual Causal Flow untuk menentukan urutan baca semantik, sehingga dapat merekonstruksi tabel dan tata letak multi-kolom dengan lebih akurat dibandingkan mesin OCR berbasis grid.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Ya, model ini dioptimalkan secara khusus untuk mempertahankan struktur tabel dan notasi matematika dalam output Markdown atau JSON terstruktur.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Ya, output terstrukturnya menjadikannya sangat cocok untuk prapemrosesan dokumen dalam alur kerja retrieval-augmented generation.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 meningkatkan pemahaman tata letak, menurunkan tingkat kesalahan karakter, dan berkinerja lebih baik pada dokumen yang kompleks dibandingkan OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Ya, ini mendukung lebih dari 100 bahasa, termasuk aksara non-Latin dan dokumen campuran bahasa.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Perangkat komunitas mendukung fine-tuning, dengan peningkatan yang dilaporkan pada akurasi OCR khusus domain seperti keuangan dan dokumen ilmiah.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Pilih DeepSeek-OCR-2 ketika kesetiaan struktur dokumen dan akurasi OCR lebih penting daripada penalaran multimodal umum.

Fitur untuk DeepSeek-OCR2

Jelajahi fitur-fitur utama dari DeepSeek-OCR2, yang dirancang untuk meningkatkan performa dan kegunaan. Temukan bagaimana kemampuan-kemampuan ini dapat menguntungkan proyek Anda dan meningkatkan pengalaman pengguna.

Harga untuk DeepSeek-OCR2

Jelajahi harga kompetitif untuk DeepSeek-OCR2, dirancang untuk berbagai anggaran dan kebutuhan penggunaan. Paket fleksibel kami memastikan Anda hanya membayar untuk apa yang Anda gunakan, memudahkan untuk meningkatkan skala seiring berkembangnya kebutuhan Anda. Temukan bagaimana DeepSeek-OCR2 dapat meningkatkan proyek Anda sambil menjaga biaya tetap terkendali.
Harga Comet (USD / M Tokens)Harga Resmi (USD / M Tokens)Diskon
Per Permintaan:$0.04
Per Permintaan:$0.05
-20%

Kode contoh dan API untuk DeepSeek-OCR2

Akses kode sampel komprehensif dan sumber daya API untuk DeepSeek-OCR2 guna mempermudah proses integrasi Anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu Anda memanfaatkan potensi penuh DeepSeek-OCR2 dalam proyek Anda.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'

Model Lainnya