Spesifikasi teknikal DeepSeek-OCR-2
| Medan | DeepSeek-OCR-2 (diterbitkan) |
|---|---|
| Tarikh keluaran / Versi | 27 Jan, 2026 — DeepSeek-OCR-2 (repositori awam / kad HF). |
| Parameter | Model ~3 bilion (3B) (penyahkod DeepSeek 3B MoE + pemampat). |
| Seni bina | Pengekod visi (DeepEncoder V2 / pemampatan optik) → penyahkod bahasa-visi 3B (varian MoE dirujuk dalam bahan DeepSeek). |
| Input | Imej resolusi tinggi / halaman imbasan / PDF (format imej: PNG, JPEG, PDF berbilang halaman melalui saluran penukaran). |
| Output | Teks biasa (UTF-8), metadata susun atur berstruktur (sempadan/aliran), JSON K-V pilihan untuk penghuraian hiliran. |
| Panjang konteks (berkesan) | Menggunakan jujukan token visual termampat — matlamat reka bentuk: konteks panjang berskala dokumen (had praktikal bergantung pada nisbah pemampatan; saluran biasa menghasilkan pengurangan token 10× berbanding pentokenan naif). |
| Bahasa | 100+ bahasa / skrip (liputan berbilang bahasa didakwa dalam nota produk). |
Apakah itu DeepSeek-OCR-2
DeepSeek-OCR-2 ialah model OCR/pemahaman dokumen utama kedua daripada DeepSeek AI. Daripada menganggap OCR sebagai pengekstrakan aksara biasa, model ini memampatkan maklumat dokumen visual ke dalam token visual padat (proses yang dipanggil DeepSeek sebagai pemampatan visi-teks atau keluarga DeepEncoder), kemudian menyahkod token tersebut dengan penyahkod VLM gaya mixture-of-experts (MoE) berparameter 3B yang memodelkan penjanaan teks dan penaakulan susun atur secara bersama. Pendekatan ini menyasarkan dokumen berkonteks panjang (jadual, susun atur berbilang lajur, rajah, skrip berbilang bahasa) sambil mengurangkan panjang jujukan dan kos masa jalan keseluruhan berbanding mentokenkan setiap piksel/tampalan.
Ciri utama DeepSeek-OCR-2
- Susunan bacaan seperti manusia & kesedaran susun atur — mempelajari tertib logik teks (tajuk→perenggan→jadual) dan bukannya mengimbas grid tetap.
- Pemampatan visi-teks — memampatkan input visual kepada jujukan token yang jauh lebih pendek (sasaran pemampatan biasa 10×), membolehkan konteks dokumen panjang untuk penyahkod.
- Berbilang bahasa & berbilang skrip — mendakwa sokongan untuk 100+ bahasa dan pelbagai skrip.
- Throughput tinggi / boleh dihoskan sendiri — direka untuk inferens on-prem (contoh A100), dan binaan komuniti GGUF/tempatan turut dilaporkan.
- Boleh diperhalus — repositori dan panduan menyertakan arahan fine-tuning untuk penyesuaian domain (invois, kertas sains, borang).
- Output susun atur + kandungan — bukan sekadar teks biasa: output berstruktur untuk memudahkan saluran KIE/NER dan RAG hiliran.
Prestasi penanda aras DeepSeek-OCR-2
- Penanda aras Fox / metrik dalaman: ketepatan exact-match ~97% pada pemampatan 10× pada penanda aras Fox (penanda aras syarikat yang memfokuskan pada kesetiaan dokumen di bawah pemampatan). Ini ialah salah satu dakwaan utama dalam bahan pemasaran DeepSeek.
- Tukar ganti pemampatan: Walaupun ketepatan kekal tinggi pada pemampatan sederhana (≈10×), ia merosot dengan pemampatan yang lebih agresif (Tom’s Hardware merumuskan ujian yang menunjukkan ketepatan jatuh kepada ~60% pada 20× dalam sesetengah senario). Ini menyerlahkan pertukaran praktikal antara throughput & kesetiaan.
- Throughput: ~200k halaman/hari pada satu NVIDIA A100 untuk beban kerja biasa — berguna apabila menilai kos/skala berbanding API OCR awan.
Kes penggunaan & penempatan yang disyorkan
- Pengingesan & pengindeksan dokumen perusahaan: tukarkan korpus besar laporan tahunan, PDF, dan dokumen imbasan kepada teks boleh carian + metadata susun atur untuk saluran RAG/LLM. (Dakwaan throughput DeepSeek menarik untuk skala.)
- Pengekstrakan jadual berstruktur / pelaporan kewangan: pengekod yang peka susun atur membantu mengekalkan hubungan sel jadual untuk pengekstrakan dan rekonsiliasi KIE hiliran. Sahkan tahap pemampatan mengikut keperluan ketepatan numerik.
- Pendigitalan arkib berbilang bahasa: sokongan 100+ bahasa menjadikannya sesuai untuk perpustakaan, arkib kerajaan, atau pemprosesan dokumen multinasional.
- Penempatan on-prem yang sensitif privasi: varian HF/GGUF yang boleh dihoskan sendiri membolehkan data kekal dalaman berbanding penyedia awan.
- Pra-pemprosesan untuk LLM RAG: memampatkan dan mengekstrak teks + susun atur yang setia untuk pengingesan RAG apabila panjang konteks menjadi kekangan.
Cara mengakses DeepSeek-OCR-2 melalui CometAPI
Langkah 1: Daftar untuk Kunci API
Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI anda. Dapatkan kelayakan akses kunci API bagi antara muka tersebut. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

Langkah 2: Hantar Permintaan ke API DeepSeek-OCR-2
Pilih endpoint “deepseek-ocr-2” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan dengan kunci CometAPI sebenar daripada akaun anda. base url ialah Chat Completions.
Masukkan soalan atau permintaan anda ke dalam medan content—itulah yang akan dijawab oleh model. Proses respons API untuk mendapatkan jawapan yang dijana.
Langkah 3: Dapatkan dan Sahkan Keputusan
Proses respons API untuk mendapatkan jawapan yang dijana. Selepas diproses, API akan memberikan status tugasan dan data output.