ModelHargaPerusahaan
500+ API Model AI, Semua Dalam Satu API. Hanya Di CometAPI
API Model
Pembangun
Mula PantasDokumentasiPapan Pemuka API
Syarikat
Tentang kamiPerusahaan
Sumber
Model AIBlogLog PerubahanSokongan
Terma PerkhidmatanDasar Privasi
© 2026 CometAPI · All rights reserved
Home/Models/DeepSeek/DeepSeek-OCR2
D

DeepSeek-OCR2

Setiap Permintaan:$0.04
DeepSeek-OCR 2 ialah model yang dikeluarkan oleh DeepSeek pada 27 Januari 2026, menggunakan kaedah DeepEncoder V2 yang inovatif, yang membolehkan AI menyusun semula bahagian imej secara dinamik berdasarkan maknanya, bukan sekadar mengimbas secara mekanikal dari kiri ke kanan. Sambil mengekalkan kecekapan pemampatan data yang tinggi, model ini telah mencapai terobosan signifikan dalam pelbagai penanda aras dan metrik pengeluaran. Model ini boleh meliputi halaman dokumen yang kompleks dengan hanya 256 hingga 1120 token visual, mencapai skor keseluruhan 91.09% dalam penilaian OmniDocBench v1.5.
Baru
Penggunaan komersial
Playground
Gambaran Keseluruhan
Ciri-ciri
Harga
API

Spesifikasi teknikal DeepSeek-OCR-2

MedanDeepSeek-OCR-2 (diterbitkan)
Tarikh keluaran / Versi27 Jan, 2026 — DeepSeek-OCR-2 (repositori awam / kad HF).
ParameterModel ~3 bilion (3B) (penyahkod DeepSeek 3B MoE + pemampat).
Seni binaPengekod visi (DeepEncoder V2 / pemampatan optik) → penyahkod bahasa-visi 3B (varian MoE dirujuk dalam bahan DeepSeek).
InputImej resolusi tinggi / halaman imbasan / PDF (format imej: PNG, JPEG, PDF berbilang halaman melalui saluran penukaran).
OutputTeks biasa (UTF-8), metadata susun atur berstruktur (sempadan/aliran), JSON K-V pilihan untuk penghuraian hiliran.
Panjang konteks (berkesan)Menggunakan jujukan token visual termampat — matlamat reka bentuk: konteks panjang berskala dokumen (had praktikal bergantung pada nisbah pemampatan; saluran biasa menghasilkan pengurangan token 10× berbanding pentokenan naif).
Bahasa100+ bahasa / skrip (liputan berbilang bahasa didakwa dalam nota produk).

Apakah itu DeepSeek-OCR-2

DeepSeek-OCR-2 ialah model OCR/pemahaman dokumen utama kedua daripada DeepSeek AI. Daripada menganggap OCR sebagai pengekstrakan aksara biasa, model ini memampatkan maklumat dokumen visual ke dalam token visual padat (proses yang dipanggil DeepSeek sebagai pemampatan visi-teks atau keluarga DeepEncoder), kemudian menyahkod token tersebut dengan penyahkod VLM gaya mixture-of-experts (MoE) berparameter 3B yang memodelkan penjanaan teks dan penaakulan susun atur secara bersama. Pendekatan ini menyasarkan dokumen berkonteks panjang (jadual, susun atur berbilang lajur, rajah, skrip berbilang bahasa) sambil mengurangkan panjang jujukan dan kos masa jalan keseluruhan berbanding mentokenkan setiap piksel/tampalan.

Ciri utama DeepSeek-OCR-2

  • Susunan bacaan seperti manusia & kesedaran susun atur — mempelajari tertib logik teks (tajuk→perenggan→jadual) dan bukannya mengimbas grid tetap.
  • Pemampatan visi-teks — memampatkan input visual kepada jujukan token yang jauh lebih pendek (sasaran pemampatan biasa 10×), membolehkan konteks dokumen panjang untuk penyahkod.
  • Berbilang bahasa & berbilang skrip — mendakwa sokongan untuk 100+ bahasa dan pelbagai skrip.
  • Throughput tinggi / boleh dihoskan sendiri — direka untuk inferens on-prem (contoh A100), dan binaan komuniti GGUF/tempatan turut dilaporkan.
  • Boleh diperhalus — repositori dan panduan menyertakan arahan fine-tuning untuk penyesuaian domain (invois, kertas sains, borang).
  • Output susun atur + kandungan — bukan sekadar teks biasa: output berstruktur untuk memudahkan saluran KIE/NER dan RAG hiliran.

Prestasi penanda aras DeepSeek-OCR-2

  • Penanda aras Fox / metrik dalaman: ketepatan exact-match ~97% pada pemampatan 10× pada penanda aras Fox (penanda aras syarikat yang memfokuskan pada kesetiaan dokumen di bawah pemampatan). Ini ialah salah satu dakwaan utama dalam bahan pemasaran DeepSeek.
  • Tukar ganti pemampatan: Walaupun ketepatan kekal tinggi pada pemampatan sederhana (≈10×), ia merosot dengan pemampatan yang lebih agresif (Tom’s Hardware merumuskan ujian yang menunjukkan ketepatan jatuh kepada ~60% pada 20× dalam sesetengah senario). Ini menyerlahkan pertukaran praktikal antara throughput & kesetiaan.
  • Throughput: ~200k halaman/hari pada satu NVIDIA A100 untuk beban kerja biasa — berguna apabila menilai kos/skala berbanding API OCR awan.

Kes penggunaan & penempatan yang disyorkan

  • Pengingesan & pengindeksan dokumen perusahaan: tukarkan korpus besar laporan tahunan, PDF, dan dokumen imbasan kepada teks boleh carian + metadata susun atur untuk saluran RAG/LLM. (Dakwaan throughput DeepSeek menarik untuk skala.)
  • Pengekstrakan jadual berstruktur / pelaporan kewangan: pengekod yang peka susun atur membantu mengekalkan hubungan sel jadual untuk pengekstrakan dan rekonsiliasi KIE hiliran. Sahkan tahap pemampatan mengikut keperluan ketepatan numerik.
  • Pendigitalan arkib berbilang bahasa: sokongan 100+ bahasa menjadikannya sesuai untuk perpustakaan, arkib kerajaan, atau pemprosesan dokumen multinasional.
  • Penempatan on-prem yang sensitif privasi: varian HF/GGUF yang boleh dihoskan sendiri membolehkan data kekal dalaman berbanding penyedia awan.
  • Pra-pemprosesan untuk LLM RAG: memampatkan dan mengekstrak teks + susun atur yang setia untuk pengingesan RAG apabila panjang konteks menjadi kekangan.

Cara mengakses DeepSeek-OCR-2 melalui CometAPI

Langkah 1: Daftar untuk Kunci API

Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar terlebih dahulu. Log masuk ke konsol CometAPI anda. Dapatkan kelayakan akses kunci API bagi antara muka tersebut. Klik “Add Token” pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan hantar.

cometapi-key

Langkah 2: Hantar Permintaan ke API DeepSeek-OCR-2

Pilih endpoint “deepseek-ocr-2” untuk menghantar permintaan API dan tetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API laman web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. Gantikan dengan kunci CometAPI sebenar daripada akaun anda. base url ialah Chat Completions.

Masukkan soalan atau permintaan anda ke dalam medan content—itulah yang akan dijawab oleh model. Proses respons API untuk mendapatkan jawapan yang dijana.

Langkah 3: Dapatkan dan Sahkan Keputusan

Proses respons API untuk mendapatkan jawapan yang dijana. Selepas diproses, API akan memberikan status tugasan dan data output.

Soalan Lazim

How is DeepSeek-OCR-2 different from traditional OCR APIs?

DeepSeek-OCR-2 menggunakan Visual Causal Flow untuk menentukan tertib bacaan semantik, membolehkannya membina semula jadual dan susun atur berbilang lajur dengan lebih tepat berbanding enjin OCR berasaskan grid.

Can DeepSeek-OCR-2 handle complex tables and formulas?

Ya, ia dioptimumkan khusus untuk mengekalkan struktur jadual dan notasi matematik dalam output Markdown atau JSON berstruktur.

Is DeepSeek-OCR-2 suitable for RAG pipelines?

Ya, output berstrukturnya sesuai untuk prapemprosesan dokumen dalam aliran kerja retrieval-augmented generation.

How does DeepSeek-OCR-2 compare to DeepSeek-OCR-1?

OCR-2 meningkatkan pemahaman susun atur, mengurangkan kadar ralat aksara, dan berprestasi lebih baik pada dokumen kompleks berbanding OCR-1.

Does DeepSeek-OCR-2 support multilingual OCR?

Ya, ia menyokong lebih daripada 100 bahasa, termasuk skrip bukan Latin dan dokumen berbilang bahasa.

Can DeepSeek-OCR-2 be fine-tuned for specific domains?

Alat komuniti menyokong penalaan halus, dengan peningkatan yang dilaporkan dalam ketepatan OCR bagi domain tertentu seperti dokumen kewangan dan saintifik.

When should I choose DeepSeek-OCR-2 over general vision models like GPT-4o?

Pilih DeepSeek-OCR-2 apabila kesetiaan struktur dokumen dan ketepatan OCR lebih penting daripada penaakulan multimodal umum.

Harga untuk DeepSeek-OCR2

Terokai harga yang kompetitif untuk DeepSeek-OCR2, direka bentuk untuk memenuhi pelbagai bajet dan keperluan penggunaan. Pelan fleksibel kami memastikan anda hanya membayar untuk apa yang anda gunakan, menjadikannya mudah untuk meningkatkan skala apabila keperluan anda berkembang. Temui bagaimana DeepSeek-OCR2 boleh meningkatkan projek anda sambil mengekalkan kos yang terurus.
Harga Comet (USD / M Tokens)Harga Rasmi (USD / M Tokens)Diskaun
Setiap Permintaan:$0.04
Setiap Permintaan:$0.05
-20%

Kod contoh dan API untuk DeepSeek-OCR2

Akses kod sampel yang komprehensif dan sumber API untuk DeepSeek-OCR2 bagi memperlancar proses integrasi anda. Dokumentasi terperinci kami menyediakan panduan langkah demi langkah, membantu anda memanfaatkan potensi penuh DeepSeek-OCR2 dalam projek anda.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-ocr-2",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" }
  ],
  model: "deepseek-ocr-2",
});

console.log(completion.choices[0].message.content);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-ocr-2",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ]
  }'