Thông số kỹ thuật của DeepSeek-OCR-2
| Trường | DeepSeek-OCR-2 (đã công bố) |
|---|---|
| Ngày phát hành / Phiên bản | 27 Tháng 1, 2026 — DeepSeek-OCR-2 (kho công khai / thẻ HF). |
| Tham số | ~3 tỷ (3B) tham số (bộ giải mã MoE DeepSeek 3B + bộ nén). |
| Kiến trúc | Bộ mã hóa thị giác (DeepEncoder V2 / nén quang học) → bộ giải mã thị giác–ngôn ngữ 3B (các biến thể MoE được đề cập trong tài liệu DeepSeek). |
| Đầu vào | Ảnh độ phân giải cao / trang quét / PDF (định dạng ảnh: PNG, JPEG, PDF nhiều trang qua các pipeline chuyển đổi). |
| Đầu ra | Văn bản thuần (UTF-8), siêu dữ liệu bố cục có cấu trúc (vùng bao/luồng), tùy chọn cặp khóa–giá trị (K–V) JSON cho phân tích ở hạ nguồn. |
| Độ dài ngữ cảnh (hiệu dụng) | Sử dụng chuỗi token thị giác đã nén — mục tiêu thiết kế: ngữ cảnh dài ở quy mô tài liệu (giới hạn thực tế phụ thuộc tỉ lệ nén; pipeline điển hình đạt giảm số token 10× so với token hóa đơn giản). |
| Ngôn ngữ | Hơn 100 ngôn ngữ/chữ viết (phạm vi đa ngôn ngữ được tuyên bố trong ghi chú sản phẩm). |
DeepSeek-OCR-2 là gì
DeepSeek-OCR-2 là thế hệ thứ hai của mô hình OCR/hiểu tài liệu từ DeepSeek AI. Thay vì xem OCR như việc trích xuất ký tự thuần túy, mô hình nén thông tin tài liệu trực quan thành các token thị giác gọn (quy trình DeepSeek gọi là nén thị giác–văn bản hoặc thuộc họ DeepEncoder), rồi giải mã các token đó bằng bộ giải mã VLM kiểu mixture-of-experts (MoE) 3B tham số, mô hình hóa đồng thời sinh văn bản và suy luận bố cục. Cách tiếp cận này nhắm tới tài liệu ngữ cảnh dài (bảng, bố cục nhiều cột, sơ đồ, chữ viết đa ngôn ngữ) đồng thời giảm độ dài chuỗi và chi phí chạy so với việc token hóa mọi pixel/ô ảnh.
Tính năng chính của DeepSeek-OCR-2
- Thứ tự đọc như con người & nhận biết bố cục — học thứ tự logic của văn bản (tiêu đề→đoạn văn→bảng) thay vì quét theo lưới cố định.
- Nén thị giác–văn bản — nén đầu vào thị giác thành chuỗi token ngắn hơn nhiều (mục tiêu nén điển hình ~10×), cho phép bộ giải mã xử lý ngữ cảnh tài liệu dài.
- Đa ngôn ngữ & đa hệ chữ — tuyên bố hỗ trợ hơn 100 ngôn ngữ và nhiều hệ chữ.
- Thông lượng cao / có thể tự lưu trữ — thiết kế cho suy luận on‑prem (ví dụ A100), và đã có báo cáo về các bản dựng GGUF/cục bộ từ cộng đồng.
- Có thể fine‑tune — kho và hướng dẫn bao gồm chỉ dẫn fine‑tune để thích ứng miền (hóa đơn, bài báo khoa học, biểu mẫu).
- Đầu ra bố cục + nội dung — không chỉ văn bản thuần: đầu ra có cấu trúc hỗ trợ các pipeline KIE/NER và RAG ở hạ nguồn.
Hiệu năng benchmark của DeepSeek-OCR-2
- Benchmark Fox / chỉ số nội bộ: ~97% độ chính xác khớp tuyệt đối ở mức nén 10× trên benchmark Fox (benchmark của công ty tập trung vào độ trung thực tài liệu dưới nén). Đây là một trong các tuyên bố nổi bật trong tài liệu marketing của DeepSeek.
- Đánh đổi khi nén: Mặc dù độ chính xác vẫn cao ở mức nén vừa phải (≈10×), nó suy giảm khi nén mạnh hơn (Tom’s Hardware tóm tắt thử nghiệm cho thấy độ chính xác giảm xuống ~60% ở 20× trong một số kịch bản). Điều này nêu bật sự đánh đổi thực tế giữa thông lượng và độ trung thực.
- Thông lượng: ~200 nghìn trang/ngày trên một NVIDIA A100 cho khối lượng công việc điển hình — hữu ích khi đánh giá chi phí/quy mô so với các API OCR đám mây.
Trường hợp sử dụng & triển khai khuyến nghị
- Nạp & lập chỉ mục tài liệu doanh nghiệp: chuyển đổi các tập báo cáo thường niên, PDF và tài liệu quét lớn thành văn bản có thể tìm kiếm + siêu dữ liệu bố cục cho các pipeline RAG/LLM. (Tuyên bố thông lượng của DeepSeek hấp dẫn cho quy mô.)
- Trích xuất bảng có cấu trúc / báo cáo tài chính: bộ mã hóa nhận biết bố cục giúp bảo toàn quan hệ giữa các ô bảng cho tác vụ KIE ở hạ nguồn và đối soát. Xác thực mức nén phù hợp với yêu cầu độ chính xác số.
- Số hóa lưu trữ đa ngôn ngữ: hỗ trợ hơn 100 ngôn ngữ khiến nó phù hợp cho thư viện, lưu trữ của chính phủ hoặc xử lý tài liệu đa quốc gia.
- Triển khai on‑prem, nhạy cảm về quyền riêng tư: các biến thể tự lưu trữ HF/GGUF cho phép giữ dữ liệu nội bộ thay vì dùng nhà cung cấp đám mây.
- Tiền xử lý cho LLM RAG: nén và trích xuất văn bản + bố cục trung thực để nạp vào RAG khi độ dài ngữ cảnh là nút thắt.
Cách truy cập DeepSeek-OCR-2 qua CometAPI
Bước 1: Đăng ký khóa API
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào Bảng điều khiển CometAPI. Lấy khóa API (thông tin xác thực truy cập) của giao diện. Tại mục API token trong trung tâm cá nhân, nhấp “Add Token”, lấy token key: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới API DeepSeek-OCR-2
Chọn endpoint “deepseek-ocr-2” để gửi yêu cầu API và thiết lập thân yêu cầu. Phương thức yêu cầu và thân yêu cầu lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp kiểm thử Apifox để bạn thuận tiện sử dụng. Hãy thay bằng khóa CometAPI thực tế từ tài khoản của bạn. URL cơ sở là Chat Completions.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là phần mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để nhận câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.