DeepSeek-OCR-2의 기술 사양
| 필드 | DeepSeek-OCR-2 (공개됨) |
|---|---|
| 출시일 / 버전 | 2026년 1월 27일 — DeepSeek-OCR-2 (public repo / HF card). |
| 파라미터 | ~30억(3B) 모델(DeepSeek 3B MoE 디코더 + 컴프레서). |
| 아키텍처 | 비전 인코더(DeepEncoder V2 / 광학 압축) → 3B 비전-언어 디코더(DeepSeek 자료에서 언급된 MoE 변형). |
| 입력 | 고해상도 이미지 / 스캔 페이지 / PDF(이미지 형식: PNG, JPEG, 변환 파이프라인을 통한 다중 페이지 PDF). |
| 출력 | 일반 텍스트(UTF-8), 구조화된 레이아웃 메타데이터(bounding/flow), 후속 파싱을 위한 선택적 JSON K-V. |
| 컨텍스트 길이(유효) | 압축된 시각 토큰 시퀀스를 사용 — 설계 목표: 긴 문서급 컨텍스트(실제 한계는 압축 비율에 따라 달라지며, 일반적인 파이프라인은 단순 토크나이즈 대비 10× 토큰 감소를 제공). |
| 언어 | 100+ 언어/스크립트(제품 노트에서 다국어 지원을 주장). |
DeepSeek-OCR-2란 무엇인가
DeepSeek-OCR-2는 DeepSeek AI의 두 번째 주요 OCR/문서 이해 모델이다. 단순한 문자 추출로서의 OCR이 아니라, 문서의 시각 정보를 압축된 시각 토큰으로 변환하는(DeepSeek은 이를 비전-텍스트 압축 혹은 DeepEncoder 계열이라 부름) 과정을 통해, 3B 파라미터의 혼합 전문가(MoE) 스타일 VLM 디코더가 텍스트 생성과 레이아웃 추론을 함께 수행한다. 이 접근법은 모든 픽셀/패치를 토크나이즈하는 방식 대비 시퀀스 길이와 전체 런타임 비용을 줄이면서, 긴 컨텍스트의 문서(표, 다단 레이아웃, 도표, 다국어 스크립트 등)를 목표로 한다.
DeepSeek-OCR-2의 주요 기능
- 사람과 유사한 읽기 순서와 레이아웃 인식 — 고정 격자를 스캔하는 대신 텍스트의 논리적 순서(제목→문단→표)를 학습.
- 비전-텍스트 압축 — 시각 입력을 훨씬 짧은 토큰 시퀀스로 압축(일반적으로 10× 압축 목표)하여 디코더가 긴 문서 컨텍스트를 처리할 수 있도록 함.
- 다국어 및 다중 스크립트 — 100+ 언어와 다양한 스크립트를 지원한다고 주장.
- 고처리량/셀프 호스팅 가능 — 온프레미스 추론(A100 예시)에 맞게 설계되었으며, 커뮤니티 GGUF/로컬 빌드 보고됨.
- 파인튜닝 가능 — 저장소와 가이드에 도메인 적응을 위한 파인튜닝 지침(송장, 과학 논문, 양식)이 포함.
- 레이아웃 + 콘텐츠 출력 — 단순 텍스트에 그치지 않고, 후속 KIE/NER 및 RAG 파이프라인을 돕는 구조화된 출력 제공.
DeepSeek-OCR-2의 벤치마크 성능
- Fox 벤치마크/내부 지표: 자체 Fox 벤치마크(압축 하에서 문서 충실도에 초점을 맞춘 회사 벤치마크)에서 ~97% 정확 일치 정확도(10× 압축). 이는 DeepSeek 마케팅 자료의 대표 주장 중 하나.
- 압축 트레이드오프: 중간 수준의 압축(≈10×)에서는 정확도가 높게 유지되지만, 더 공격적인 압축에서는 저하됨(일부 시나리오에서 정확도가 **~60% at 20×**까지 떨어진다는 Tom’s Hardware 요약 테스트). 이는 처리량과 충실도 간의 실질적 트레이드오프를 부각.
- 처리량: 일반적인 워크로드에서 단일 NVIDIA A100에서 ~200k pages/day — 클라우드 OCR API 대비 비용/규모를 평가할 때 유용.
사용 사례 및 권장 배포
- 기업 문서 수집 및 인덱싱: 대규모 연차보고서, PDF, 스캔 문서를 검색 가능한 텍스트 + 레이아웃 메타데이터로 변환하여 RAG/LLM 파이프라인에 투입. (규모 측면에서 DeepSeek의 처리량 주장이 매력적.)
- 구조화된 표 추출/재무 보고: 레이아웃 인식 인코더가 표 셀 관계를 보존하여 후속 KIE 추출 및 대사에 유리. 숫자 정밀도가 중요한 경우 압축 수준을 검증할 것.
- 다국어 아카이브 디지털화: 100+ 언어 지원으로 도서관, 정부 아카이브, 다국적 문서 처리에 적합.
- 온프레미스, 프라이버시 민감 배포: 자체 호스팅 가능한 HF/GGUF 변형으로 클라우드 대비 내부 데이터 보관 가능.
- LLM RAG 전처리: 컨텍스트 길이가 병목인 RAG 수집을 위해 충실한 텍스트 + 레이아웃을 압축/추출.
CometAPI를 통해 DeepSeek-OCR-2에 액세스하는 방법
Step 1: Sign Up for API Key
cometapi.com에 로그인하세요. 아직 사용자라면 먼저 등록하세요. CometAPI 콘솔에 로그인합니다. 인터페이스의 액세스 자격 증명 API 키를 받습니다. 개인 센터의 API 토큰에서 “Add Token”을 클릭하고 토큰 키: sk-xxxxx를 받아 제출하세요.

Step 2: Send Requests to DeepSeek-OCR-2 API
“deepseek-ocr-2” 엔드포인트를 선택하여 API 요청을 보내고 요청 본문을 설정하세요. 요청 메서드와 요청 본문은 당사 웹사이트 API 문서에서 확인할 수 있습니다. 편의를 위해 웹사이트에서 Apifox 테스트도 제공합니다. 계정의 실제 CometAPI 키로 교체하세요. base url is Chat Completions.
질문이나 요청을 content 필드에 입력하세요 — 이에 모델이 응답합니다. 생성된 응답을 얻기 위해 API 응답을 처리하세요.
Step 3: Retrieve and Verify Results
API 응답을 처리하여 생성된 답변을 얻으세요. 처리 후, API는 작업 상태와 출력 데이터를 반환합니다.