ข้อมูลจำเพาะทาง技术ของ DeepSeek-OCR-2
| ฟิลด์ | DeepSeek-OCR-2 (เผยแพร่) |
|---|---|
| วันที่ออก / เวอร์ชัน | Jan 27, 2026 — DeepSeek-OCR-2 (public repo / HF card). |
| พารามิเตอร์ | โมเดล ~3 พันล้าน (3B) พารามิเตอร์ (DeepSeek 3B MoE decoder + compressor) |
| สถาปัตยกรรม | ตัวเข้ารหัสภาพ (DeepEncoder V2 / การบีบอัดเชิงออปติคัล) → ตัวถอดรหัสวิสัยทัศน์-ภาษา 3B (MoE variants อ้างอิงในเอกสารของ DeepSeek) |
| อินพุต | ภาพความละเอียดสูง / หน้าที่สแกน / PDF (รูปแบบภาพ: PNG, JPEG, PDF หลายหน้า ผ่านไปป์ไลน์การแปลง) |
| เอาต์พุต | ข้อความล้วน (UTF-8), เมทาดาต้าเลย์เอาต์แบบมีโครงสร้าง (ขอบเขต/การไหล), JSON คีย์-ค่า (ตัวเลือก) สำหรับการพาร์สภายหลัง |
| ความยาวบริบท (เชิงใช้งาน) | ใช้ลำดับโทเค็นเชิงภาพที่ถูกบีบอัด — เป้าหมายการออกแบบ: บริบทยาวระดับเอกสารทั้งฉบับ (ขีดจำกัดเชิงปฏิบัติขึ้นกับอัตราการบีบอัด; ไปป์ไลน์ทั่วไปทำให้จำนวนโทเค็นลดลง 10× เมื่อเทียบกับการโทเค็นแบบธรรมดา) |
| ภาษา | มากกว่า 100 ภาษา/ระบบอักษร (อ้างอิงความครอบคลุมแบบหลายภาษาตามหมายเหตุผลิตภัณฑ์) |
DeepSeek-OCR-2 คืออะไร
DeepSeek-OCR-2 คือรุ่นที่สองของโมเดล OCR/ความเข้าใจเอกสารจาก DeepSeek AI แทนที่จะมอง OCR เป็นเพียงการดึงอักขระ โมเดลนี้บีบอัดข้อมูลภาพของเอกสารให้เป็นโทเค็นภาพที่กะทัดรัด (กระบวนการที่ DeepSeek เรียกว่า การบีบอัดภาพ-ข้อความ หรือครอบครัว DeepEncoder) แล้วถอดรหัสโทเค็นเหล่านั้นด้วยตัวถอดรหัส VLM แบบ Mixture-of-Experts (MoE) ขนาด 3B พารามิเตอร์ ที่สร้างข้อความและให้เหตุผลด้านเลย์เอาต์ไปพร้อมกัน แนวทางนี้มุ่งเป้าการจัดการเอกสารบริบทยาว (ตาราง เลย์เอาต์หลายคอลัมน์ แผนภาพ สคริปต์หลายภาษา) โดยลดความยาวลำดับและต้นทุนรันไทม์เมื่อเทียบกับการโทเค็นทุกพิกเซล/แพตช์
คุณสมบัติหลักของ DeepSeek-OCR-2
- การเรียงลำดับการอ่านแบบมนุษย์และตระหนักรู้เลย์เอาต์ — เรียนรู้ลำดับเชิงตรรกะของข้อความ (หัวเรื่อง→ย่อหน้า→ตาราง) แทนการสแกนเป็นกริดตายตัว
- การบีบอัดภาพ-ข้อความ — บีบอัดอินพุตภาพให้เป็นลำดับโทเค็นที่สั้นลงมาก (เป้าหมายการบีบอัดทั่วไป 10×) ทำให้ตัวถอดรหัสรองรับบริบทยาวระดับเอกสาร
- หลายภาษาและหลายระบบอักษร — ระบุว่ารองรับมากกว่า 100 ภาษาและอักษรที่หลากหลาย
- ปริมาณงานสูง/โฮสต์เองได้ — ออกแบบสำหรับอินเฟอเรนซ์ในองค์กร (ตัวอย่างบน A100) และมีรายงานรุ่น GGUF/บิลด์โลคัลจากชุมชน
- ปรับจูนได้ — ที่เก็บและคู่มือมีวิธีปรับจูนเพื่อปรับให้เข้ากับโดเมน (ใบแจ้งหนี้ งานวิจัย ฟอร์ม)
- เอาต์พุตเลย์เอาต์ + เนื้อหา — ไม่ใช่แค่ข้อความล้วน: เอาต์พุตแบบมีโครงสร้างเพื่ออำนวยความสะดวกแก่ไปป์ไลน์ KIE/NER และ RAG ภายหลัง
ผลการทดสอบประสิทธิภาพของ DeepSeek-OCR-2
- Fox benchmark / ตัวชี้วัดภายใน: ความแม่นยำแบบ exact-match ประมาณ ~97% ที่การบีบอัด 10× บน Fox benchmark (บenchmark ของบริษัทที่เน้นความคงรูปของเอกสารภายใต้การบีบอัด) ซึ่งเป็นหนึ่งในตัวเลขชูโรงในสื่อการตลาดของ DeepSeek
- การแลกเปลี่ยนของการบีบอัด: ขณะความแม่นยำยังสูงที่การบีบอัดระดับปานกลาง (≈10×) แต่จะลดลงเมื่อบีบอัดเชิงรุกมากขึ้น (Tom’s Hardware สรุปการทดสอบที่ความแม่นยำลดเหลือประมาณ ~60% ที่ 20× ในบางสถานการณ์) ชี้ให้เห็นการแลกเปลี่ยนระหว่างปริมาณงานกับความซื่อสัตย์ของผลลัพธ์
- ปริมาณงาน: ประมาณ ~200k หน้า/วัน บน NVIDIA A100 เครื่องเดียวสำหรับงานทั่วไป — มีประโยชน์เมื่อต้องประเมินต้นทุน/สเกลเทียบกับ OCR API บนคลาวด์
กรณีใช้งานและคำแนะนำการปรับใช้
- การนำเข้าและทำดัชนีเอกสารระดับองค์กร: แปลงคลังรายงานประจำปี PDF และเอกสารสแกนจำนวนมากเป็นข้อความที่ค้นหาได้ + เมทาดาต้าเลย์เอาต์สำหรับไปป์ไลน์ RAG/LLM (ตัวเลขปริมาณงานของ DeepSeek น่าสนใจเมื่อทำงานที่สเกล)
- การดึงตารางแบบมีโครงสร้าง/รายงานการเงิน: ตัวเข้ารหัสที่ตระหนักเลย์เอาต์ช่วยรักษาความสัมพันธ์ระดับเซลล์ตารางเพื่อการสกัด KIE และการกระทบยอดภายหลัง ควรตรวจสอบระดับการบีบอัดให้สอดคล้องกับความต้องการความแม่นยำเชิงตัวเลข
- การทำดิจิทัลคลังเอกสารหลายภาษา: รองรับมากกว่า 100 ภาษา เหมาะกับห้องสมุด แฟ้มเก็บเอกสารของรัฐ หรือการประมวลผลเอกสารขององค์กรข้ามชาติ
- การปรับใช้ในองค์กรที่ต้องคุ้มครองความเป็นส่วนตัว: รุ่น HF/GGUF ที่โฮสต์เองได้ช่วยเก็บข้อมูลไว้ภายใน แทนการพึ่งพาผู้ให้บริการคลาวด์
- การเตรียมข้อมูลล่วงหน้าสำหรับ LLM RAG: บีบอัดและแยกข้อความ+เลย์เอาต์ที่ซื่อสัตย์สำหรับการนำเข้า RAG ในกรณีที่ความยาวบริบทเป็นคอขวด
วิธีเข้าถึง DeepSeek-OCR-2 ผ่าน CometAPI
ขั้นตอนที่ 1: สมัครรับ API Key
เข้าสู่ระบบที่ cometapi.com หากยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ คอนโซล CometAPI รับ API key สำหรับการเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ส่วน API token ในศูนย์ส่วนบุคคล รับโทเค็นคีย์: sk-xxxxx และส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง DeepSeek-OCR-2 API
เลือกเอ็นด์พอยต์ “deepseek-ocr-2” เพื่อส่งคำขอ API และตั้งค่า request body วิธีและบอดีของคำขอสามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบ Apifox เพื่อความสะดวก แทนที่ด้วย CometAPI key จริงจากบัญชีของคุณ base url คือ Chat Completions
ใส่คำถามหรือคำขอลงในช่อง content — โมเดลจะตอบสนองต่อสิ่งนี้ ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น
ขั้นตอนที่ 3: ดึงผลลัพธ์และตรวจสอบความถูกต้อง
ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต