Technische Spezifikationen von DeepSeek-OCR-2
| Feld | DeepSeek-OCR-2 (veröffentlicht) |
|---|---|
| Veröffentlichungsdatum / Version | 27. Jan. 2026 — DeepSeek-OCR-2 (öffentliches Repo / HF Card). |
| Parameter | ~3 Milliarden (3B) Modell (DeepSeek 3B MoE-Decoder + Kompressor). |
| Architektur | Vision-Encoder (DeepEncoder V2 / optische Kompression) → 3B Vision-Language-Decoder (MoE-Varianten in DeepSeek-Unterlagen referenziert). |
| Eingabe | Hochauflösende Bilder / gescannte Seiten / PDFs (Bildformate: PNG, JPEG, mehrseitige PDFs über Konvertierungs-Pipelines). |
| Ausgabe | Plaintext (UTF-8), strukturierte Layout-Metadaten (Bounding/Flow), optional JSON K-V für Downstream-Parsing. |
| Kontextlänge (effektiv) | Verwendet komprimierte visuelle Token-Sequenzen — Ziel: lange, dokumentweite Kontexte (praktische Grenzen hängen vom Kompressionsverhältnis ab; typischerweise 10× Token-Reduktion gegenüber naiver Tokenisierung). |
| Sprachen | 100+ Sprachen / Schriftsysteme (beanspruchte mehrsprachige Abdeckung in den Produktunterlagen). |
Was ist DeepSeek-OCR-2
DeepSeek-OCR-2 ist das zweite große OCR-/Dokumentenverständnis-Modell von DeepSeek AI. Anstatt OCR als reine Zeichenauslese zu behandeln, komprimiert das Modell visuelle Dokumentinformationen in kompakte visuelle Tokens (ein Prozess, den DeepSeek als Vision-Text-Kompression bzw. seine DeepEncoder-Familie bezeichnet) und dekodiert diese Tokens mit einem 3B-Parameter-Mixture-of-Experts-(MoE)-VLM-Decoder, der Texterzeugung und Layoutverständnis gemeinsam modelliert. Der Ansatz zielt auf Langkontext-Dokumente (Tabellen, mehrspaltige Layouts, Diagramme, mehrsprachige Schriftsysteme) ab und reduziert dabei die Sequenzlänge und die Gesamtlaufzeitkosten im Vergleich zur Tokenisierung jedes Pixels/Patches.
Hauptfunktionen von DeepSeek-OCR-2
- Menschenähnliche Lesereihenfolge & Layoutbewusstsein — erlernt die logische Reihenfolge von Text (Überschriften → Absätze → Tabellen) statt starre Raster abzuscannen.
- Vision-Text-Kompression — komprimiert die visuelle Eingabe zu deutlich kürzeren Token-Sequenzen (typisches Ziel: 10×), wodurch lange Dokumentkontexte für den Decoder möglich werden.
- Mehrsprachig & multi-script — beansprucht Unterstützung für 100+ Sprachen und diverse Schriftsysteme.
- Hoher Durchsatz / selbst hostbar — für On-Prem-Inferenz (A100-Beispiele) ausgelegt, Community-GGUF-/lokale Builds berichtet.
- Feinabstimmbar — Repository und Anleitungen enthalten Fine-Tuning-Anweisungen für die Domänenanpassung (Rechnungen, wissenschaftliche Arbeiten, Formulare).
- Layout- + Inhaltsausgabe — nicht nur Plaintext: strukturierte Ausgaben zur Unterstützung nachgelagerter KIE/NER- und RAG-Pipelines.
Benchmark-Leistung von DeepSeek-OCR-2
- Fox-Benchmark / interne Metrik: ~97% Exact-Match-Genauigkeit bei 10× Kompression auf dem Fox-Benchmark (der firmeninterne Benchmark mit Fokus auf Dokumententreue unter Kompression). Dies ist eine der Schlagzeilenbehauptungen in DeepSeek-Marketingmaterialien.
- Abwägungen bei der Kompression: Während die Genauigkeit bei moderater Kompression (≈10×) hoch bleibt, nimmt sie bei aggressiverer Kompression ab (Tom’s Hardware fasste Tests zusammen, die in manchen Szenarien einen Rückgang auf ~60% bei 20× zeigten). Dies unterstreicht die praktischen Abwägungen zwischen Durchsatz und Treue.
- Durchsatz: ~200k Seiten/Tag auf einer einzelnen NVIDIA A100 für typische Workloads — hilfreich bei der Bewertung von Kosten/Skalierung gegenüber Cloud-OCR-APIs.
Anwendungsfälle & empfohlene Bereitstellungen
- Enterprise-Dokumenteingang & -Indexierung: Große Korpora von Geschäftsberichten, PDFs und gescannten Dokumenten in durchsuchbaren Text + Layout-Metadaten für RAG/LLM-Pipelines umwandeln. (Der von DeepSeek beanspruchte Durchsatz ist für den Maßstab attraktiv.)
- Strukturierte Tabellenextraktion / Finanzberichterstattung: Der layoutbewusste Encoder hilft, Tabellenzellen-Beziehungen für nachgelagerte KIE-Extraktion und Abstimmung zu bewahren. Kompressionsgrad gegen Anforderungen an numerische Genauigkeit validieren.
- Mehrsprachige Archivdigitalisierung: Die Unterstützung für 100+ Sprachen macht das Modell geeignet für Bibliotheken, Regierungsarchive oder multinationale Dokumentverarbeitung.
- On-Prem, datenschutzsensitive Bereitstellungen: Selbst hostbare HF/GGUF-Varianten ermöglichen die lokale Datenverarbeitung im Vergleich zu Cloud-Anbietern.
- Vorverarbeitung für LLM-RAG: Komprimierung und Extraktion treuer Texte + Layouts für den RAG-Import, bei dem die Kontextlänge ein Engpass ist.
Zugriff auf DeepSeek-OCR-2 über CometAPI
Schritt 1: Für API-Schlüssel registrieren
Melden Sie sich bei cometapi.com an. Wenn Sie noch kein Nutzer sind, registrieren Sie sich bitte zuerst. Melden Sie sich in Ihrer CometAPI-Konsole an. Rufen Sie den API-Schlüssel der Schnittstelle als Zugangsdaten ab. Klicken Sie im persönlichen Bereich beim API-Token auf “Add Token”, erhalten Sie den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.

Schritt 2: Anfragen an die DeepSeek-OCR-2-API senden
Wählen Sie den “deepseek-ocr-2”-Endpoint, um die API-Anfrage zu senden, und legen Sie den Request-Body fest. Anfragemethode und Request-Body entnehmen Sie der API-Dokumentation auf unserer Website. Unsere Website bietet zu Ihrer Bequemlichkeit auch einen Apifox-Test. Ersetzen Sie ihn durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto. Die Basis-URL ist Chat Completions.
Fügen Sie Ihre Frage oder Anforderung in das content-Feld ein — darauf antwortet das Modell. Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.
Schritt 3: Ergebnisse abrufen und verifizieren
Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten. Nach der Verarbeitung antwortet die API mit dem Task-Status und den Ausgabedaten.