Spécifications techniques de DeepSeek-OCR-2
| Champ | DeepSeek-OCR-2 (publié) |
|---|---|
| Date de sortie / Version | 27 janv. 2026 — DeepSeek-OCR-2 (dépôt public / fiche HF). |
| Paramètres | ~3 milliards (3B) de paramètres (décodeur MoE DeepSeek 3B + compresseur). |
| Architecture | Encodeur de vision (DeepEncoder V2 / compression optique) → décodeur vision-langage 3B (des variantes MoE sont mentionnées dans les documents DeepSeek). |
| Entrée | Images haute résolution / pages numérisées / PDF (formats d’image : PNG, JPEG, PDF multipages via des pipelines de conversion). |
| Sortie | Texte brut (UTF-8), métadonnées de mise en page structurées (boîtes englobantes / flux), JSON K-V optionnel pour l’analyse en aval. |
| Longueur de contexte (effective) | Utilise des séquences de tokens visuels compressés — objectif de conception : contextes longs à l’échelle du document (les limites pratiques dépendent du taux de compression ; un pipeline typique produit une réduction de tokens de 10× par rapport à une tokenisation naïve). |
| Langues | Plus de 100 langues / écritures (couverture multilingue revendiquée dans les notes produit). |
Qu’est-ce que DeepSeek-OCR-2
DeepSeek-OCR-2 est le deuxième grand modèle d’OCR / compréhension documentaire de DeepSeek AI. Au lieu de traiter l’OCR comme une simple extraction de caractères, le modèle compresse les informations visuelles du document en tokens visuels compacts (un processus que DeepSeek appelle vision-text compression ou associe à sa famille DeepEncoder), puis décode ces tokens avec un décodeur VLM de style mixture-of-experts (MoE) de 3B paramètres, qui modélise conjointement la génération de texte et le raisonnement sur la mise en page. Cette approche cible les documents à long contexte (tableaux, mises en page multicolonnes, diagrammes, écritures multilingues) tout en réduisant la longueur de séquence et le coût global d’exécution par rapport à une tokenisation de chaque pixel / patch.
Principales fonctionnalités de DeepSeek-OCR-2
- Ordre de lecture de type humain & conscience de la mise en page — apprend l’ordonnancement logique du texte (titres→paragraphes→tableaux) au lieu de balayer des grilles fixes.
- Compression vision-texte — compresse l’entrée visuelle en séquences de tokens beaucoup plus courtes (objectif typique de compression 10×), permettant des contextes de documents longs pour le décodeur.
- Multilingue & multi-écriture — revendique la prise en charge de plus de 100 langues et de diverses écritures.
- Débit élevé / auto-hébergeable — conçu pour une inférence on-prem (exemples sur A100), et des builds communautaires GGUF / locaux ont été signalés.
- Ajustable finement — le dépôt et les guides incluent des instructions de fine-tuning pour l’adaptation à des domaines spécifiques (factures, articles scientifiques, formulaires).
- Sortie mise en page + contenu — pas seulement du texte brut : des sorties structurées pour faciliter les pipelines KIE/NER et RAG en aval.
Performances de DeepSeek-OCR-2 sur les benchmarks
- Benchmark Fox / métrique interne : ~97 % de précision en exact-match à 10× de compression sur son benchmark Fox (le benchmark de l’entreprise axé sur la fidélité documentaire sous compression). C’est l’une des affirmations phares dans les supports marketing de DeepSeek.
- Compromis liés à la compression : bien que la précision reste élevée à une compression modérée (≈10×), elle se dégrade avec une compression plus agressive (Tom’s Hardware a résumé des tests montrant une précision chutant à ~60 % à 20× dans certains scénarios). Cela met en évidence les compromis pratiques entre débit et fidélité.
- Débit : ~200k pages/jour sur un seul NVIDIA A100 pour des charges de travail typiques — utile pour évaluer le coût / l’échelle par rapport aux API OCR cloud.
Cas d’usage & déploiements recommandés
- Ingestion et indexation de documents d’entreprise : convertir de grands corpus de rapports annuels, PDF et documents numérisés en texte consultable + métadonnées de mise en page pour des pipelines RAG/LLM. (L’affirmation de débit de DeepSeek est attractive à grande échelle.)
- Extraction de tableaux structurés / reporting financier : l’encodeur sensible à la mise en page aide à préserver les relations entre cellules de tableau pour l’extraction KIE et le rapprochement en aval. Validez le niveau de compression selon les besoins de précision numérique.
- Numérisation d’archives multilingues : la prise en charge de plus de 100 langues le rend adapté aux bibliothèques, aux archives gouvernementales ou au traitement documentaire multinational.
- Déploiements on-prem sensibles à la confidentialité : les variantes auto-hébergeables HF/GGUF permettent de conserver les données en interne plutôt que chez des fournisseurs cloud.
- Prétraitement pour le RAG des LLM : compresser et extraire fidèlement le texte + la mise en page pour l’ingestion RAG lorsque la longueur de contexte constitue un goulot d’étranglement.
Comment accéder à DeepSeek-OCR-2 via CometAPI
Étape 1 : S’inscrire pour obtenir une clé API
Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre console CometAPI. Obtenez l’identifiant d’accès, c’est-à-dire la clé API de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, obtenez la clé de jeton : sk-xxxxx et validez.

Étape 2 : Envoyer des requêtes à l’API DeepSeek-OCR-2
Sélectionnez le point de terminaison « deepseek-ocr-2 » pour envoyer la requête API et définissez le corps de la requête. La méthode de requête et le corps de requête sont disponibles dans la documentation API de notre site web. Notre site web fournit également un test Apifox pour votre confort. Remplacez par votre véritable clé CometAPI depuis votre compte. L’URL de base est Chat Completions.
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse API pour obtenir la réponse générée.
Étape 3 : Récupérer et vérifier les résultats
Traitez la réponse API pour obtenir la réponse générée. Après traitement, l’API répond avec le statut de la tâche et les données de sortie.