DeepSeek utilise-t-il NVIDIA ?

Au cours de l’année écoulée, DeepSeek — une startup d’IA chinoise basée à Hangzhou — a fait la une mondiale en publiant des modèles à poids ouverts hautes performances tout en affirmant des coûts d’entraînement nettement inférieurs à ceux de ses pairs. Cela a soulevé une question technique simple mais lourde de conséquences : DeepSeek utilise-t-il le matériel et les logiciels NVIDIA ? Réponse courte : oui — les modèles et services de DeepSeek présentent des liens clairs avec le matériel et les logiciels NVIDIA, de l’entraînement au déploiement en passant par la distribution via des tiers. Mais l’histoire est nuancée : la relation couvre tout, des GPU mentionnés dans les journaux d’entraînement au packaging microservices de NVIDIA et aux options de déploiement aval, et elle s’inscrit dans le débat sur des techniques algorithmiques (par exemple, distillation et scaling) qui ont modifié le nombre de GPU nécessaires.

Qu’est-ce que DeepSeek et pourquoi la question « qui l’alimente » est-elle importante ?

DeepSeek est une famille open source de modèles de langage/raisonnement qui s’est rapidement imposée grâce à une combinaison d’astuces architecturales (distillation/efficacité de calcul à l’inférence) et de revendications de performances agressives. Le code public et la documentation de la famille de modèles ont favorisé une adoption rapide et des expérimentations par des développeurs tiers, provoquant des vagues sur les marchés et dans les cercles politiques quant à savoir si la frontière de l’IA restera étroitement couplée à des GPU coûteux et hautes performances ou s’ouvrira à de nouvelles approches moins gourmandes en matériel.

Pourquoi la question matérielle compte-t-elle ? Pour les fournisseurs de puces (NVIDIA, AMD, les fonderies taïwanaises), pour les fournisseurs cloud (AWS, Azure, Google Cloud) et pour les décideurs, l’architecture de DeepSeek et les réalités de son déploiement déterminent l’ampleur de la demande qui continuera d’affluer vers le marché des GPU, la portée des contrôles à l’exportation, et si de nouvelles conceptions mémoire ou calcul peuvent réellement déloger les acteurs matériels incumbents. De récents articles liant l’efficacité de DeepSeek à une réduction des besoins en GPU ont en partie provoqué une volatilité des cours des fabricants de puces IA et ont alimenté le débat sur la nécessité pour l’industrie d’acheter toujours plus de fermes de GPU.

DeepSeek fonctionne-t-il sur des GPU NVIDIA ?

Réponse courte : Oui — DeepSeek peut fonctionner et fonctionne sur des GPU NVIDIA, et NVIDIA a publié des benchmarks et des optimisations ciblant les modèles DeepSeek. Les preuves incluent le dépôt public de DeepSeek et des frameworks aval qui prennent explicitement en charge le matériel NVIDIA, ainsi que des benchmarks éditeurs montrant un débit d’inférence record sur des systèmes NVIDIA.

Comment le code et les outils démontrent-ils la prise en charge de NVIDIA ?

Le dépôt officiel de DeepSeek et les chaînes d’outils associées incluent des références explicites aux backends GPU NVIDIA et non-NVIDIA. Les recommandations d’inférence du projet et les outils communautaires montrent une compatibilité avec les runtimes basés sur CUDA tout en prenant en charge des alternatives (OpenCL/ROCm ou des solutions CPU de repli) lorsque c’est possible. La présence de chemins d’optimisation et de consignes dans le README pour des cibles de périphérique CUDA constitue une preuve directe que les GPU NVIDIA sont une cible de déploiement de premier plan pour les praticiens exécutant des modèles DeepSeek.

Position officielle : le cluster H800

Selon le rapport technique officiel de DeepSeek, l’entraînement de DeepSeek-V3 a été réalisé sur un cluster de 2 048 GPU Nvidia H800. C’est une distinction cruciale. Le H800 est une version « conforme aux sanctions » du puissant H100 (architecture Hopper), conçue par Nvidia pour respecter les contrôles à l’exportation du Département du Commerce des États-Unis à l’égard de la Chine.

Bien que le H800 conserve la même puissance de calcul brute (performances FP8/FP16 sur Tensor Cores) que le H100, sa bande passante d’interconnexion (la vitesse à laquelle les puces communiquent) est sensiblement bridée — réduite à environ 400 Go/s contre 900 Go/s pour le H100. Dans de vastes clusters d’entraînement IA, cette bande passante est souvent le goulot d’étranglement, ce qui rend la performance de DeepSeek encore plus déroutante et impressionnante pour les observateurs occidentaux.

Comment DeepSeek a-t-il entraîné V3 si efficacement ?

La statistique la plus stupéfiante de la sortie de DeepSeek-V3 n’est pas ses scores de benchmark, mais son étiquette de prix : $5.58 million de coûts d’entraînement. À titre de comparaison, l’entraînement de GPT-4 est estimé à plus de $100 million. Comment une telle réduction d’un ordre de grandeur est-elle possible sur du matériel H800 jugé « inférieur » ?

Innovation architecturale : Mixture-of-Experts (MoE)

DeepSeek utilise une architecture Mixture-of-Experts (MoE). Contrairement à un modèle dense (comme Llama 3) où chaque paramètre est activé pour chaque token généré, un modèle MoE segmente le réseau en « experts » plus petits.

Paramètres totaux : 671 milliards
Paramètres actifs : 37 milliards

Pour chaque donnée traitée, le modèle crée une route dynamique, n’activant qu’une petite fraction de sa puissance de calcul totale. Cela réduit drastiquement les opérations en virgule flottante (FLOPs) nécessaires, permettant aux H800 de traiter les données plus rapidement malgré leurs limitations de bande passante.

Surmonter le goulot d’étranglement de bande passante avec MLA

Pour contrer la vitesse d’interconnexion bridée du H800, DeepSeek a introduit la Multi-head Latent Attention (MLA). Les mécanismes d’attention classiques (caching Key-Value) consomment énormément de bande passante mémoire. MLA compresse ce cache Key-Value (KV) en un vecteur latent, réduisant significativement l’empreinte mémoire et la quantité de données à transférer entre GPU.

Ce choix architectural « contourne » en quelque sorte les contraintes matérielles. En exigeant moins de mouvement de données, l’interconnexion plus lente du H800 devient moins handicapante.

Communication Dual-Pipe et recouvrement

L’équipe d’ingénierie de DeepSeek a écrit des kernels CUDA personnalisés pour gérer la communication. Ils ont mis en œuvre une stratégie Dual-Pipe qui superpose parfaitement calcul et communication. Pendant que les cœurs GPU exécutent des calculs, le lot de données suivant est déjà transféré en arrière-plan. Cela garantit que les cœurs GPU, coûteux, ne restent jamais inactifs en attendant des données, tirant la quintessence des performances du matériel.

DeepSeek est-il affecté par les contrôles à l’exportation américains ?

La dimension géopolitique de l’usage matériel de DeepSeek est aussi complexe que l’ingénierie.

Le « jeu du chat et de la souris »

Le gouvernement américain, notamment le Département du Commerce, resserre l’étau sur les exportations de puces IA vers la Chine. Le H800, utilisé par DeepSeek, était légalement achetable en 2023 mais a été ensuite interdit dans les mises à jour de fin 2023 des contrôles à l’exportation.

Cela place DeepSeek dans une position précaire. Leur cluster actuel est probablement un actif « hérité » acquis avant l’interdiction. Monter en charge pour un futur « DeepSeek-V4 » ou « V5 » sera significativement plus difficile s’ils ne peuvent pas acquérir légalement plus de silicium Nvidia. Cela a alimenté des rumeurs selon lesquelles ils envisageraient des chaînes d’approvisionnement alternatives ou des puces chinoises domestiques (comme la série Ascend de Huawei), même si Nvidia reste la référence pour la stabilité d’entraînement.

Enquêtes du gouvernement américain

Les États-Unis enquêtent activement pour savoir si DeepSeek a contourné les contrôles afin d’acquérir des puces restreintes. Si des preuves démontrent l’utilisation de H100 obtenus illicitement, l’entreprise et ses fournisseurs pourraient faire face à de lourdes sanctions. Toutefois, s’ils ont réellement atteint ces performances avec des H800 conformes, cela suggère que les contrôles à l’exportation américains pourraient être moins efficaces qu’espéré pour ralentir les progrès de l’IA en Chine — obligeant à repenser la stratégie de « blocus matériel ».

Quelles sont les exigences matérielles pour les utilisateurs ?

Pour les développeurs et les agrégateurs d’API (comme CometAPI), le matériel d’entraînement est moins pertinent que le matériel d’inférence — celui nécessaire pour exécuter le modèle.

API DeepSeek vs. hébergement local

En raison de la taille massive de DeepSeek-V3 (671B paramètres), exécuter le modèle complet localement est impossible pour la plupart des utilisateurs. Il nécessite environ 1.5 TB de VRAM en précision FP16, ou environ 700 GB en quantification 8 bits. Cela impose un nœud serveur 8x H100 ou A100.

Cependant, les versions DeepSeek-R1-Distill (basées sur Llama et Qwen) sont bien plus petites et peuvent fonctionner sur du matériel grand public.

Code : exécuter DeepSeek en local

Ci-dessous, un exemple Python professionnel montrant comment charger une version quantifiée d’un modèle distillé DeepSeek à l’aide de la bibliothèque transformers. C’est optimisé pour une machine avec une seule Nvidia RTX 3090 ou 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration pour une quantification 4 bits afin de tenir sur des GPU grand public
# Nécessite les bibliothèques 'bitsandbytes' et 'accelerate'
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # Quantification 4 bits pour l’efficacité mémoire
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Fonction d'inférence d'exemple
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Tester le modèle
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Réponse du modèle ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Code : intégration de l’API DeepSeek

Pour le modèle complet 671B, l’utilisation de l’API est l’approche standard. L’API de DeepSeek est entièrement compatible avec le SDK OpenAI, ce qui rend la migration fluide pour les développeurs.

Si vous cherchez une API Deepseek moins chère, alors CometAPI est une bonne option.

from openai import OpenAI
import os

# Initialiser le client avec l’URL de base de DeepSeek et votre clé API
# Assurez-vous que DEEPSEEK_API_KEY est défini dans vos variables d’environnement
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Interroge le modèle DeepSeek-R1 (Reasoner).
    Remarque : le modèle de raisonnement produit une « Chain of Thought » avant la réponse finale.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Étiquette de modèle spécifique pour R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extraction du contenu de raisonnement (si disponible) et du contenu final
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Exemple d’utilisation
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Aperçu des 500 premiers caractères
print(f"--- Final Answer ---\n{final_answer}")

Le succès de DeepSeek mettra-t-il fin au monopole de Nvidia ?

C’est la question à un milliard de dollars qui a fait fléchir l’action Nvidia. Si un laboratoire peut produire des résultats à l’état de l’art sur du matériel « restreint » ou plus ancien grâce à un logiciel intelligent (MoE, MLA), le monde a-t-il vraiment besoin de dépenser des milliers de milliards pour les tout derniers H100 et puces Blackwell ?

Le débat « logiciel vs. matériel »

DeepSeek a prouvé que l’optimisation logicielle est une alternative viable à la force brute matérielle. En optimisant la « co-conception modèle-matériel », ils ont obtenu de meilleurs résultats que des concurrents qui se contentaient d’ajouter du calcul.

Cependant, cela ne sonne pas le glas de Nvidia.

En réalité, cela pourrait renforcer sa domination. DeepSeek a toujours utilisé des cœurs CUDA de Nvidia ; ils les ont simplement utilisés plus efficacement. Le « fossé » concurrentiel de Nvidia ne réside pas uniquement dans la vitesse de la puce, mais dans l’écosystème logiciel CUDA. Les ingénieurs de DeepSeek maîtrisent CUDA, écrivant des kernels bas niveau pour contourner des limitations matérielles. Cette dépendance à la pile logicielle de Nvidia consolide la position de l’entreprise, même si le volume de puces requis par modèle pourrait diminuer légèrement grâce aux gains d’efficacité.

Conclusion

La meilleure lecture actuelle du dossier public est que DeepSeek a utilisé des GPU NVIDIA de manière significative (entraînement et inférence) tout en explorant des options matérielles domestiques alternatives. NVIDIA a intégré les modèles DeepSeek dans son écosystème d’inférence NIM et a publié des déclarations de performance et des outils développeurs pour exécuter ces modèles efficacement sur des plateformes NVIDIA. Les tentatives de bascule complète vers des accélérateurs domestiques révèlent la difficulté pratique de remplacer du jour au lendemain un écosystème matériel-logiciel mature : le matériel seul ne suffit pas — la pile logicielle, les interconnexions et les outils de production sont tout aussi décisifs.

Les développeurs peuvent accéder à l’API Deepseek telle que Deepseek V3.2 via CometAPI, les derniers modèles étant listés à la date de publication de l’article. Pour commencer, explorez les capacités du modèle dans le Playground et consultez le guide API pour des instructions détaillées. Avant d’y accéder, assurez-vous d’être connecté à CometAPI et d’avoir obtenu la clé API. CometAPI propose un prix bien inférieur au tarif officiel pour faciliter votre intégration.

Utilisez CometAPI pour accéder aux modèles ChatGPT, commencez vos achats !

Prêt à démarrer ? → Inscrivez-vous à l’API deepseek dès aujourd’hui !

Pour plus d’astuces, de guides et d’actualités sur l’IA, suivez-nous sur VK, X et Discord !