¿DeepSeek utiliza NVIDIA?

Durante el último año, DeepSeek —una startup china de IA con sede en Hangzhou— acaparó titulares globales al publicar modelos de pesos abiertos de alto rendimiento mientras afirmaba costos de entrenamiento drásticamente más bajos que los de sus pares. Eso suscitó una pregunta técnica simple pero trascendental: ¿usa DeepSeek hardware y software de NVIDIA? Respuesta corta: sí —los modelos y servicios de DeepSeek tienen vínculos claros con el hardware y el software de NVIDIA a lo largo del entrenamiento, el despliegue y la distribución por terceros. Pero la historia es matizada: la relación abarca desde las GPU registradas en los logs de entrenamiento hasta el empaquetado de microservicios de NVIDIA y las opciones de despliegue aguas abajo, y convive con debates sobre técnicas algorítmicas (p. ej., destilación y escalado) que cambiaron cuántas GPU se necesitan.

¿Qué es DeepSeek y por qué importa la pregunta de «quién lo impulsa»?

DeepSeek es una familia de modelos de lenguaje/razonamiento de código abierto que saltó rápidamente a la escena pública gracias a una combinación de trucos arquitectónicos (destilación/eficiencia de cómputo «en tiempo de inferencia») y afirmaciones agresivas de rendimiento. El código y la documentación públicos de la familia de modelos han fomentado una adopción y experimentación rápidas por parte de desarrolladores terceros, provocando ondas en los mercados y en los círculos de políticas sobre si la frontera de la IA seguirá estrechamente acoplada a GPU costosas y de alto rendimiento o se abrirá a nuevos enfoques menos intensivos en hardware.

¿Por qué importa la cuestión del hardware? Para los fabricantes de chips (NVIDIA, AMD, las fundiciones de Taiwán), para los proveedores de la nube (AWS, Azure, Google Cloud) y para los responsables de políticas, la arquitectura de DeepSeek y las realidades prácticas de desplegarla determinan cuánta demanda seguirá fluyendo hacia el mercado de GPU, si los controles de exportación harán mella, y si nuevos diseños de memoria o cómputo pueden realmente destronar a los incumbentes de hardware actuales. Informes recientes que vinculan la eficiencia de DeepSeek con menores necesidades de GPU son en parte responsables de la volatilidad en las cotizaciones de fabricantes de chips de IA y han avivado el debate sobre si la industria debe seguir comprando granjas de GPU cada vez más grandes.

¿DeepSeek se ejecuta en GPU de NVIDIA?

Respuesta corta: sí —DeepSeek puede y de hecho se ejecuta en GPU de NVIDIA, y la propia NVIDIA ha publicado benchmarks y optimizaciones dirigidas a los modelos de DeepSeek. Las pruebas incluyen el repositorio público de DeepSeek y frameworks aguas abajo que admiten explícitamente hardware de NVIDIA, además de benchmarks del proveedor que muestran un rendimiento récord de inferencia en sistemas NVIDIA.

¿Cómo evidencian el código y las herramientas la compatibilidad con NVIDIA?

El repositorio oficial de DeepSeek y las toolchains de soporte incluyen referencias explícitas tanto a backends de GPU de NVIDIA como no NVIDIA. Las recomendaciones de inferencia del proyecto y las herramientas de la comunidad muestran compatibilidad con runtimes basados en CUDA, a la vez que admiten alternativas (OpenCL/ROCm o retrocesos a CPU) cuando es posible. La presencia de rutas de optimización y orientación en el README para targets de dispositivo CUDA es evidencia directa de que las GPU de NVIDIA son un objetivo de despliegue de primera clase para quienes ejecutan modelos de DeepSeek.

La postura oficial: el clúster H800

Según el informe técnico oficial de DeepSeek, el entrenamiento de DeepSeek-V3 se llevó a cabo en un clúster de 2,048 Nvidia H800 GPU. Esta es una distinción crucial. La H800 es una versión «compatible con sanciones» de la potente H100 (arquitectura Hopper), diseñada específicamente por Nvidia para cumplir con los controles de exportación del Departamento de Comercio de EE. UU. para China.

Si bien la H800 mantiene la misma potencia computacional bruta (rendimiento de núcleos tensoriales FP8/FP16) que la H100, su ancho de banda de interconexión (la velocidad a la que se comunican los chips) está significativamente limitado: reducido a aproximadamente 400 GB/s frente a los 900 GB/s de la H100. En clústeres de entrenamiento de IA masivos, este ancho de banda suele ser el cuello de botella, lo que hace que el logro de DeepSeek parezca aún más desconcertante e impresionante para los observadores occidentales.

¿Cómo entrenó DeepSeek V3 con tanta eficiencia?

La estadística más asombrosa del lanzamiento de DeepSeek-V3 no son sus puntuaciones en benchmarks, sino su precio: 5.58 millones de dólares en costos de entrenamiento. En comparación, se estima que entrenar GPT-4 costó más de 100 millones de dólares. ¿Cómo es posible esta reducción de un orden de magnitud en hardware H800 «inferior»?

Innovación arquitectónica: Mixture-of-Experts (MoE)

DeepSeek utiliza una arquitectura de Mixture-of-Experts (MoE). A diferencia de un modelo denso (como Llama 3) en el que cada parámetro está activo para cada token generado, un modelo MoE divide la red en «expertos» más pequeños.

Parámetros totales: 671 mil millones
Parámetros activos: 37 mil millones

Para cada dato procesado, el modelo crea una ruta dinámica, activando solo una pequeña fracción de su «potencia cerebral» total. Esto reduce drásticamente las operaciones de punto flotante (FLOPs) requeridas, lo que permite a las H800 procesar datos más rápido a pesar de sus limitaciones de ancho de banda.

Superar el cuello de botella de ancho de banda con MLA

Para contrarrestar la velocidad de interconexión limitada de la H800, DeepSeek introdujo Multi-head Latent Attention (MLA). Los mecanismos de atención estándar (Key-Value caching) consumen enormes cantidades de ancho de banda de memoria. MLA comprime esta caché Key-Value (KV) en un vector latente, reduciendo significativamente la huella de memoria y la cantidad de datos que deben trasladarse entre GPU.

Esta elección arquitectónica básicamente «hackea» las limitaciones del hardware. Al requerir menos movimiento de datos, la interconexión más lenta de la H800 se vuelve menos problemática.

Comunicación Dual-Pipe y solapamiento

El equipo de ingeniería de DeepSeek escribió kernels CUDA personalizados para gestionar la comunicación. Implementaron una estrategia Dual-Pipe que solapa perfectamente cómputo y comunicación. Mientras los núcleos de la GPU están calculando (cómputo), el siguiente lote de datos ya se está transfiriendo (comunicación) en segundo plano. Esto asegura que los costosos núcleos de la GPU nunca estén inactivos esperando datos, exprimiendo hasta la última gota de rendimiento del hardware.

¿Afectan a DeepSeek los controles de exportación de EE. UU.?

La dimensión geopolítica del uso de hardware por parte de DeepSeek es tan compleja como la ingeniería.

El juego del «gato y el ratón»

El gobierno de EE. UU., específicamente el Departamento de Comercio, ha ido apretando el cerco sobre las exportaciones de chips de IA a China. La H800, que DeepSeek utilizó, fue legal de adquirir en 2023 pero posteriormente quedó prohibida en las actualizaciones de controles de exportación a finales de 2023.

Esto coloca a DeepSeek en una posición precaria. Su clúster actual probablemente es un activo «heredado» adquirido antes de la prohibición. Escalar hacia un futuro «DeepSeek-V4» o «V5» será significativamente más difícil si no pueden adquirir legalmente más silicio de Nvidia. Esto ha alimentado los rumores de que podrían estar considerando cadenas de suministro alternativas o chips domésticos chinos (como la serie Ascend de Huawei), aunque Nvidia sigue siendo el estándar de oro para la estabilidad del entrenamiento.

Investigaciones del gobierno de EE. UU.

Estados Unidos está investigando activamente si DeepSeek eludió los controles para adquirir chips restringidos. Si surgiera evidencia de que usaron H100 obtenidas ilícitamente, podría acarrear sanciones severas a la empresa y a sus proveedores. Sin embargo, si realmente lograron este rendimiento con H800 compatibles, sugiere que los controles de exportación de EE. UU. pueden ser menos efectivos para frenar el progreso de la IA en China de lo que esperaban los responsables de políticas, lo que forzaría a replantear la estrategia del «bloqueo de hardware».

¿Cuáles son los requisitos de hardware para los usuarios?

Para desarrolladores y agregadores de API (como CometAPI), el hardware de entrenamiento es menos relevante que el hardware de inferencia —lo que necesitas para ejecutar el modelo—.

API de DeepSeek vs. alojamiento local

Debido al tamaño masivo de DeepSeek-V3 (671B parámetros), ejecutar el modelo completo localmente es imposible para la mayoría de los usuarios. Requiere aproximadamente 1.5 TB de VRAM en precisión FP16, o alrededor de 700 GB en cuantización de 8 bits. Esto exige un nodo de servidor con 8x H100 o A100.

Sin embargo, las versiones DeepSeek-R1-Distill (basadas en Llama y Qwen) son mucho más pequeñas y pueden ejecutarse en hardware de consumo.

Código: ejecutar DeepSeek localmente

A continuación se muestra un ejemplo profesional en Python que muestra cómo cargar una versión cuantizada de un modelo destilado de DeepSeek usando la librería transformers. Está optimizado para una máquina con una sola Nvidia RTX 3090 o 4090.

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

Código: integrar la API de DeepSeek

Para el modelo completo de 671B, usar la API es el enfoque estándar. La API de DeepSeek es totalmente compatible con el SDK de OpenAI, lo que hace que la migración sea sencilla para los desarrolladores.

Si buscas una API de Deepseek más barata, entonces CometAPI es una buena opción.

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

¿El éxito de DeepSeek acabará con el monopolio de Nvidia?

Esta es la pregunta de mil millones de dólares que hizo caer la acción de Nvidia. Si un laboratorio puede producir resultados de vanguardia con hardware «restringido» o más antiguo usando software inteligente (MoE, MLA), ¿realmente el mundo necesita gastar billones en las H100 y Blackwell más nuevas?

El debate «software vs. hardware»

DeepSeek ha demostrado que la optimización de software es un sustituto viable de la fuerza bruta de hardware. Al optimizar el «co-diseño modelo-hardware», lograron mejores resultados que competidores que simplemente arrojaron más cómputo al problema.

Sin embargo, esto no significa el fin de Nvidia.

De hecho, podría reforzar su dominio. DeepSeek siguió usando núcleos CUDA de Nvidia; simplemente los usó de forma más eficiente. El «foso defensivo» de Nvidia no es solo la velocidad del chip, sino el ecosistema de software CUDA. Los ingenieros de DeepSeek son maestros de CUDA, escribiendo kernels de bajo nivel para sortear las limitaciones del hardware. Esta dependencia del stack de software de Nvidia consolida la posición de la compañía, incluso si el volumen de chips requerido por modelo pudiera disminuir ligeramente gracias a las ganancias de eficiencia.

Conclusión

La mejor lectura actual del registro público es que DeepSeek ha usado GPU de NVIDIA de maneras significativas (entrenamiento e inferencia) y también ha explorado alternativas de hardware doméstico. NVIDIA ha integrado los modelos de DeepSeek en su ecosistema de inferencia NIM y ha publicado afirmaciones de rendimiento y herramientas para desarrolladores para ejecutar esos modelos de manera eficiente en plataformas NVIDIA. Los intentos de pasar completamente a aceleradores domésticos revelan la dificultad práctica de reemplazar de la noche a la mañana un ecosistema maduro de hardware y software: el hardware por sí solo es insuficiente —el stack de software, las interconexiones y las herramientas de producción son igual de decisivos.

Los desarrolladores pueden acceder a la API de Deepseek como Deepseek V3.2 a través de CometAPI; los modelos más recientes figuran a la fecha de publicación del artículo. Para comenzar, explora las capacidades del modelo en el Playground y consulta la guía de la API para instrucciones detalladas. Antes de acceder, asegúrate de haber iniciado sesión en CometAPI y de haber obtenido la clave de API. CometAPI ofrece un precio muy inferior al oficial para ayudarte a integrar.

Usa CometAPI para acceder a modelos de chatgpt, ¡empieza a comprar!

¿Listo para comenzar?→ ¡Regístrate hoy en la API de deepseek!

Si quieres conocer más consejos, guías y noticias sobre IA, síguenos en VK, X y Discord.