No último ano, a DeepSeek — uma startup chinesa de IA sediada em Hangzhou — ganhou manchetes globais ao lançar modelos de alto desempenho com pesos abertos, alegando custos de treinamento dramaticamente menores do que os dos concorrentes. Isso levantou uma pergunta técnica simples, mas consequente: a DeepSeek usa hardware e software da NVIDIA? Resposta curta: sim — os modelos e serviços da DeepSeek têm vínculos claros com hardware e software da NVIDIA em treinamento, implantação e distribuição por terceiros. Mas a história é nuanceada: a relação abrange desde as GPUs registradas em logs de treinamento até a embalagem de microsserviços da NVIDIA e opções de implantação a jusante, e convive com debates sobre técnicas algorítmicas (por exemplo, destilação e escalonamento) que mudaram quantas GPUs são necessárias.
O que é a DeepSeek e por que a pergunta “quem a alimenta” importa?
A DeepSeek é uma família open-source de modelos de linguagem/raciocínio que ganhou rapidamente visibilidade pública por uma combinação de truques arquiteturais (destilação/eficiência de computação em “tempo de inferência”) e reivindicações agressivas de desempenho. O código e a documentação públicos da família de modelos têm incentivado a adoção e a experimentação rápidas por desenvolvedores terceirizados, causando ondas em mercados e em círculos de políticas sobre se a fronteira da IA permanecerá fortemente acoplada a GPUs caras e de alto desempenho ou se abrirá para novas abordagens menos intensivas em hardware.
Por que a questão do hardware importa? Para fornecedores de chips (NVIDIA, AMD, fundições de Taiwan), para provedores de nuvem (AWS, Azure, Google Cloud) e para formuladores de políticas, a arquitetura da DeepSeek e as praticidades de implantá-la determinam quanta demanda continuará a fluir para o mercado de GPUs, se os controles de exportação surtirão efeito e se novos projetos de memória ou computação podem desalojar materialmente os atuais incumbentes de hardware. Reportagens recentes que vinculam a eficiência da DeepSeek à redução das necessidades de GPU são parcialmente responsáveis pela volatilidade dos preços das ações de fabricantes de chips de IA e alimentaram o debate sobre se o setor deve continuar comprando fazendas de GPUs cada vez maiores.
A DeepSeek roda em GPUs NVIDIA?
Resposta curta: sim — a DeepSeek pode e de fato roda em GPUs NVIDIA, e a própria NVIDIA publicou benchmarks e otimizações voltados para os modelos da DeepSeek. As evidências incluem o repositório público da DeepSeek e frameworks a jusante que suportam explicitamente hardware NVIDIA, além de benchmarks do fornecedor mostrando throughput recorde de inferência em sistemas NVIDIA.
Como o código e as ferramentas mostram suporte à NVIDIA?
O repositório oficial da DeepSeek e as toolchains de suporte incluem referências explícitas a backends de GPU tanto da NVIDIA quanto não-NVIDIA. As recomendações de inferência do projeto e as ferramentas da comunidade mostram compatibilidade com runtimes baseados em CUDA, ao mesmo tempo que também suportam alternativas (OpenCL/ROCm ou fallback em CPU) quando possível. A presença de caminhos de otimização e orientações no README para alvos de dispositivos CUDA é evidência direta de que as GPUs NVIDIA são um alvo de implantação de primeira linha para profissionais que executam modelos DeepSeek.
A Posição Oficial: O Cluster H800
De acordo com o relatório técnico oficial da DeepSeek, o treinamento do DeepSeek-V3 foi conduzido em um cluster de 2.048 GPUs Nvidia H800. Esta é uma distinção crucial. A H800 é uma versão “compatível com sanções” da poderosa H100 (arquitetura Hopper), projetada especificamente pela Nvidia para atender aos controles de exportação do Departamento de Comércio dos EUA para a China.
Embora a H800 retenha a mesma potência computacional bruta (desempenho dos Tensor Cores em FP8/FP16) que a H100, sua largura de banda de interconexão (a velocidade com que os chips se comunicam) é significativamente limitada — reduzida para cerca de 400 GB/s em comparação com os 900 GB/s da H100. Em clusters massivos de treinamento de IA, essa largura de banda costuma ser o gargalo, o que torna a conquista da DeepSeek ainda mais desconcertante e impressionante para observadores ocidentais.
Como a DeepSeek treinou a V3 com tanta eficiência?
A estatística mais estarrecedora do lançamento da DeepSeek-V3 não são suas pontuações em benchmarks, mas seu preço: US$ 5,58 milhões em custos de treinamento. Para comparação, estima-se que treinar o GPT-4 tenha custado mais de US$ 100 milhões. Como é possível essa redução de uma ordem de grandeza em hardware “inferior” H800?
Inovação Arquitetural: Mixture-of-Experts (MoE)
A DeepSeek utiliza uma arquitetura de Mixture-of-Experts (MoE). Diferentemente de um modelo denso (como Llama 3), em que todo parâmetro é ativo para cada token gerado, um modelo MoE divide a rede em “especialistas” menores.
- Parâmetros Totais: 671 bilhões
- Parâmetros Ativos: 37 bilhões
Para cada dado processado, o modelo cria uma rota dinâmica, ativando apenas uma pequena fração de sua “capacidade cerebral” total. Isso reduz drasticamente as operações de ponto flutuante (FLOPs) necessárias, permitindo que as H800 processem dados mais rapidamente apesar de suas limitações de largura de banda.
Superando o Gargalo de Largura de Banda com MLA
Para contornar a velocidade de interconexão limitada da H800, a DeepSeek introduziu a Multi-head Latent Attention (MLA). Mecanismos de atenção padrão (cache Key-Value) consomem enormes quantidades de largura de banda de memória. A MLA comprime esse cache de Key-Value (KV) em um vetor latente, reduzindo significativamente a pegada de memória e a quantidade de dados que precisam ser transferidos entre GPUs.
Essa escolha arquitetural essencialmente “hackeia” as limitações de hardware. Ao exigir menos movimentação de dados, a interconexão mais lenta da H800 torna-se menos problemática.
Comunicação Dual-Pipe e Sobreposição
A equipe de engenharia da DeepSeek escreveu kernels CUDA personalizados para gerenciar a comunicação. Eles implementaram uma estratégia Dual-Pipe que sobrepõe perfeitamente computação e comunicação. Enquanto os núcleos da GPU processam números (computação), o próximo lote de dados já está sendo transferido (comunicação) em segundo plano. Isso garante que os caros núcleos de GPU nunca fiquem ociosos esperando dados, extraindo cada gota de desempenho do hardware.
A DeepSeek é impactada pelos controles de exportação dos EUA?
A dimensão geopolítica do uso de hardware pela DeepSeek é tão complexa quanto a de engenharia.
O “jogo de gato e rato”
O governo dos EUA, especificamente o Departamento de Comércio, vem apertando o cerco às exportações de chips de IA para a China. A H800, que a DeepSeek usou, era legal para compra em 2023, mas foi posteriormente proibida nas atualizações de controles de exportação no fim de 2023.
Isso coloca a DeepSeek em uma posição delicada. Seu cluster atual provavelmente é um “ativo legado” adquirido antes da proibição. Ampliar para um futuro “DeepSeek-V4” ou “V5” será significativamente mais difícil se eles não puderem adquirir legalmente mais silício da Nvidia. Isso alimentou rumores de que podem estar buscando cadeias de suprimento alternativas ou chips domésticos chineses (como a série Ascend da Huawei), embora a Nvidia continue sendo o padrão-ouro em estabilidade de treinamento.
Investigações do governo dos EUA
Os EUA estão investigando ativamente se a DeepSeek burlou controles para adquirir chips restritos. Se surgirem evidências de que usaram H100s obtidas ilicitamente, isso pode levar a sanções severas à empresa e a seus fornecedores. No entanto, se realmente alcançaram esse desempenho com H800s compatíveis, sugere que os controles de exportação dos EUA podem ser menos eficazes para desacelerar o progresso da IA na China do que os formuladores de políticas esperavam — forçando uma revisão da estratégia de “bloqueio de hardware”.
Quais são os requisitos de hardware para os usuários?
Para desenvolvedores e agregadores de API (como a CometAPI), o hardware de treinamento é menos relevante do que o hardware de inferência — o que você precisa para executar o modelo.
API da DeepSeek vs. Hospedagem local
Devido ao tamanho massivo do DeepSeek-V3 (671B de parâmetros), executar o modelo completo localmente é impossível para a maioria dos consumidores. Ele requer aproximadamente 1,5 TB de VRAM em precisão FP16, ou cerca de 700 GB em quantização de 8 bits. Isso exige um nó de servidor com 8x H100 ou A100.
No entanto, as versões DeepSeek-R1-Distill (baseadas em Llama e Qwen) são muito menores e podem ser executadas em hardware de consumo.
Código: Executando a DeepSeek localmente
Abaixo está um exemplo profissional em Python mostrando como carregar uma versão quantizada de um modelo destilado da DeepSeek usando a biblioteca transformers. Isso está otimizado para uma máquina com uma única Nvidia RTX 3090 ou 4090.
python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
print(f"Loading {model_name} with 4-bit quantization...")
try:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True, # 4-bit quantization for memory efficiency
bnb_4bit_compute_dtype=torch.float16
)
print("Model loaded successfully.")
# Example Inference Function
def generate_thought(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.6,
top_p=0.9
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
# Test the model
user_query = "Explain the significance of FP8 training in AI."
response = generate_thought(user_query)
print("\n--- Model Response ---\n")
print(response)
except Exception as e:
print(f"An error occurred: {e}")
Código: Integrando a DeepSeek API
Para o modelo completo de 671B, usar a API é a abordagem padrão. A API da DeepSeek é totalmente compatível com o SDK da OpenAI, tornando a migração tranquila para desenvolvedores.
Se você está procurando uma Deepseek API mais barata, então a CometAPI é uma boa opção.
from openai import OpenAI
import os
# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
api_key=os.getenv("cometapi_API_KEY"),
base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
"""
Queries the DeepSeek-R1 (Reasoner) model.
Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
[...](asc_slot://start-slot-15)"""
try:
response = client.chat.completions.create(
model="deepseek-reasoner", # Specific model tag for R1
messages=[
{"role": "system", "content": "You are a helpful AI expert."},
{"role": "user", "content": prompt},
],
stream=False
)
# Extracting the reasoning content (if available) and the final content
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
return reasoning, answer
except Exception as e:
return None, f"API Error: {e}"
# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)
print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")
O sucesso da DeepSeek vai acabar com o monopólio da Nvidia?
Esta é a questão de bilhões de dólares que fez as ações da Nvidia caírem. Se um laboratório pode produzir resultados de ponta em hardware “restrito” ou mais antigo usando software inteligente (MoE, MLA), o mundo realmente precisa gastar trilhões nos novíssimos H100s e chips Blackwell?
O debate “software vs. hardware”
A DeepSeek provou que a otimização de software é um substituto viável para a força bruta de hardware. Ao otimizar o “co-design modelo-hardware”, eles obtiveram resultados melhores do que concorrentes que simplesmente jogaram mais computação no problema.
No entanto, isso não significa o fim da Nvidia.
Na verdade, pode reforçar sua dominância. A DeepSeek ainda usou núcleos CUDA da Nvidia; apenas os usou com mais eficiência. O “fosso” competitivo da Nvidia não é apenas a velocidade do chip, mas o ecossistema de software CUDA. Os engenheiros da DeepSeek são mestres em CUDA, escrevendo kernels de baixo nível para contornar limitações de hardware. Essa dependência da pilha de software da Nvidia solidifica a posição da empresa, mesmo que o volume de chips necessário por modelo possa diminuir ligeiramente devido aos ganhos de eficiência.
Conclusão
A melhor leitura atual do registro público é que a DeepSeek usou GPUs NVIDIA de maneiras significativas (treinamento e inferência) e também explorou opções alternativas de hardware doméstico. A NVIDIA integrou os modelos da DeepSeek ao seu ecossistema NIM de inferência e publicou afirmações de desempenho e ferramentas de desenvolvedor para executar esses modelos com eficiência em plataformas NVIDIA. Tentativas de migrar totalmente para aceleradores domésticos revelam a dificuldade prática de substituir de um dia para o outro um ecossistema maduro de hardware e software: apenas hardware é insuficiente — a pilha de software, as interconexões e as ferramentas de produção são igualmente decisivas
Os desenvolvedores podem acessar a Deepseek API como a Deepseek V3.2 por meio da CometAPI; os modelos mais recentes listados estão atualizados até a data de publicação do artigo. Para começar, explore os recursos do modelo no Playground e consulte o guia da API para instruções detalhadas. Antes de acessar, certifique-se de que você fez login na CometAPI e obteve a chave de API. A CometAPI oferece um preço muito inferior ao preço oficial para ajudá-lo a integrar.
Use a CometAPI para acessar modelos chatgpt, comece a comprar!
Pronto para começar? → Sign up for deepseek API today!
Se você quiser conhecer mais dicas, guias e notícias sobre IA, siga-nos no VK, X e Discord!
