是。根据公开资料，DeepSeek 在训练与推理中主要使用 NVIDIA 的数据中心 GPU（如 A100、A800/H800 等），具体机型会因项目阶段与可得性而有所不同。

在过去的一年里，DeepSeek——一家总部位于杭州的中国 AI 创业公司——通过发布高性能的开放权重模型并声称训练成本显著低于同行而登上全球头条。这引出了一个简单但影响深远的技术问题：DeepSeek 是否使用 NVIDIA 的软硬件？ 简短回答：是的——DeepSeek 的模型与服务在训练、部署和第三方分发各环节都与 NVIDIA 的软硬件存在清晰关联。但事情并不止于此：这种关系从训练日志中报告的 GPU、到 NVIDIA 的微服务封装与下游部署选项一应俱全，同时也伴随着关于算法技术（如蒸馏与规模化）如何改变所需 GPU 数量的讨论。

什么是 DeepSeek，为何“谁为其提供算力”的问题很重要？

DeepSeek 是一个开源的大语言/推理模型家族，因其架构技巧（蒸馏/“推理时”计算效率）与激进的性能主张而快速进入公众视野。该模型家族的公开代码与文档鼓励第三方开发者迅速采用与试验，引发了市场与政策层面的连锁反应：AI 前沿是否仍将与昂贵的高性能 GPU 紧密耦合，还是会向更少硬件密集的路径开放。

为什么硬件之问重要？对芯片厂商（NVIDIA、AMD、台湾代工厂）、云服务商（AWS、Azure、Google Cloud）以及政策制定者而言，DeepSeek 的架构与其可落地部署的实际情况，决定了 GPU 市场的需求是否会持续流入，出口管制是否会奏效，以及新的内存或计算设计能否实质性撼动当前的硬件 incumbents。近期报道将 DeepSeek 的效率与减少 GPU 需求关联起来，在一定程度上引发了 AI 芯片厂商股价波动，并引发行业是否必须继续购买更大规模 GPU 机群的辩论。

DeepSeek 是否运行在 NVIDIA GPU 上？

简短回答：是的——DeepSeek 能且确实运行在 NVIDIA GPU 上，且 NVIDIA 自身也发布了针对 DeepSeek 模型的基准测试与优化。 证据包括 DeepSeek 的公共仓库与下游框架明确支持 NVIDIA 硬件，以及厂商基准在 NVIDIA 系统上展示了创纪录的推理吞吐。

代码与工具如何体现对 NVIDIA 的支持？

DeepSeek 的官方仓库与配套工具链明确提及了 NVIDIA 与非 NVIDIA 的 GPU 后端。项目的推理建议与社区工具显示其兼容基于 CUDA 的运行时，同时在可能情况下也支持替代方案（OpenCL/ROCm 或 CPU 回退）。存在针对 CUDA 设备目标的优化路径与 README 指引，这直接表明 NVIDIA GPU 是从业者运行 DeepSeek 模型的一等部署目标。

官方表述：H800 集群

根据 DeepSeek 的官方技术报告，DeepSeek-V3 的训练在一套由2,048 块 Nvidia H800 GPU组成的集群上完成。这一点至关重要。H800 是 H100（Hopper 架构）的“符合制裁要求”的版本，由 Nvidia 专为满足美国商务部对中国的出口管制而设计。

尽管 H800 在原始计算力（FP8/FP16 张量核心性能）上与 H100 相同，但其互连带宽（芯片之间通信速度）被显著限速——大约降至 400 GB/s，而 H100 为 900 GB/s。在大规模 AI 训练集群中，这一带宽通常是瓶颈，这也让 DeepSeek 的成就对西方观察者而言更加令人费解且印象深刻。

DeepSeek 是如何如此高效地训练 V3 的？

DeepSeek-V3 发布中最令人震惊的并非其基准得分，而是其价格标签：5.58 百万美元的训练成本。相比之下，训练 GPT-4 的成本估计超过 1 亿美元。如何在“较弱”的 H800 硬件上实现数量级的成本降低？

架构创新：Mixture-of-Experts（MoE）

DeepSeek 采用了 Mixture-of-Experts（MoE） 架构。不同于稠密模型（如 Llama 3）对每个生成的 token 都激活全部参数，MoE 模型将网络划分为更小的“专家”。

总参数：671 十亿
激活参数：37 十亿

每处理一段数据，模型都会创建动态路径，仅激活其总“脑力”的极小一部分。这大幅降低了所需的浮点运算（FLOPs），即便在带宽受限的情况下也让 H800 能更快处理数据。

通过 MLA 克服带宽瓶颈

为对抗 H800 被削弱的互连速度，DeepSeek 引入了多头潜在注意力（MLA）。标准注意力机制（Key-Value 缓存）会消耗大量内存带宽。MLA 将 Key-Value（KV）缓存压缩为潜在向量，显著减少内存占用以及需要在 GPU 间传输的数据量。

这一架构选择本质上“破解”了硬件约束。通过减少数据移动，对 H800 较慢互连的依赖也随之降低。

双通道通信与重叠

DeepSeek 的工程团队编写了自定义 CUDA 内核以管理通信。他们实现了Dual-Pipe策略，使计算与通信完美重叠。当 GPU 内核进行计算时，下一批数据已在后台传输。这确保昂贵的 GPU 核心不因等待数据而闲置，最大化硬件效能。

美国出口管制会影响 DeepSeek 吗？

DeepSeek 的硬件使用在地缘政治层面的复杂程度不亚于工程本身。

“猫捉老鼠”的游戏

美国政府，尤其是商务部，一直在收紧对向中国出口 AI 芯片的限制。DeepSeek 使用的 H800 在 2023 年购买是合规的，但随后在 2023 年晚些时候的管制更新中被禁。

这使 DeepSeek 处于微妙位置。他们当前的集群很可能是禁令前采购的“遗留”资产。若无法合法获取更多 Nvidia 芯片，未来扩展到“DeepSeek-V4”或“V5”将困难重重。这也助长了他们可能寻求替代供应链或国产芯片（如华为 Ascend 系列）的传闻，尽管在训练稳定性方面 Nvidia 仍是“金标准”。

美国政府调查

美国正在积极调查 DeepSeek 是否绕过管制获取受限芯片。若有证据表明其使用了非法获得的 H100，可能导致公司及其供应商遭受严厉制裁。然而，若其确实在合规的 H800 上实现了这些性能，这意味着美国的出口管制在放缓中国 AI 进展方面或许不如政策制定者所愿有效——迫使对“硬件封锁”策略进行再思考。

用户的硬件需求是什么？

对开发者与 API 聚合商（如 CometAPI）而言，训练硬件不如推理硬件重要——也就是运行模型所需的配置。

DeepSeek API vs. 本地部署

由于 DeepSeek-V3 规模庞大（671B 参数），本地运行完整模型对大多数用户而言不可行。在 FP16 精度下约需1.5 TB 的显存，在 8-bit 量化下约需700 GB。这需要一台 8× H100 或 A100 的服务器节点。

不过，DeepSeek-R1-Distill 版本（基于 Llama 与 Qwen）小得多，可以在消费级硬件上运行。

代码：本地运行 DeepSeek

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"

print(f"Loading {model_name} with 4-bit quantization...")

try:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto",
        load_in_4bit=True,  # 4-bit quantization for memory efficiency
        bnb_4bit_compute_dtype=torch.float16
    )
    
    print("Model loaded successfully.")

    # Example Inference Function
    def generate_thought(prompt):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            temperature=0.6,
            top_p=0.9
        )
        
        return tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Test the model
    user_query = "Explain the significance of FP8 training in AI."
    response = generate_thought(user_query)
    
    print("\n--- Model Response ---\n")
    print(response)

except Exception as e:
    print(f"An error occurred: {e}")

代码：集成 DeepSeek API

对于完整的 671B 模型，使用 API 是标准做法。DeepSeek 的 API 与 OpenAI SDK 完全兼容，使开发者迁移无缝。

如果你在寻找更便宜的 Deepseek API，CometAPI 是一个不错的选择。

from openai import OpenAI
import os

# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
    api_key=os.getenv("cometapi_API_KEY"), 
    base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
    """
    Queries the DeepSeek-R1 (Reasoner) model.
    Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
    [...](asc_slot://start-slot-15)"""
    try:
        response = client.chat.completions.create(
            model="deepseek-reasoner",  # Specific model tag for R1
            messages=[
                {"role": "system", "content": "You are a helpful AI expert."},
                {"role": "user", "content": prompt},
            ],
            stream=False
        )
        
        # Extracting the reasoning content (if available) and the final content
        reasoning = response.choices[0].message.reasoning_content
        answer = response.choices[0].message.content
        
        return reasoning, answer

    except Exception as e:
        return None, f"API Error: {e}"

# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)

print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")

DeepSeek 的成功会终结 Nvidia 的垄断吗？

这是导致 Nvidia 股价下跌的价值十亿美元的问题。若一家实验室能在“受限”或较旧硬件上通过聪明的软件（MoE、MLA）产出 SOTA 结果，世界是否真的需要在最新的 H100 与 Blackwell 芯片上投入数万亿美元？

“软件 vs. 硬件”的辩论

DeepSeek 证明了软件优化是原始硬件蛮力的可行替代。通过优化“模型-硬件协同设计”，他们比那些仅投放更多算力的竞争者取得了更好的结果。

然而，这并不意味着 Nvidia 的终结。

事实上，这可能强化其主导地位。DeepSeek 依然使用 Nvidia 的 CUDA 核心；只不过用得更高效。Nvidia 的“护城河”不只是芯片速度，更是CUDA 软件生态。DeepSeek 的工程师精通 CUDA，能编写低层内核来绕过硬件限制。对 Nvidia 软件栈的依赖巩固了其地位，即便由于效率提升，每个模型所需的芯片数量可能略有下降。

结论

基于公开记录的最佳解读是，DeepSeek 在有意义的层面（训练与推理）使用了 NVIDIA GPU，同时也探索了国产替代硬件。NVIDIA 已将 DeepSeek 模型集成到其 NIM 推理生态中，并发布了在 NVIDIA 平台高效运行这些模型的性能声明与开发者工具。试图完全转向国产加速器揭示了在一夜之间替换成熟软硬件生态的现实难度：仅有硬件远远不够——软件栈、互连与生产级工具同样决定性。

开发者可以通过 CometAPI 访问诸如 Deepseek V3.2 的 Deepseek API，最新模型以文章发布时为准。入门请先在 Playground 体验模型能力，并参阅 API guide 获取详细说明。访问前请确保已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方的价格，帮助你集成。

使用 CometAPI 访问 chatgpt 模型，开始选购！

准备好了吗？→ Sign up for deepseek API today！

若想了解更多技巧、指南与资讯，欢迎关注我们的 VK、X 与 Discord！