過去一年,位於杭州的中國 AI 創業公司 DeepSeek 因釋出高效能的開放權重模型,同時宣稱訓練成本遠低於同業,而在全球媒體上大放異彩。這引出了一個既簡單又關鍵的技術問題:DeepSeek 是否使用 NVIDIA 的硬體與軟體?簡短答案:是的——DeepSeek 的模型與服務在訓練、部署與第三方分發等面向,與 NVIDIA 的硬體與軟體存在明確關聯。但事情更具層次:這種關係橫跨從訓練日誌中可見的 GPU,到 NVIDIA 的微服務封裝與下游部署選項,同時也伴隨著圍繞演算法技術(如蒸餾與擴展)所引發的爭論——這些技術改變了所需 GPU 的數量。
什麼是 DeepSeek,為何「誰為其提供算力」這件事重要?
DeepSeek 是一個開源的大型語言/推理模型家族,之所以迅速躍入公眾視野,是因為其結合了架構層面的技巧(蒸餾/「推理階段」計算效率)與激進的效能主張。該模型家族的公開程式碼與文件鼓勵第三方開發者快速採用與試驗,並在市場與政策層面引發震盪:前沿 AI 是否會持續與昂貴、高效能的 GPU 緊密耦合,抑或會開啟更少硬體依賴的新路徑?
為什麼硬體問題重要?對晶片供應商(NVIDIA、AMD、台灣的晶圓廠)、雲端服務商(AWS、Azure、Google Cloud)以及決策者而言,DeepSeek 的架構與實際部署方式,決定了 GPU 市場的需求是否會持續湧入、出口管制是否有效,以及新的記憶體或計算設計能否實質撼動當前硬體霸主。近期報導將 DeepSeek 的效率與減少 GPU 需求相連,部分引發了 AI 晶片商股價波動,並激起業界對於是否必須持續購買更大規模 GPU 叢集的爭辯。
DeepSeek 是否在 NVIDIA GPU 上運行?
簡短答案:是的——DeepSeek 能且確實在 NVIDIA GPU 上運行,而 NVIDIA 本身也發布了針對 DeepSeek 模型的基準測試與最佳化。佐證包括 DeepSeek 的公開倉庫與下游框架明確支援 NVIDIA 硬體,以及供應商在 NVIDIA 系統上展示創紀錄的推理吞吐量。
程式碼與工具鏈如何顯示對 NVIDIA 的支援?
DeepSeek 的官方倉庫與配套工具鏈包含對 NVIDIA 與非 NVIDIA GPU 後端的明確引用。該專案的推理建議與社群工具顯示與基於 CUDA 的執行時相容,同時在可行處也支援替代方案(OpenCL/ROCm 或 CPU 後備)。面向 CUDA 裝置目標的最佳化路徑與 README 指引,直接證明 NVIDIA GPU 是從業者部署 DeepSeek 模型的一等公民目標。
官方立場:H800 叢集
根據 DeepSeek 的官方技術報告,DeepSeek-V3 的訓練是在一個由 2,048 枚 Nvidia H800 GPU 組成的叢集上完成。這點至關重要。H800 是 H100(Hopper 架構)的「合規」版本,由 Nvidia 專為滿足美國商務部對中國的出口管制而設計。
雖然 H800 保留了與 H100 相同的原始運算能力(FP8/FP16 張量核心效能),但其互連頻寬(晶片之間通訊的速度)被大幅限制——大約 400 GB/s,相比 H100 的 900 GB/s。在大型 AI 訓練叢集中,這種頻寬通常是瓶頸,這也讓 DeepSeek 的成就對西方觀察者而言更加令人費解且印象深刻。
DeepSeek 如何高效訓練 V3?
DeepSeek-V3 發布中最驚人的數字不是基準成績,而是其價格標籤:訓練成本為 $5.58 million。相比之下,GPT-4 的訓練成本估計超過 $100 million。如何在「較弱」的 H800 硬體上實現一個數量級的降本?
架構創新:Mixture-of-Experts (MoE)
DeepSeek 採用 Mixture-of-Experts(MoE)架構。不同於稠密模型(如 Llama 3)在每個產生的 token 上都會啟用每個參數,MoE 模型將網路拆分為更小的「專家」。
- 總參數:671 Billion
- 活躍參數:37 Billion
對於每一筆處理的資料,模型會建立動態路徑,只啟用其極小部分的總「腦力」。這大幅降低所需的浮點運算(FLOPs),讓 H800 即便在頻寬受限下也能更快處理資料。
以 MLA 克服頻寬瓶頸
為了對抗 H800 被削弱的互連速度,DeepSeek 引入 Multi-head Latent Attention(MLA)。標準的注意力機制(Key-Value 快取)會消耗大量記憶體頻寬。MLA 將這個 Key-Value(KV)快取壓縮為潛在向量,顯著降低記憶體佔用與需要在 GPU 之間傳輸的資料量。
這一架構選擇等於在硬體限制上「開了外掛」。由於需要移動的資料更少,H800 較慢的互連成為較不致命的負擔。
Dual-Pipe 通訊與重疊
DeepSeek 的工程團隊撰寫了自訂的 CUDA 核心來管理通訊。他們實作了一種能完美重疊計算與通訊的 Dual-Pipe 策略。當 GPU 核心在進行數值運算(計算)時,下一批資料已在背景傳輸(通訊)中。這確保昂貴的 GPU 核心不會因等待資料而閒置,從硬體中榨出每一分效能。
DeepSeek 是否受到美國出口管制的影響?
DeepSeek 的硬體使用在地緣政治層面的複雜度不亞於工程面。
「貓捉老鼠」的遊戲
美國政府(尤其是商務部)一直在收緊對中國的 AI 晶片出口。DeepSeek 使用的 H800 在 2023 年仍可合法購買,但在 2023 年末的出口管制更新中被列為禁售。
這讓 DeepSeek 處於微妙境地。他們現有的叢集很可能是禁令前購入的「既有」資產。若無法合法取得更多 Nvidia 晶片,未來擴展到「DeepSeek-V4」或「V5」將艱難許多。這助長了他們可能尋找替代供應鏈或使用中國國產晶片(如華為 Ascend 系列)的傳聞,儘管在訓練穩定性方面,Nvidia 仍是金標準。
美國政府的調查
美方正積極調查 DeepSeek 是否繞過管制取得受限晶片。若證據顯示其使用非法取得的 H100,該公司與供應商可能面臨嚴厲制裁。然而,如果他們確實在合規的 H800 上達到這樣的效能,則顯示美國出口管制在放緩中國 AI 進展方面可能不若決策者預期有效——迫使「硬體封鎖」策略需重新思考。
使用者的硬體需求是什麼?
對開發者與 API 聚合商(如 CometAPI)而言,訓練硬體不若推理硬體重要——也就是您運行模型所需的環境。
DeepSeek API vs. 本地託管
由於 DeepSeek-V3 規模龐大(671B 參數),本地運行完整模型對多數使用者而言並不可行。在 FP16 精度下約需 1.5 TB 的 VRAM,或在 8-bit 量化下約需 700 GB。這通常需要一台配備 8x H100 或 A100 的伺服器節點。
然而,DeepSeek-R1-Distill 版本(基於 Llama 與 Qwen)要小得多,可在消費級硬體上運行。
程式碼:在本地運行 DeepSeek
以下是一段專業的 Python 範例,示範如何使用 transformers 函式庫載入一個 DeepSeek 蒸餾模型的量化版本。此配置針對配備單張 Nvidia RTX 3090 或 4090 的機器進行最佳化。
python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Configuration for 4-bit quantization to fit on consumer GPUs
# Requires 'bitsandbytes' and 'accelerate' libraries
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
print(f"Loading {model_name} with 4-bit quantization...")
try:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True, # 4-bit quantization for memory efficiency
bnb_4bit_compute_dtype=torch.float16
)
print("Model loaded successfully.")
# Example Inference Function
def generate_thought(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.6,
top_p=0.9
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
# Test the model
user_query = "Explain the significance of FP8 training in AI."
response = generate_thought(user_query)
print("\n--- Model Response ---\n")
print(response)
except Exception as e:
print(f"An error occurred: {e}")
程式碼:整合 DeepSeek API
對於完整的 671B 模型,使用 API 是標準做法。DeepSeek 的 API 與 OpenAI SDK 完全相容,讓開發者遷移更為順暢。
如果您在尋找更便宜的 Deepseek API,則 CometAPI 是不錯的選擇。
from openai import OpenAI
import os
# Initialize the client with DeepSeek's base URL and your API key
# Ensure DEEPSEEK_API_KEY is set in your environment variables
client = OpenAI(
api_key=os.getenv("cometapi_API_KEY"),
base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
"""
Queries the DeepSeek-R1 (Reasoner) model.
Note: The reasoner model outputs a 'Chain of Thought' before the final answer.
[...](asc_slot://start-slot-15)"""
try:
response = client.chat.completions.create(
model="deepseek-reasoner", # Specific model tag for R1
messages=[
{"role": "system", "content": "You are a helpful AI expert."},
{"role": "user", "content": prompt},
],
stream=False
)
# Extracting the reasoning content (if available) and the final content
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
return reasoning, answer
except Exception as e:
return None, f"API Error: {e}"
# Example Usage
prompt_text = "Analyze the trade-offs between H100 and H800 GPUs for MoE models."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)
print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # Preview first 500 chars
print(f"--- Final Answer ---\n{final_answer}")
DeepSeek 的成功會終結 Nvidia 的壟斷嗎?
這是令 Nvidia 股價下挫的十億美元問題。如果一個實驗室能在「受限」或舊硬體上透過巧妙的軟體(MoE、MLA)取得最先進成果,那世界真的還需要為最新的 H100 與 Blackwell 晶片砸下兆美元嗎?
「軟體 vs. 硬體」之辯
DeepSeek 證明了軟體最佳化是可行的,能替代單純依賴硬體蠻力。透過優化「模型—硬體協同設計」,他們取得了比單純投入更多算力的競爭者更好的結果。
然而,這並不意味着 Nvidia 的時代結束。
事實上,這可能進一步鞏固其主導地位。DeepSeek 仍然使用 Nvidia 的 CUDA 核心;他們只是更有效率地使用它們。Nvidia 的護城河不僅是晶片速度,還有 CUDA 軟體生態系。DeepSeek 的工程師精通 CUDA,能撰寫低階核心以繞過硬體限制。這種對 Nvidia 軟體堆疊的依賴鞏固了該公司的地位,即使由於效率提升,每個模型所需的晶片數量可能會略有下降。
結論
根據目前公開資訊的最佳解讀,DeepSeek 在訓練與推理上以實質方式使用過 NVIDIA GPU,同時也探索了國產硬體選項。NVIDIA 已將 DeepSeek 模型整合進其 NIM 推理生態系,並發布在 NVIDIA 平台上高效運行這些模型的效能主張與開發者工具。嘗試全面轉向國產加速器顯示了一夜之間取代成熟軟硬體生態的現實難度:僅有硬體並不足夠——軟體堆疊、互連與生產級工具同樣決定性。
開發者可透過 CometAPI 存取諸如 Deepseek V3.2 的 Deepseek API,所列最新模型以文章發布日期為準。開始之前,請在 Playground 體驗模型能力,並參考 API guide 以獲取詳細指引。訪問前請先登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方的價格,協助您整合。
使用 CometAPI 訪問 chatgpt 模型,開始購物!
準備好了嗎?→ 立即註冊 deepseek API!
