지난해 동안 항저우에 본사를 둔 중국 AI 스타트업 DeepSeek는 동급 대비 훈련 비용이 극적으로 낮다고 주장하면서도 고성능 공개 가중치 모델을 출시해 전 세계 헤드라인을 장식했다. 이는 하나의 단순하지만 중대한 기술적 질문을 촉발했다: DeepSeek는 NVIDIA 하드웨어와 소프트웨어를 사용하나? 짧은 답: 그렇다 — DeepSeek의 모델과 서비스는 훈련, 배포, 써드파티 유통 전반에서 NVIDIA 하드웨어와 소프트웨어와의 명확한 연계를 가진다. 다만 이야기는 더 미묘하다. 관계는 훈련 로그에 기록된 GPU부터 NVIDIA의 마이크로서비스 패키징과 다운스트림 배포 옵션까지 아우르며, 동시에 필요한 GPU 수를 바꿔 놓은 알고리즘 기법(예: 증류와 스케일링)을 둘러싼 논쟁과도 맞물려 있다.
DeepSeek는 무엇이며 “누가 이를 구동하는가”가 왜 중요한가?
DeepSeek는 아키텍처 상의 몇 가지 트릭(증류/“추론 시” 연산 효율)과 공격적인 성능 주장으로 빠르게 대중의 시야에 오른 오픈소스 대형 언어/추론 모델 패밀리다. 이 모델 패밀리의 공개 코드와 문서는 써드파티 개발자의 빠른 도입과 실험을 장려해, 최전선 AI가 비싼 고성능 GPU에 계속 강하게 결합될지 아니면 더 적은 하드웨어로 가능한 새로운 접근으로 열릴지에 대한 시장과 정책 영역의 파장을 불러왔다.
하드웨어 질문이 왜 중요한가? 칩 벤더(NVIDIA, AMD, 대만 파운드리), 클라우드 제공자(AWS, Azure, Google Cloud), 정책 결정자에게 DeepSeek의 아키텍처와 실제 배포상의 문제는 GPU 시장으로의 수요가 얼마나 계속 흘러들지, 수출 통제가 효과를 낼지, 새로운 메모리나 연산 설계가 현재 하드웨어 강자들을 실질적으로 흔들 수 있을지를 좌우한다. DeepSeek의 효율성이 필요한 GPU 수 감소와 연결된다는 최근 보도는 AI 칩 메이커의 주가 변동 일부를 설명하며, 업계가 앞으로도 계속 더 거대한 GPU 팜을 사들여야 하는지에 대한 논쟁에 불을 지폈다.
DeepSeek는 NVIDIA GPU에서 동작하나?
짧은 답: 그렇다 — DeepSeek는 NVIDIA GPU에서 동작하며, NVIDIA 자체가 DeepSeek 모델을 겨냥한 벤치마크와 최적화를 공개했다. DeepSeek의 공개 저장소와 다운스트림 프레임워크에는 NVIDIA 하드웨어를 명시적으로 지원한다는 근거가 있고, 벤더 벤치마크는 NVIDIA 시스템에서의 추론 처리량 기록을 보여 준다.
코드와 도구는 어떻게 NVIDIA 지원을 보여 주나?
DeepSeek의 공식 저장소와 지원 툴체인은 NVIDIA와 비(非) NVIDIA GPU 백엔드에 대한 명시적 레퍼런스를 포함한다. 프로젝트의 추론 권장사항과 커뮤니티 도구는 가능한 경우 CUDA 기반 런타임과의 호환성을 보여 주는 동시에 대안(OpenCL/ROCm 또는 CPU 폴백)도 지원한다. CUDA 디바이스 타깃에 대한 최적화 경로와 README 안내의 존재 자체가 실무자들이 DeepSeek 모델을 실행할 때 NVIDIA GPU가 일급 배포 대상이라는 직접적 증거다.
공식 입장: H800 클러스터
DeepSeek의 공식 기술 보고서에 따르면, DeepSeek-V3의 훈련은 2,048개의 Nvidia H800 GPU 클러스터에서 수행되었다. 이는 중요한 구분점이다. H800은 강력한 H100(Hopper 아키텍처)의 “제재 준수형” 버전으로, 미국 상무부의 중국 수출 통제를 충족하기 위해 Nvidia가 설계했다.
H800은 동일한 원시 연산 성능(FP8/FP16 텐서 코어 성능)을 유지하지만, 인터커넥트 대역폭(칩 간 통신 속도)은 크게 제한되어 H100의 900 GB/s에 비해 대략 400 GB/s 수준으로 낮아졌다. 대규모 AI 훈련 클러스터에서는 이 대역폭이 흔히 병목이 되는데, 이는 서구 관찰자에게 DeepSeek의 성취가 더욱 난해하면서도 인상적으로 보이게 만든다.
DeepSeek는 V3를 어떻게 그렇게 효율적으로 훈련했나?
DeepSeek-V3 공개에서 가장 놀라운 수치는 벤치마크 점수가 아니라 가격표다: 5.58백만 달러의 훈련 비용. 비교를 위해, GPT-4 훈련 비용은 1억 달러 이상으로 추정된다. 어떻게 “열세”인 H800 하드웨어로 이런 자릿수 차이의 감소가 가능했을까?
아키텍처 혁신: Mixture-of-Experts(MoE)
DeepSeek는 Mixture-of-Experts(MoE) 아키텍처를 사용한다. Llama 3 같은 밀집 모델(dense model)이 토큰 생성마다 모든 파라미터가 활성화되는 것과 달리, MoE 모델은 네트워크를 더 작은 “전문가(expert)”로 쪼갠다.
- 총 파라미터: 671 Billion
- 활성 파라미터: 37 Billion
처리되는 매 데이터 조각마다 모델은 동적 경로를 생성해 전체 “두뇌”의 극히 일부분만 활성화한다. 이는 필요한 부동소수점 연산(FLOPs)을 대폭 줄여, 대역폭 제약에도 불구하고 H800이 데이터를 더 빠르게 처리하도록 만든다.
MLA로 대역폭 병목 극복
H800의 제한된 인터커넥트 속도를 상쇄하기 위해 DeepSeek는 **Multi-head Latent Attention(MLA)**을 도입했다. 표준 어텐션 메커니즘(Key-Value 캐싱)은 막대한 메모리 대역폭을 소모한다. MLA는 이 Key-Value(KV) 캐시를 잠재 벡터로 압축해 메모리 풋프린트와 GPU 간 전송해야 할 데이터 양을 크게 줄인다.
이 아키텍처 선택은 사실상 하드웨어 제약을 “해킹”한 것이다. 데이터 이동 요구량을 줄임으로써, 더 느린 H800의 인터커넥트는 덜한 약점이 된다.
Dual-Pipe 통신과 오버랩
DeepSeek 엔지니어링 팀은 통신을 관리하기 위해 커스텀 CUDA 커널을 작성했다. 그들은 계산과 통신을 완벽히 오버랩하는 Dual-Pipe 전략을 구현했다. GPU 코어가 숫자를 계산하는 동안(계산), 다음 배치 데이터 전송(통신)이 백그라운드에서 이미 진행된다. 이는 값비싼 GPU 코어가 데이터를 기다리며 유휴 상태가 되는 일을 막아 하드웨어에서 성능을 한 방울까지 짜낸다.
DeepSeek는 미국 수출 통제의 영향을 받나?
DeepSeek의 하드웨어 활용에 대한 지정학적 측면은 공학 못지않게 복잡하다.
“쫓고 쫓기는” 게임
미국 정부, 특히 상무부는 중국으로의 AI 칩 수출에 대한 조임을 강화해 왔다. DeepSeek가 사용한 H800은 2023년에는 합법적으로 구매할 수 있었지만, 2023년 말 수출 통제 업데이트로 이후 금지되었다.
이는 DeepSeek를 불안정한 위치에 둔다. 현재 클러스터는 아마도 금지 이전에 구매한 “레거시” 자산일 것이다. 향후 “DeepSeek-V4”나 “V5”로 스케일업하려면 합법적으로 더 많은 Nvidia 실리콘을 확보하지 못할 경우 훨씬 더 어려워진다. 이 때문에 대체 공급망이나 중국 내 국산 칩(예: Huawei의 Ascend 시리즈)을 모색한다는 소문에 불이 붙었지만, 훈련 안정성 면에서 Nvidia는 여전히 골드 스탠더드로 남아 있다.
미국 정부의 조사
미국은 DeepSeek가 제한된 칩을 우회적으로 획득했는지 여부를 적극 조사하고 있다. 만약 H100을 불법적으로 확보해 사용했다는 증거가 드러난다면, 회사와 공급업체에 중대한 제재가 가해질 수 있다. 그러나 정말로 제재 준수형 H800만으로 이 성능을 달성했다면, 미국의 수출 통제가 바랐던 것만큼 중국의 AI 진전을 늦추지 못한다는 뜻이며, “하드웨어 봉쇄” 전략의 재검토를 강제할 수 있다.
사용자에게 필요한 하드웨어 요건은?
개발자와 API 애그리게이터(예: CometAPI)에게는 훈련 하드웨어보다 추론 하드웨어—즉 모델을 실행하는 데 필요한 것이 더 중요하다.
DeepSeek API vs. 로컬 호스팅
DeepSeek-V3는 규모가 방대(671B 파라미터)하기 때문에 대부분의 소비자가 전체 모델을 로컬에서 실행하는 것은 불가능하다. FP16 정밀도에서는 대략 1.5 TB의 VRAM이, 8비트 양자화에서는 대략 700 GB가 필요하다. 이는 8x H100 또는 A100 서버 노드를 요구한다.
반면 DeepSeek-R1-Distill 버전(Llama와 Qwen 기반)은 훨씬 작아 소비자용 하드웨어에서도 실행할 수 있다.
코드: DeepSeek를 로컬에서 실행하기
아래는 transformers 라이브러리를 사용해 DeepSeek-증류 모델의 양자화 버전을 로드하는 전문적인 Python 예시다. 단일 Nvidia RTX 3090 또는 4090을 장착한 머신에 최적화되어 있다.
python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# 소비자용 GPU에 맞추기 위한 4비트 양자화 구성
# 'bitsandbytes'와 'accelerate' 라이브러리 필요
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
print(f"Loading {model_name} with 4-bit quantization...")
try:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True, # 메모리 효율을 위한 4비트 양자화
bnb_4bit_compute_dtype=torch.float16
)
print("Model loaded successfully.")
# 예시 추론 함수
def generate_thought(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.6,
top_p=0.9
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
# 모델 테스트
user_query = "AI에서 FP8 훈련의 중요성을 설명하세요."
response = generate_thought(user_query)
print("\n--- Model Response ---\n")
print(response)
except Exception as e:
print(f"An error occurred: {e}")
코드: DeepSeek API 통합
전체 671B 모델의 경우, API 사용이 표준적 접근이다. DeepSeek의 API는 OpenAI SDK와 완전히 호환되어 개발자가 손쉽게 마이그레이션할 수 있다.
더 저렴한 Deepseek API를 찾고 있다면 CometAPI가 좋은 옵션이다.
from openai import OpenAI
import os
# DeepSeek의 기본 URL과 API 키로 클라이언트를 초기화합니다
# 환경 변수에 DEEPSEEK_API_KEY가 설정되어 있는지 확인하세요
client = OpenAI(
api_key=os.getenv("cometapi_API_KEY"),
base_url="https://api.cometapi.com"
)
def query_deepseek_reasoner(prompt):
"""
DeepSeek-R1(Reasoner) 모델을 쿼리합니다.
참고: Reasoner 모델은 최종 답변 전에 '사고의 연쇄'를 출력합니다.
[...](asc_slot://start-slot-15)"""
try:
response = client.chat.completions.create(
model="deepseek-reasoner", # R1에 대한 특정 모델 태그
messages=[
{"role": "system", "content": "당신은 도움을 주는 AI 전문가입니다."},
{"role": "user", "content": prompt},
],
stream=False
)
# 추론 내용(가능한 경우)과 최종 답변을 추출합니다
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
return reasoning, answer
except Exception as e:
return None, f"API Error: {e}"
# 사용 예시
prompt_text = "MoE 모델에서 H100과 H800 GPU 간의 절충점을 분석하세요."
chain_of_thought, final_answer = query_deepseek_reasoner(prompt_text)
print(f"--- Chain of Thought ---\n{chain_of_thought[:500]}...\n") # 처음 500자 미리보기
print(f"--- Final Answer ---\n{final_answer}")
DeepSeek의 성공이 Nvidia의 독점을 끝낼까?
이는 Nvidia의 주가를 흔든 수십억 달러짜리 질문이다. 연구소가 “제한된” 혹은 구형 하드웨어에서 스마트한 소프트웨어(MoE, MLA)만으로 최첨단 성과를 낼 수 있다면, 세상은 정말로 최신 H100과 Blackwell 칩에 수조 달러를 계속 써야 할까?
“소프트웨어 vs. 하드웨어” 논쟁
DeepSeek는 소프트웨어 최적화가 하드웨어의 단순 물량 투입을 대체할 수 있음을 입증했다. “모델-하드웨어 공동 설계(Model-Hardware Co-design)”를 최적화함으로써, 단순히 더 많은 컴퓨트를 투입한 경쟁자들보다 더 나은 결과를 냈다.
그러나 이것이 곧 Nvidia의 종말을 의미하지는 않는다.
사실, 이는 그들의 지배력을 더 공고히 할 수도 있다. DeepSeek는 여전히 Nvidia CUDA 코어를 사용했고, 단지 더 효율적으로 사용했을 뿐이다. Nvidia가 가진 “해자”는 칩 속도만이 아니라 CUDA 소프트웨어 생태계다. DeepSeek의 엔지니어들은 하드웨어 한계를 우회하는 저수준 CUDA 커널을 작성하는 데 능숙하다. 이처럼 Nvidia의 소프트웨어 스택에 대한 의존은, 효율 향상으로 모델당 필요한 칩 수가 약간 줄더라도, 회사의 입지를 굳건히 한다.
결론
현재 공개 기록을 종합해 보면, DeepSeek는 의미 있는 방식(훈련과 추론)으로 NVIDIA GPU를 사용해 왔고 동시에 국내 하드웨어 대안을 모색하기도 했다. NVIDIA는 DeepSeek 모델을 자사의 NIM 추론 생태계에 통합했으며, NVIDIA 플랫폼에서 해당 모델을 효율적으로 실행하기 위한 성능 주장과 개발자 도구를 공개했다. 전적으로 국내 가속기로 전환하려는 시도는 성숙한 하드웨어-소프트웨어 생태계를 하루아침에 대체하는 실질적 어려움을 드러낸다. 하드웨어만으로는 충분치 않으며 — 소프트웨어 스택, 인터커넥트, 프로덕션급 도구가 똑같이 결정적이다.
개발자는 CometAPI를 통해 Deepseek V3.2 같은 Deepseek API에 접근할 수 있으며, 최신 모델 목록은 본 글 게시 시점을 기준으로 한다. 시작하려면 Playground에서 모델의 기능을 탐색하고 자세한 안내는 API 가이드를 참고하라. 접근 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하라. CometAPI는 통합을 돕기 위해 공식 가격보다 훨씬 낮은 가격을 제공한다.
CometAPI를 사용해 chatgpt 모델에 접근하고, 쇼핑을 시작하세요!
Ready to Go?→ Sign up for deepseek API today !
