로컬 장치에서 DeepSeek-V3.1을 실행하는 방법

DeepSeek-V3.1은 DeepSeek이 2025년 XNUMX월에 출시한 하이브리드 전문가 혼합(MoE) 채팅 모델로 다음을 지원합니다. 두 가지 추론 모드 — 빠른 "생각하지 않는" 모드와 의도적인 "생각하는" 모드 — 동일한 체크포인트에서 실행됩니다. 이 모델은 Hugging Face에서 사용할 수 있으며 여러 경로(vLLM, Ollama/llama.cpp, Ollama 스타일 GGUF 또는 대규모 다중 GPU 설정)를 통해 로컬에서 실행할 수 있습니다. 아래에서 요구 사항, 생각 모드 작동 방식, 여러 로컬 실행 옵션(실행 가능한 코드 조각 포함), 그리고 도구 호출 및 토큰 템플릿 예제가 포함된 단계별 "생각 모드 배포" 레시피를 안내해 드립니다.

DeepSeek-V3.1은 무엇이고 왜 중요한가요?

DeepSeek-V3.1은 DeepSeek의 v3 제품군 업데이트로 다음과 같은 기능을 제공합니다. 하이브리드 추론 설계: 동일한 모델을 실행할 수 있습니다 생각 (심의적, 다단계적) 또는 생각하지 않는 (직접 답변, 더 빠른) 채팅 템플릿을 변경하여 모드를 개선할 수 있습니다. 구조적으로는 대규모 MoE 제품군(기본 체크포인트는 총 671억 개의 매개변수, 토큰당 활성화된 약 37억 개)이며, 장기 컨텍스트 학습은 128개 토큰으로 확장되고 FP8 마이크로 스케일링을 지원합니다. DeepSeek은 V3.1을 에이전트가 바로 사용할 수 있는 릴리스로 포지셔닝했습니다. 이전 R1 릴리스보다 도구 호출 기능이 향상되고, 에이전트 기술이 향상되었으며, 사고 효율성이 더욱 높아졌습니다. 이 릴리스는 2025년 XNUMX월에 발표되었으며 Hugging Face, CFD/OSS 도구 및 클라우드 배포 가이드에 통합되었습니다.

하이브리드 모델의 작동 방식(간략히)

체크포인트는 하나, 템플릿은 두 개입니다. 사고 모드와 비사고 모드는 다음에 의해 제어됩니다. 채팅 템플릿 및 <think>/</think> 프롬프트에서 토큰 규칙을 사용합니다. 모델 카드에 정확한 접두사가 나와 있습니다.
에이전트/도구 개선 사항: 훈련 후 향상을 통해 더욱 스마트한 도구 호출이 가능해졌습니다. 모델은 안전하고 결정론적인 도구 실행을 위해 엄격한 도구 호출 JSON 형식을 예상합니다.
성능 상충: 사고 모드는 내부 사고 연쇄 스타일 추론에 토큰을 사용하며, 속도가 느리거나 토큰 사용량이 더 많을 수 있습니다. 반면, 사고하지 않는 모드는 더 빠르고 저렴합니다. 모델 카드의 벤치마크 결과는 V3.1의 추론 및 코드 벤치마크 전반에 걸쳐 상당한 개선을 보여줍니다.

모델이 어떻게 구성되어 있는가

MoE 백본: 토큰당 활성화된 하위 집합이 작고 총 매개변수 수가 많습니다(경제적 추론).
긴 컨텍스트 훈련: V3.1은 긴 컨텍스트 단계를 크게 확장(32k → 긴 문서에 대한 더 큰 학습)하여 일부 빌드에서 128K+ 창을 지원합니다.
FP8 네이티브 워크플로: DeepSeek은 가중치/활성화 효율성을 위해 FP8 포맷(w8a8/UE8M0)을 광범위하게 사용합니다. BF16/FP16을 선호하는 경우 커뮤니티 변환 스크립트도 있습니다.

DeepSeek-V3.1을 로컬에서 실행하기 위한 요구 사항은 무엇입니까? (하드웨어, 스토리지, 소프트웨어)

러닝 가득 찬 V3.1 모델(비양자화)은 규모가 큰 프로젝트입니다. 다음은 현실적인 설정 범주와 일반적으로 필요한 사항입니다.

실용적인 버킷

클러스터/연구실(전체 모델): 여러 개의 고메모리 GPU(H100/H800 클래스 또는 여러 개의 Ada/Hopper GPU), 수십 개의 GPU를 갖춘 다중 노드, 많은 NVMe 스토리지(수백 GB), 특수 추론 프레임워크(SGLang, vLLM, LMDeploy, TRT-LLM).
단일 서버 하이엔드(양자화): 무거운 양자화(INT4/AWQ/AWQ2/gguf)와 Ollama(사전 패키징) 또는 커뮤니티 GGUF와 같은 프레임워크를 사용하면 가능하지만 여전히 수십에서 수백 GB의 GPU RAM이나 뛰어난 CPU+GPU 오프로드가 필요합니다.
개발자용 노트북/개발용 박스: 전체 모델에는 적합하지 않습니다. 소규모로 정제되거나 미세하게 조정된 변형을 사용하거나 로컬 서버/Ollama 인스턴스에 연결합니다.

하드웨어 체크리스트(실용)

GPU: 전체 V3.1의 실제 추론 처리량: 다중 GPU 클러스터(H100 / H800 / Ada Lovelace+). FP8 실행을 위해서는 컴퓨팅 성능과 드라이버 지원을 갖춘 GPU가 필요합니다.
RAM 및 스토리지: 모델 파일을 위한 수백 GB의 여유 디스크 공간(모델 페이지는 형식/양자화에 따라 수백 GB로 표시됨)과 변환된 형식을 위한 작업 공간이 예상됩니다. Ollama 메타데이터에는 라이브러리의 DeepSeek V400 Ollama 패키지에 대해 약 3.1GB의 공간이 나와 있습니다.
네트워크: 다중 노드 추론을 위해서는 저지연 상호 연결(NVLink/InfiniBand)과 텐서 병렬 설정을 위한 오케스트레이션 툴이 필요합니다.

소프트웨어 체크리스트

OS: 커뮤니티 추론 도구에는 Linux가 권장됩니다(DeepSeek-Infer 데모에는 Linux/Python이 나와 있습니다).
Python: 3.10+ (많은 DeepSeek 예제에서). 일반적인 패키지 버전은 저장소에 고정되어 있습니다. requirements.txt.
프레임워크 및 도구 (하나 이상 선택): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM 또는 Ollama(더 간단한 로컬 설치용). 각 패키지마다 지침이 있으며, 각기 다른 정밀도/양자화 지원이 제공됩니다.

실용적인 참고사항: 소비자용 GPU가 하나뿐인 경우(예: 24~48GB) 양자화된 GGUF 또는 원격 추론을 사용할 가능성이 높습니다. RAM이 128GB 이상인 워크스테이션과 H100/H200 클래스 GPU 클러스터가 있는 경우 vLLM을 사용하여 더 높은 충실도의 FP8/FP16 추론을 타겟으로 삼을 수 있습니다.

DeepSeek-V3.1을 로컬에서 실행하려면 어떻게 해야 하나요?

다음은 단일 개발자 상자에 가장 수동적이거나 유연한 경로부터 가장 쉬운 경로까지 사용할 수 있는 몇 가지 실용적인 경로입니다. 단계별 튜토리얼과 코드 예제를 제공합니다.

옵션 A - 공식 DeepSeek-Infer 데모(개발/클러스터 경로)

FP8/BF16 추론을 위한 저장소의 예제/데모입니다. 다중 노드를 계획하거나 공식 추론 코드를 실험해 보고 싶다면 이 예제를 사용하세요.

복제, 환경 준비

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(레포 inference/requirements.txt (팀에서 추천하는 고정된 토치/트리톤/트랜스포머 버전을 나열합니다.)

모델 가중치 다운로드

Hugging Face 모델 페이지에서 다운로드하세요(deepseek-ai/DeepSeek-V3.1) 그리고 그것들을 아래에 놓으세요 /path/to/DeepSeek-V3모델 카드와 저장소에는 모두 공식 Hugging Face 보관 링크가 있습니다.

데모를 위한 가중치 변환

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

대화형 생성 실행(분산형)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

이는 클러스터 스타일 실행을 위한 DeepSeek 저장소의 정식 예입니다.

옵션 B - vLLM(서버 배포 및 OpenAI 호환 API에 권장)

vLLM은 FP8/BF16 모드에서 DeepSeek을 지원하고 OpenAI 호환 서버를 제공합니다. 메모리 최적화 및 API 호환성 덕분에 대규모 모델에 널리 사용되는 프로덕션 경로입니다.

Hugging Face에서 모델을 가져올 vLLM 서버를 시작합니다. (예시 패턴):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

그런 다음 curl이나 OpenAI 호환 클라이언트를 사용하여 완성을 요청합니다.

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM 레시피와 문서에는 DeepSeek 예제와 FP8 호환성 및 다중 GPU/파이프라인 병렬 처리에 대한 참고 사항이 포함되어 있습니다. 무거운 모델의 경우 여러 개의 GPU 또는 양자화된 변형이 여전히 필요합니다.

옵션 C - LMDeploy / SGLang / LightLLM 및 TensorRT-LLM(고성능)

DeepSeek 저장소는 명시적으로 다음을 권장합니다. SGLang, LMDeploy및 텐서RT-LLM DeepSeek V3에 최적화된 엔진으로, 향상된 추론 지연 시간, 처리량, FP8 커널을 제공합니다.

일반적인 LMDeploy 호출(정확한 CLI는 LMDeploy 문서 참조):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang 벤치마크와 출시 레시피는 저장소와 SGLang 프로젝트에서 사용할 수 있습니다. benchmark/deepseek_v3 폴더. GPU 클러스터를 제어하고 프로덕션 처리량이 필요할 때 이 스택을 사용하세요.

옵션 D - Ollama(가장 쉬운 로컬 개발 경로, 종종 단일 머신)

DeepSeek를 로컬로 실행할 수 있는 가장 낮은 마찰 방식을 원하고 디스크를 절약할 수 있는 경우 올라마 패키지 모델과 간단한 CLI를 제공합니다(ollama pull, ollama run). DeepSeek-V3.1은 Ollama 라이브러리에 나타나며 로컬에서 실행할 수 있습니다(Ollama는 일부 기능을 사용하려면 최신/사전 출시 버전이 필요할 수 있음).

예(Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama는 많은 분포/양자화 세부 정보를 추상화하여 단일 호스트에서 모델 동작을 테스트하는 데 매우 유용합니다. 참고: 모델 페이지에는 Ollama 항목의 패키지 크기가 약 404GB로 표시되어 있으므로, 이에 따라 디스크와 RAM을 계획하십시오.

사고모드란 무엇이고 어떻게 사용하나요?

DeepSeek-V3.1은 다음을 구현합니다. 하이브리드 사고 토큰 접근 방식: 동일한 체크포인트가 실행될 수 있습니다 생각 모드(내부 "생각의 사슬" 토큰) 또는 생각하지 않는 채팅/프롬프트 템플릿을 전환하여 모드를 변경합니다. 이 모델은 다음과 같은 명시적 토큰을 사용합니다. <think> (그리고 닫는 중 </think> 일부 템플릿에서는) 내부적인 사고의 연쇄와 직접적인 답변 생성을 구분하기 위해 사용합니다. 모델 카드는 비사고 접두사와 사고 접두사를 문서화하고 템플릿의 차이점을 보여줍니다.

예: Python에서 메시지 구성(토큰화 도우미)

Hugging Face 모델 카드에는 토크나이저를 통해 채팅 템플릿을 적용하는 방법을 보여주는 편리한 스니펫이 포함되어 있습니다. 이는 생성에 권장되는 패턴입니다. 생각 or 생각하지 않는 형식화된 프롬프트:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

스위치 thinking=True 프롬프트를 생성하는 데 사용 <think> 접두사; thinking=False 비사고 템플릿을 생성합니다. 모델은 이 플래그에 따라 다르게 동작합니다(내부 심의 vs. 즉각적인 반응).

빠른 참조 - 간단한 문제 해결 및 모범 사례

GPU 메모리가 부족한 경우: 양자화된 빌드(AWQ/q4/INT4) 또는 커뮤니티 GGUF를 사용해 보세요. 많은 커뮤니티 공간에서 로컬 사용을 위해 양자화를 게시합니다. Ollama/vLLM도 소규모 양자화된 빌드를 제공할 수 있습니다.

모델에서 외부 도구를 호출해야 하는 경우: 채택 툴콜 채팅 템플릿의 스키마를 정확히 확인하세요. 도구 JSON 형식을 오프라인에서 테스트하고 오케스트레이션 코드(도구를 실행하는 부분)가 정제되고 형식화된 JSON을 모델로 반환하는지 확인하세요.

긴 맥락이 필요한 경우: 긴 컨텍스트 플러그인과 함께 vLLM 또는 SGLang을 사용하세요. DeepSeek은 32K/128K 컨텍스트에 대해 명시적으로 학습/확장되었으며 관련 툴이 해당 윈도우를 지원합니다. 메모리 상쇄 효과가 있을 것으로 예상하세요.

실제로 DeepSeek-V3.1을 노트북이나 소형 서버에서 실행할 수 있나요?

짧은 답변 : 네, 하지만 단서가 있습니다. 커뮤니티 양자화(AWQ/GGUF/1비트 동적)는 저장 공간과 메모리 사용량을 대폭 줄여 취미 사용자들이 고성능 데스크톱에서 V3.1 버전을 실행할 수 있도록 했습니다(약 170GB 작업 세트). 그러나:

충실도와 크기의 균형: 공격적인 양자화는 메모리를 감소시키지만 추론/코드 성능에 영향을 미칠 수 있습니다. 작업 부하를 테스트해 보세요.
법률 및 라이센스: 이 모델은 모델 카드에 따라 MIT 라이선스를 받았지만, 타사 양자화에는 자체 라이선스가 적용될 수 있습니다. 프로덕션에 사용하기 전에 라이선스를 검토하세요.

최종 단어

DeepSeek-V3.1은 명시적인 사고/비사고 행동과 향상된 도구 활용을 갖춘 하이브리드 "에이전트" 모델을 향한 중요한 진전입니다. 로컬에서 실행하려면 하드웨어 및 위험 감수성에 맞는 경로를 선택하세요.

연구를 위해: transformers + 양자화된 세이프텐서와 가속화.

생산 및 처리량: vLLM + 다중 GPU(H100/H200).

지역 실험의 경우: Ollama/llama.cpp + 커뮤니티 GGUF(병합 + 실행).

시작 가이드

CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.

개발자는 액세스할 수 있습니다 딥시크-V3.1 CometAPI를 통해 나열된 최신 모델 버전은 기사 발행일을 기준으로 합니다. 시작하려면 다음에서 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.