So führen Sie DeepSeek-V3.1 auf Ihrem lokalen Gerät aus

DeepSeek-V3.1 ist ein hybrides Mixture-of-Experts (MoE)-Chat-Modell, das von DeepSeek im August 2025 veröffentlicht wurde und unterstützt zwei Inferenzmodi – ein schneller „Nicht-Denkmodus“ und ein bewusster „Denkmodus“ – vom selben Prüfpunkt aus. Das Modell ist auf Hugging Face verfügbar und kann lokal über verschiedene Pfade ausgeführt werden (vLLM, Ollama/llama.cpp, Ollama-artige GGUFs oder groß angelegte Multi-GPU-Setups). Im Folgenden erkläre ich die Anforderungen, die Funktionsweise des Denkmodus, verschiedene lokale Ausführungsoptionen (mit ausführbaren Codeausschnitten) und eine Schritt-für-Schritt-Anleitung zur „Denkmodus-Bereitstellung“ mit Beispielen für Tool-Aufrufe und Token-Vorlagen.

Was ist DeepSeek-V3.1 und warum ist es wichtig?

DeepSeek-V3.1 ist das v3-Familienupdate von DeepSeek, das eine Hybrid-Inferenz-Design: Das gleiche Modell kann in Denken (deliberativ, mehrstufig) oder Nichtdenken (direkte Antwort, schneller) Modi durch Ändern der Chat-Vorlage. Architektonisch handelt es sich um eine große MoE-Familie (Basis-Checkpoint mit ca. 671 Mrd. Gesamtparametern, ~37 Mrd. pro Token aktiviert) mit auf 128 Token erweitertem Long-Context-Training und FP8-Mikroskalierungsunterstützung. DeepSeek positionierte V3.1 als agentenbereite Version: bessere Tool-Aufrufe, verbesserte Agentenfähigkeiten und höhere Denkeffizienz im Vergleich zu früheren R1-Versionen. Die Version wurde im August 2025 angekündigt und in Hugging Face, CFD/OSS-Tools und Cloud-Bereitstellungshandbücher integriert.

Funktionsweise des Hybridmodells (kurz)

Ein Kontrollpunkt, zwei Vorlagen: Denk- und Nicht-Denkmodi werden gesteuert durch Chat-Vorlage und einem <think>/</think> Token-Konvention in der Eingabeaufforderung. Die genauen Präfixe sind auf der Modellkarte dokumentiert.
Agenten-/Tool-Verbesserungen: Boosts nach dem Training ermöglichen intelligentere Tool-Aufrufe – das Modell erwartet ein striktes JSON-Format für Tool-Aufrufe zur sicheren, deterministischen Tool-Ausführung.
Leistungskompromisse: Der Denkmodus verbraucht Token für internes Denken im Ketten-Stil und kann langsamer/tokenintensiver sein; Nicht-Denken ist schneller und günstiger. Benchmarks in der Modellkarte zeigen erhebliche Verbesserungen bei Denk- und Code-Benchmarks für V3.1.

Wie das Modell aufgebaut ist

MoE-Backbone: große Gesamtparameteranzahl mit einer kleineren aktivierten Teilmenge pro Token (ökonomische Inferenz).
Langzeit-Kontexttraining: V3.1 erweitert die Phasen mit langem Kontext erheblich (32k → umfangreicheres Training bei langen Dokumenten), um in einigen Builds Fenster mit 128K+ zu unterstützen.
Nativer FP8-Workflow: DeepSeek verwendet aus Gründen der Gewichts-/Aktivierungseffizienz umfassend FP8-Formate (w8a8 / UE8M0); es gibt Community-Konvertierungsskripte, wenn Sie BF16/FP16 bevorzugen.

Welche Voraussetzungen müssen erfüllt sein, um DeepSeek-V3.1 lokal auszuführen? (Hardware, Speicher und Software)

Ausführen der voller Das V3.1-Modell (nicht quantisiert) ist ein umfangreiches Unterfangen. Nachfolgend finden Sie realistische Kategorien von Setups und deren typische Anforderungen.

Praktische Eimer

Cluster / Forschungslabor (Vollmodell): mehrere GPUs mit hohem Speicher (H100/H800-Klasse oder viele Ada/Hopper-GPUs), Multi-Node mit Dutzenden von GPUs, viel NVMe-Speicher (Hunderte von GB) und spezialisierte Inferenz-Frameworks (SGLang, vLLM, LMDeploy, TRT-LLM).
Single-Server High-End (quantisiert): möglich mit starker Quantisierung (INT4/AWQ/AWQ2/gguf) und Frameworks wie Ollama (vorverpackt) oder Community-GGUFs – erfordert immer noch etwa zehn bis hundert GB GPU-RAM oder eine clevere CPU+GPU-Entlastung.
Entwickler-Laptop/Entwicklerbox: für vollständiges Modell nicht durchführbar; verwenden Sie kleine destillierte/fein abgestimmte Varianten oder stellen Sie eine Verbindung zum lokalen Server/zur Ollama-Instanz her.

Hardware-Checkliste (praktisch)

GPUs: Für echten Inferenzdurchsatz der vollständigen V3.1: Multi-GPU-Cluster (H100 / H800 / Ada Lovelace+). Für die FP8-Ausführung werden GPUs mit Rechenleistung und Treiberunterstützung benötigt.
RAM und Speicher: Rechnen Sie mit Hunderten von GB freiem Speicherplatz für die Modelldateien (auf den Modellseiten werden je nach Format/Quantisierung einige Hundert GB angegeben), zuzüglich Arbeitsspeicher für konvertierte Formate. Ollama-Metadaten geben einen Speicherbedarf von ca. 400 GB für ein DeepSeek V3.1 Ollama-Paket in der Bibliothek an.
Netzwerk: Für die Multi-Node-Inferenz benötigen Sie Verbindungen mit geringer Latenz (NVLink/InfiniBand) und Orchestrierungstools für tensorparallele Setups.

Software-Checkliste

OS: Für Community-Inferenztools wird Linux empfohlen (DeepSeek-Infer-Demo listet Linux/Python auf).
Python: 3.10+ (in vielen DeepSeek-Beispielen). Typische Paketversionen sind im Repo fixiert requirements.txt.
Frameworks und Tools (Wählen Sie eine oder mehrere Optionen aus): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM oder Ollama für einfachere lokale Installationen. Jedes dieser Programme verfügt über Anweisungen und unterschiedliche Präzisions-/Quantisierungsunterstützung.

Praxishinweis: Wenn Sie nur eine Consumer-GPU haben (z. B. 24–48 GB), werden Sie wahrscheinlich quantisierte GGUFs oder Remote-Inferenz verwenden. Wenn Sie eine Workstation mit >128 GB RAM und einem GPU-Cluster der Klasse H100/H200 haben, können Sie mit vLLM eine FP8/FP16-Inferenz mit höherer Wiedergabetreue anstreben.

Wie führe ich DeepSeek-V3.1 lokal aus?

Nachfolgend finden Sie mehrere praktische Pfade, die Sie verwenden können, vom manuellsten/flexibelsten bis zum einfachsten Pfad für eine einzelne Entwicklerbox. Ich werde Schritt-für-Schritt-Tutorials und Codebeispiele bereitstellen

Option A – Offizielle DeepSeek-Infer-Demo (Entwicklungs-/Clusterpfad)

Dies ist das Beispiel/die Demo des Repos für die FP8/BF16-Inferenz. Verwenden Sie es, wenn Sie mehrere Knoten planen oder mit dem offiziellen Inferenzcode experimentieren möchten.

Klonen, Umgebung vorbereiten

git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Repo inference/requirements.txt listet die vom Team empfohlenen Versionen von Torch/Triton/Transformers auf.)

Modellgewichte herunterladen

Download von der Hugging Face-Modellseite (deepseek-ai/DeepSeek-V3.1) und legen Sie sie unter /path/to/DeepSeek-V3. Die Modellkarte und der Repo-Hinweis sind beides offizielle Hugging Face-Speicherlinks.

Gewichte für Demo konvertieren

# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Interaktive Generierung ausführen (verteilt)

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Dies ist das kanonische Beispiel aus dem DeepSeek-Repo für Cluster-Läufe.

Option B – vLLM (empfohlen für Serverbereitstellungen und OpenAI-kompatible API)

vLLM unterstützt DeepSeek im FP8/BF16-Modus und bietet Ihnen einen OpenAI-kompatiblen Server. Aufgrund der Speicheroptimierungen und API-Kompatibilität ist es ein beliebter Produktionspfad für große Modelle.

Starten Sie einen vLLM-Server, der das Modell von Hugging Face abruft (Beispielmuster):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Fordern Sie dann Vervollständigungen mit curl oder einem OpenAI-kompatiblen Client an:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

vLLM-Rezepte und -Dokumente enthalten DeepSeek-Beispiele und Hinweise zur FP8-Kompatibilität und Multi-GPU/Pipeline-Parallelität. Für umfangreiche Modelle benötigen Sie weiterhin mehrere GPUs oder eine quantisierte Variante.

Option C – LMDeploy / SGLang / LightLLM & TensorRT-LLM (hohe Leistung)

Das DeepSeek-Repo empfiehlt ausdrücklich SGLang, LMDeploy und TensorRT-LLM als optimierte Engines für DeepSeek V3. Sie bieten verbesserte Inferenzlatenz, Durchsatz und FP8-Kernel.

Ein typischer LMDeploy-Aufruf (die genaue CLI finden Sie in den LMDeploy-Dokumenten):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

SGLang-Benchmarks und Startrezepte sind im Repo und im SGLang-Projekt verfügbar benchmark/deepseek_v3 Ordner. Verwenden Sie diese Stapel, wenn Sie einen GPU-Cluster steuern und Produktionsdurchsatz wünschen.

Option D – Ollama (der einfachste lokale Entwicklungsweg, oft Einzelmaschine)

Wenn Sie DeepSeek möglichst reibungslos lokal ausführen möchten (und die Festplatte entbehren können), Ollama bietet verpackte Modelle und eine einfache CLI (ollama pull, ollama run). DeepSeek-V3.1 erscheint in der Ollama-Bibliothek und kann lokal ausgeführt werden (Ollama benötigt für einige Funktionen möglicherweise eine aktuelle/Vorabversion).

Beispiel (Ollama CLI):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama abstrahiert viele Verteilungs-/Quantisierungsdetails und eignet sich hervorragend zum Testen des Modellverhaltens auf einem einzelnen Host. Hinweis: Auf der Modellseite wird für den Ollama-Eintrag eine Paketgröße von ca. 404 GB angegeben. Planen Sie daher Festplatte und RAM entsprechend ein.

Was ist der Denkmodus und wie wird er verwendet?

DeepSeek-V3.1 implementiert eine Hybrid-Denk-Token Ansatz: Derselbe Checkpoint kann in Denken Modus (interne „Gedankenkette“-Token) oder Nichtdenken Modus durch Umschalten der Chat-/Eingabeaufforderungsvorlage. Das Modell verwendet explizite Token wie <think> (und schließen </think> in einigen Vorlagen), um eine interne Gedankenkette gegenüber einer direkten Antwortgenerierung zu signalisieren. Die Modellkarte dokumentiert nicht-denkende und denkende Präfixe und zeigt, wie sich die Vorlagen unterscheiden.

Beispiel: Erstellen einer Nachricht in Python (Tokenizer-Helfer)

Die Modellkarte „Hugging Face“ enthält einen praktischen Ausschnitt, der zeigt, wie die Chat-Vorlage über den Tokenizer angewendet wird. Dies ist das empfohlene Muster zum Generieren von Denken or Nichtdenken formatierte Eingabeaufforderungen:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

Schalter thinking=True um eine Eingabeaufforderung zu erstellen, die das <think> Präfix; thinking=False erzeugt die nicht denkende Vorlage. Das Modell verhält sich abhängig von diesem Flag unterschiedlich (interne Überlegung vs. sofortige Reaktion).

Kurzreferenz – Kleine Fehlerbehebung und bewährte Vorgehensweisen

Wenn Ihnen der GPU-Speicher ausgeht: Versuchen Sie es mit quantisierten Builds (AWQ/q4/INT4) oder Community-GGUFs; viele Community-Bereiche veröffentlichen Quantisierungen zur lokalen Nutzung. Ollama/vLLM kann auch kleinere quantisierte Builds bereitstellen.

Wenn das Modell externe Tools aufrufen muss: Nehmen Sie die ToolCall Schema in der Chat-Vorlage genau. Testen Sie das JSON-Format des Tools offline und überprüfen Sie, ob Ihr Orchestrierungscode (der Teil, der das Tool ausführt) bereinigtes, typisiertes JSON an das Modell zurückgibt.

Wenn Sie einen ausführlichen Kontext benötigen: Verwenden Sie vLLM oder SGLang mit Long-Context-Plugins. DeepSeek wurde explizit für 32K/128K-Kontexte trainiert/erweitert und die zugehörigen Tools unterstützen dieses Fenster. Rechnen Sie mit Speicherkompromissen.

Kann ich DeepSeek-V3.1 tatsächlich auf einem Laptop oder kleinen Server ausführen?

Kurze Antwort: Ja, aber mit Einschränkungen. Community-Quantisierungen (AWQ/GGUF/1-Bit dynamisch) reduzieren den Speicherbedarf drastisch und ermöglichen es Hobbyisten, V3.1-Varianten auf High-End-Desktops auszuführen (angeblich ~170 GB Arbeitsspeicher). Allerdings:

Kompromiss zwischen Wiedergabetreue und Größe: Aggressive Quantisierung reduziert den Speicherbedarf, kann aber die Argumentations-/Code-Leistung beeinträchtigen. Testen Sie Ihre Workloads.
Rechtliches und Lizenzierung: Das Modell ist gemäß der Modellkarte MIT-lizenziert, Quantisierungen von Drittanbietern können jedoch über eigene Lizenzen verfügen. Überprüfen Sie diese vor der Verwendung in der Produktion.

Schlussworte

DeepSeek-V3.1 ist ein bedeutender Schritt in Richtung hybrider „Agenten“-Modelle mit explizitem Denk-/Nicht-Denkverhalten und verbesserter Werkzeugnutzung. Wenn Sie es lokal ausführen möchten, wählen Sie einen Pfad, der Ihrer Hardware und Risikotoleranz entspricht:

Für die Forschung: transformers + quantisierte Safetensoren und beschleunigen.

Für Produktion und Durchsatz: vLLM + Multi-GPU (H100/H200).

Für lokale Experimente: Ollama/llama.cpp + Community-GGUFs (zusammenführen + ausführen).

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen DeepSeek-V3.1 Über CometAPI sind die neuesten Modellversionen zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells im Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.