So stellen Sie deepseek-v3.1 lokal über ollama bereit: Der einfachste Leitfaden

DeepSeek-V3.1 ist ein hybrides „denkendes/nicht-denkendes“ MoE-Sprachmodell (insgesamt 671 B, ≈37 B pro Token aktiviert), das mit dem richtigen Provider/Quantisierung und den richtigen Tools lokal ausgeführt werden kann. Im Folgenden erkläre ich, was DeepSeek-V3.1 ist, die Hardware-/Softwareanforderungen, schrittweise Tutorials zur lokalen Ausführung (Ollama + llama.cpp-Beispiele) und wie man Den Denkmodus einsetzen und nutzen (Das <think>/</think> Chat-Vorlage) mit Codebeispielen, die Sie kopieren/einfügen können.

Was ist DeepSeek-V3.1?

DeepSeek-V3.1 ist die Version 3.1 der MoE-Familie (Mixture-of-Experts) von DeepSeek. Es wurde als hybrides Inferenzmodell entwickelt, das zwei Konversationsvorlagen/-modi unterstützt: Denken kombiniert mit einem nachhaltigen Materialprofil. Nicht-Denken – vom selben Prüfpunkt aus durch Ändern der Chat-Vorlage. Die Modellarchitektur basiert auf dem DeepSeek-V3 MoE-Design (671 B Gesamtparameter; ≈37 B Parameter pro Token für die Inferenz aktiviert) und fügt nach dem Training Verbesserungen für die Tool-Nutzung, die Agentenfähigkeiten und die Verarbeitung langer Kontexte hinzu.

Kurze Funktionshighlights

Hybrid Denken / Nicht-Denken Modi (umgeschaltet durch Tokenisierung der Chatvorlage).
MoE-Architektur: große Gesamtparameteranzahl, aber begrenzte aktivierte Parameter pro Token (ermöglicht Effizienz).
Verbesserungen nach dem Training für Tool-Aufrufe und Agent-Workflows (Tool-Aufrufformat und Agent-Vorlagen sind in den Modellressourcen dokumentiert).

Was benötige ich, um DeepSeek-V3.1 lokal auszuführen?

Ausführen der voller DeepSeek-V3.1 (Rohcheckpoints) ist schwergewichtig – Training/Checkpoint-Speicherung und Inferenz-Orchestrierung sind nicht trivial. Es gibt jedoch praktische Wege:

Hardware

Vollständig verteilte Inferenz (Forschung/Cluster): mehrere GPUs mit hohem Speicher (Klasse A100/H800) oder ein GPU-Cluster mit modellparalleler Bereitstellung (typisch für 600 B+ Checkpoints). Nur verwenden, wenn Sie Produktionsforschungscluster ausführen.
Praktische lokale Optionen: Benutze die aktivierter Parameter Perspektive (≈37B aktiviert) oder ein quantisierter GGUF/1-Bit dynamischer Build. Community-Quantisierungen (1-Bit dynamisch / GGUF) reduzieren den Festplatten- und RAM-Bedarf erheblich – Community-Beiträge berichten beispielsweise von der Komprimierung eines 720-GB-Checkpoints auf ~170 GB GGUF für eine quantisierte Variante. Dies ermöglicht lokale GPU-Inferenz auf Einzelservern für gut ausgestattete Desktops/Server.

Bottom line: Erwarten Sie einen Workflow mit großen Modellen (zehn bis einige hundert GB Speicherplatz auf der Festplatte für quantisierte Artefakte). Verwenden Sie für GPU-VRAM quantisierte Varianten und zielen Sie auf ≥24–48 GB VRAM für einen angemessenen Durchsatz ab. Verwenden Sie andernfalls CPU+Swap mit Leistungseinbußen.

Software und Tools

Python 3.10+ (für Transformer-/Tokenizer-Tools und benutzerdefinierte Skripte).

transformers (für Tokenizer & Hilfsfunktionen) — die Modellkarte zeigt Beispiele mit transformers.AutoTokenizer.

Eine oder mehrere lokale Inferenzlaufzeiten:

Ollama (einfach: ollama pull / ollama run Integration; einige DeepSeek-Builds auf Ollama erfordern Vorabversionen, überprüfen Sie den Hinweis zu Modell/Ollama). Ollama hat sich zu einem standardmäßigen lokalen Runner für Community-Modelle entwickelt.
llama.cpp / ggml Stapel oder llama-server für quantisierte GGUF-Dateien – ideal für die direkte GGUF-Ausführung.
Textgenerierungs-Inferenz / Triton / FlashAttention-Stapel für GPU-Inferenz mit höherer Leistung (erweiterte Setups).

Festplatte: großer freier Speicherplatz für Modelldateien (Dutzende → Hunderte von GB, je nach Quantisierung).

Modellartefakte (welche Datei soll abgerufen werden)

Offizielle Safetensoren / BF16 / FP8 / GGUF-Varianten: Hugging Face enthält V3.1-Modellartefakte und mehrere Quantisierungen. Wenn Sie eine GGUF/quantisierte Datei benötigen für llama.cpp, suchen Sie nach einer Community-Quantisierungsversion (oder einem Konvertierungsskript von Safetensor → GGUF) – die Modellkarte listet quantisierte Varianten auf.

Wie bereite ich das Modell für die lokale Inferenz vor?

Nachfolgend finden Sie die empfohlenen Vorbereitungsschritte, sortiert von einfach bis fortgeschritten.

Schritt 1 – Wählen Sie eine Laufzeit (Empfehlung)

Anfänger-/Schnelltest: Ollama – minimale Einrichtung: Herunterladen, Modell ausführen, API aufrufen. Hinweis: Einige DeepSeek-V3.1-Builds weisen darauf hin, dass Ollama v0.11.7 für bestimmte Funktionen erforderlich ist.
Erweiterte/Low-Level-Steuerung: llama.cpp + GGUF quant (wenn eine GGUF-Quantisierung verfügbar ist). Dies ermöglicht Ihnen direkte Inferenzkontrolle und Integration mit llama-server.

Schritt 2 – Laden Sie das Modell herunter

Wenn Sie Ollama verwenden:

# install ollama (see https://ollama.com/docs)

# Pull the model (this downloads the model to your machine)
ollama pull deepseek-ai/DeepSeek-V3.1
# or a specific tag: ollama pull deepseek-ai/DeepSeek-V3.1:quant-q4_0

(Ollamas run wird automatisch gezogen, wenn nicht vorhanden; pull ermöglicht Ihnen die Steuerung des Timings.)

Wenn Sie Hugging Face + llama.cpp verwenden:

# Example: download via huggingface-cli or hf_transfer

pip install huggingface_hub
hf_hub_download(repo_id="deepseek-ai/DeepSeek-V3.1", filename="DeepSeek-V3.1.gguf")
# or use a community quant file (gguf) referenced on the Hugging Face model page

Hugging Face listet Modellartefakte, Vorlagen und Quantisierungen auf der Modellkarte auf.

Schritt 3 – Konvertieren / Quantisieren (optional)

Wenn Sie nur Safetensoren oder BF16-Artefakte finden, aber GGUF für llama.cpp, verwenden Sie die Konvertierungsskripte in llama.cpp (oder Community-Tools) zum Konvertieren → Quantisieren. Es gibt Community-Tools für die dynamische 1-Bit-Quantisierung, die die Genauigkeit bei gleichzeitiger Verkleinerung beibehalten; siehe die Community-Beiträge, die von bis zu ~170 GB berichten.

Wie führe ich DeepSeek-V3.1 tatsächlich lokal aus? (Praktische Lauf-Tutorials)

Ich werde zeigen Ollama (einfach, empfohlen) und lama.cpp (GGUF) Beispiele plus ein kurzes Python-Beispiel mit den Model-Card-Tokenizer-Helfern.

A – Laufen mit Ollama (Schnellstart)

Installieren Sie Ollama (folgen Sie den offiziellen Anweisungen).
Ziehen und Ausführen des Modells:

# pull model to disk (optional; run will pull automatically)

ollama pull deepseek-ai/DeepSeek-V3.1

# start an interactive session (runs model and exposes local API)

ollama run deepseek-ai/DeepSeek-V3.1

Senden Sie eine HTTP-Anfrage an den lokalen Ollama-Server:

# curl usage example (local Ollama server usually listens on port 11434)

curl -sS -X POST 'http://localhost:11434/api/generate' \
  -H 'Content-Type: application/json' \
  -d '{
    "model":"deepseek-ai/DeepSeek-V3.1",
    "prompt":"Explain the difference between thinking and non-thinking mode in DeepSeek.",
    "max_tokens":256
  }'

Die CLI- und API-Muster von Ollama sind einfach gestaltet: ollama run wird bei Bedarf abgerufen und ein Modellserver gestartet. Speicherhinweise und genaue Modellnamen/Tags finden Sie in den Ollama-Dokumenten und auf den Modellseiten.

B – Ausführen eines quantisierten GGUF über llama.cpp

Bauen llama.cpp mit CUDA (optional) oder CPU:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# for CUDA:

make clean && make LLAMA_CUBLAS=1
# or CPU only:

make

Platzieren Sie die GGUF-Modelldatei in einem Pfad und führen Sie Folgendes aus:

./main -m /path/to/DeepSeek-V3.1.q4_K_M.gguf \
  -p "Explain how to enable thinking mode." \
  --temp 0.2 --n_predict 512

Für die Servernutzung, llama-server (Community-Projekt) kann einen HTTP-Endpunkt verfügbar machen:

llama-server -m /path/to/DeepSeek-V3.1.q4_K_M.gguf
# then POST to the server like:

curl -X POST "http://localhost:8080/api/v1/generate" -d '{"prompt":"Hello","max_tokens":200}'

Verwenden Sie Community-GGUF-Quantisierungen (q4/q8/1-Bit dynamisch), um in GPU/CPU-Budgets zu passen; die llama.cpp Repo bietet Konvertierungstools und Anleitungen.

C – Python-Beispiel mit dem Tokenizer + Chat-Vorlage

Hugging Face Modellkarte bietet eine tokenizer.apply_chat_template Helfer und zeigt, wie man ein Gespräch verschlüsselt mit thinking=True. Hier ist ein minimales Python-Beispiel, das von der Modellkarte adaptiert wurde:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# apply thinking chat template

s = tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
print(s)  # the template includes the special <think> token placement

Sie können die tokenisierte Eingabeaufforderung dann je nach Ihrem Stapel in Ihre Inferenzlaufzeit (Ollama/llama.cpp/TGI) einspeisen.

Wie funktioniert der Denkmodus und wie stelle ich ihn lokal bereit?

DeepSeek-V3.1 verwendet Chat-Vorlagen die ein spezielles Denkzeichen enthalten (z. B. <think> kombiniert mit einem nachhaltigen Materialprofil. </think>). Die Vorlage bestimmt, ob sich das Modell im Denk- oder Nicht-Denkmodus befindet:

Nicht-Denken Vorlagenorte </think> im Assistentenpräfix, das das Modell anweist, direkte Antworten zu produzieren (das Toolcall-Format wird im Nicht-Denken unterstützt).
Denken Vorlagenorte <think> im Assistentenpräfix, wodurch das Modell interne Zwischensignale im Stil einer Gedankenkette ausgibt (das Modell wird darauf trainiert, diese Token-Sequenz zu verwenden, um intern zu argumentieren und qualitativ hochwertigere mehrstufige Antworten zu produzieren). Die Modellkarte „Hugging Face“ dokumentiert genau diese Token und die tokenizer.apply_chat_template(..., thinking=True) API.

Programmatisches Umschalten (Beispiele)

A — Mit dem Tokenizer (Python):

# thinking=True or thinking=False changes how the prompt is formatted

prompt_thinking = tokenizer.apply_chat_template(messages, thinking=True, add_generation_prompt=True)
prompt_non_thinking = tokenizer.apply_chat_template(messages, thinking=False, add_generation_prompt=True)

Newsfeed prompt_thinking zu Ihrer Inferenzlaufzeit, um das Denkverhalten zu erhalten.

B – Mit Roheingabeaufforderung (llama.cpp / Handbuch):

Insert <think> bevor der Assistent an der Reihe ist, wenn Sie dazu auffordern:

<｜begin_of_sentence｜>You are a helpful assistant<｜User｜>How to optimize this code?<｜Assistant｜><think>

(Diese exakte Token-Einrahmung befindet sich auf der Modellkarte. Wenn Sie die Rohvorlage verwenden, müssen Sie die Abstände und speziellen Markierungen beachten.)

C – Mit Ollama (UI-Umschalter):
Die offizielle DeepSeek-Webdemo und die Versionshinweise erwähnen einen „DeepThink“-Schalter/Button zum Umschalten der Modi in der gehosteten Benutzeroberfläche. Lokal sollte Ollama oder Ihre App dieses Verhalten replizieren, indem sie die Chat-Vorlage umstellt (d. h. die Eingabeaufforderung, die Sie an die Laufzeit senden, zwischen den beiden tokenisierten Formularen ändert). Wenn Sie DeepSeek über Ollama ausführen, können Sie dies in Ihrer Anwendung implementieren, indem Sie zwei Eingabeaufforderungsvorlagen (denkend vs. nicht denkend) pflegen und diese über die Ollama-API umschalten.

Wie setze ich den Denkmodus als Agent ein (Toolaufrufe, Code-Agenten)?

DeepSeek-V3.1-Dokumente Toolcall kombiniert mit einem nachhaltigen Materialprofil. Agent Vorlagen in den Modellressourcen. Das Modell erwartet, dass Tools in einem bestimmten JSON-/Anweisungsformat dargestellt werden, und unterstützt die Verkettung mehrerer Toolaufrufe in einem einzigen Durchgang, wenn Sie die genauen Wrapper-Token befolgen, die auf der Modellkarte beschrieben sind.

Beispiel: einfacher Tool-Call-Wrapper (Pseudo)

Das Modell spezifiziert einen Werkzeugdeskriptorblock und einen strikten tool_calls_begin / tool_call_begin Format. Ein minimales Beispiel (konzeptionell):

## Tools

You have access to the following tools:

### web_search

Description: Query the web
Parameters: {"q": "string"}

<｜begin_of_sentence｜>{system prompt}

## Tools

...tool descriptions...

<｜User｜>Find the population of Tokyo<｜Assistant｜></think>
<｜tool_calls_begin｜><｜tool_call_begin｜>web_search<｜tool_sep｜>{"q":"population of Tokyo 2025"}<｜tool_call_end｜><｜tool_calls_end｜>

Die Werkzeugausgabe sollte dann in der nächsten Runde gemäß dem vom Modell vorgegebenen Format an das Modell zurückgeführt werden (siehe assets/search_tool_trajectory.html auf der Modellseite für den genauen Ablauf). Die Implementierung von Agenten erfordert eine programmatische Orchestrierung: Tool aufrufen → Ergebnis erfassen → Ergebnis genau wie in der Vorlage vorgeschrieben wieder in den Chat-Kontext einfügen → Modell erneut aufrufen.

Praktische Tipps, Fehlerbehebung und Sicherheitshinweise (Worauf muss ich achten?)

Token-Vorlagen sind streng. Verwenden Sie das Modell tokenizer.apply_chat_template oder reproduzieren Sie die genaue <think>/</think> Token wie gezeigt. Falsche Abstände oder fehlende Markierungen verändern das Modellverhalten.
Das Toolformat muss gültiges JSON sein. Das Modell analysiert Tool-Argumente als JSON – ungültiges JSON führt zum Abbruch von Tool-Aufrufen.
Kompromisse bei der Quantisierung. Dynamische/aggressive 1-Bit-Quantisierungen reduzieren Speicher und RAM, können aber die numerische Genauigkeit leicht verändern. Testen Sie diese an Ihren Workloads. Es gibt Community-Quantisierungen, die die Festplattennutzung um 80 % reduzieren (Beispielbericht: 720 GB → ~170 GB). Überprüfen Sie diese jedoch immer anhand Ihrer Eingabeaufforderungen.
Ollama-Kompatibilität. Einige DeepSeek-Varianten weisen darauf hin, dass Ollama v0.11.7 für Vorabversionsfunktionen erforderlich ist. Überprüfen Sie die Ollama-Modellseite und aktualisieren Sie sie entsprechend.

Beispiel End-to-End: DeepSeek-V3.1 lokal mit Thinking Mode ausführen (Mini-Walkthrough)

Installieren Sie Ollama und ziehen Sie das Modell:

# install ollama per docs, then:

ollama pull deepseek-ai/DeepSeek-V3.1
ollama run deepseek-ai/DeepSeek-V3.1 &

Verwenden Sie den Python-Tokenizer, um eine Denkanstoß zu verfassen:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

msgs = [
  {"role":"system","content":"You are a helpful assistant."},
  {"role":"user","content":"Plan a multi-step strategy to prototype a mobile app in 2 weeks."}
]
prompt = tokenizer.apply_chat_template(msgs, thinking=True, add_generation_prompt=True)

import requests
resp = requests.post("http://localhost:11434/api/generate", json={
    "model": "deepseek-ai/DeepSeek-V3.1",
    "prompt": prompt,
    "max_tokens": 400
})
print(resp.json())

Wenn das Modell einen Toolaufruf im Toolcall-Format zurückgibt, analysieren Sie das JSON und führen Sie das Tool aus. Fügen Sie dann die Ergebnisse gemäß den Modellkartenvorlagen in die nächste Nachricht ein.

Wie sollten Sie Ihren Bereitstellungspfad wählen?

Wenn Sie den schnellsten Weg zum Experimentieren suchen: - Ollama und die Beispiele der Hugging Face-Modellkarte. Ollama verbirgt viele Infrastrukturdetails und bietet eine lokale HTTP-API.
Wenn Sie geringere Kosten/mehr Mobilität benötigen: eine Community nutzen GGUF quantisiert Artefakt und laufen mit llama.cpp or llama-server. Die Quantisierung spart Speicherplatz und Speicher, testet aber die Genauigkeit für Ihre Arbeitslast.
Wenn Sie Agenten oder Tools erstellen: folgen Sie den Modellkarten Toolcall kombiniert mit einem nachhaltigen Materialprofil. Agent Vorlagen genau; Tool-Ausgaben zurück in den Modellkontext orchestrieren.

Erste Schritte

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen DeepSeek V3.1 Über CometAPI sind die neuesten Modellversionen zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells im Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Fazit

DeepSeek-V3.1 bietet eine praktische hybride Inferenzphilosophie (ein Checkpoint + vorlagenbasiertes Denkverhalten), die das Experimentieren mit gedankenkettenbasiertem Denken und die Nutzung von Agententools vereinfacht, sofern die Chat-Vorlagen und Tool-Anforderungen eingehalten werden. Nutzen Sie die Hugging Face-Modellkarte und die DeepSeek-Versionshinweise als erste Anlaufstelle und wählen Sie eine lokale Laufzeitumgebung (Ollama der Einfachheit halber). llama.cpp zur Kontrolle) und testen Sie quantisierte Builds für praktische lokale Bereitstellungen.