DeepSeek-V3.1: Funktionen, Architektur und Benchmarks

Im August 2025 kündigte das chinesische KI-Startup DeepSeek die Veröffentlichung von DeepSeek-V3.1, ein Upgrade zur Mitte der Generation, das das Unternehmen als ersten Schritt „in Richtung Agenten-Ära“ bezeichnet. Das Update bringt einen hybriden Inferenzmodus (ein einzelnes Modell, das in einem „denkenden“ oder „nicht denkenden“ Modus ausgeführt werden kann), ein wesentlich längeres Kontextfenster und gezielte Verbesserungen nach dem Training bei Tool-Aufrufen und mehrstufigem Agentenverhalten.

Was ist DeepSeek-V3.1 und warum ist es wichtig?

DeepSeek-V3.1 ist das neueste produktionsreife Update der V3-Serie von DeepSeek. Im Wesentlichen handelt es sich um eine hybride MoE-Sprachmodellfamilie (die V3-Linie), die DeepSeek nachtrainiert und erweitert hat, um zwei benutzersichtbare Betriebsmodi zu unterstützen. Es gibt zwei Hauptvarianten: DeepSeek-V3.1-Base und die vollständige Version DeepSeek-V3.1:

Nicht-Denken (Deepseek-Chat): ein Standard-Chat-Abschlussmodus, der auf Geschwindigkeit und Konversationsnutzung optimiert ist.
Denken (Deepseek-Reasoner): ein agentischer Denkmodus, der strukturiertes, mehrstufiges Denken und die Orchestrierung von Tools und Agenten priorisiert.

Der Schwerpunkt der Veröffentlichung liegt auf drei sichtbaren Verbesserungen: einer hybriden Inferenzpipeline, die Latenz und Leistungsfähigkeit ausgleicht, einer intelligenteren Tool-Aufruf-/Agent-Orchestrierung und einem erheblich erweiterten Kontextfenster (angekündigt als 128 Token).

Warum es darauf ankommt: DeepSeek-V3.1 setzt den Branchentrend fort, effiziente MoE-Architekturen im großen Maßstab mit Tooling-Primitiven und sehr langen Kontextfenstern zu kombinieren. Diese Kombination ist wichtig für Enterprise-Agenten, Such- und Schlussfolgerungs-Workflows, die Zusammenfassung langer Dokumente und die toolgesteuerte Automatisierung, bei denen sowohl Durchsatz als auch die Möglichkeit zum deterministischen Aufruf externer Tools erforderlich sind.

Was unterscheidet DeepSeek-V3.1 von früheren DeepSeek-Versionen?

Hybride Inferenz: ein Modell, zwei Betriebsmodi

Die wichtigste architektonische Veränderung ist Hybride InferenzDeepSeek beschreibt V3.1 als Unterstützung für einen „Denk“- und einen „Nicht-Denk“-Modus innerhalb derselben Modellinstanz, die durch Ändern der Chat-Vorlage oder eines UI-Schalters (DeepSeeks „DeepThink“-Schaltfläche) ausgewählt werden können. In der Praxis bedeutet dies, dass das Modell angewiesen werden kann, interne Argumentationsspuren zu erstellen (nützlich für Agenten-Workflows im Ketten-of-Think-Stil) oder direkt zu reagieren, ohne zwischengeschaltete Argumentationstoken preiszugeben – je nach den Anforderungen des Entwicklers. DeepSeek präsentiert dies als einen Weg zu mehr agentenorientierten Workflows, während Anwendungen Kompromisse zwischen Latenz und Ausführlichkeit wählen können.

Größeres Kontextfenster und Token-Primitive

Offizielle Versionshinweise berichten von einem viel größeres Kontextfenster in V3.1; Community-Tests und Unternehmensbeiträge stellen den erweiterten Kontext auf 128 Token für einige gehostete Varianten, wodurch wesentlich längere Konversationen, das Argumentieren mehrerer Dokumente oder lange Codebasen in einer einzigen Sitzung ermöglicht werden. Ergänzend dazu führt DeepSeek Berichten zufolge einige spezielle Kontrolltoken ein (zum Beispiel <｜search_begin｜>/<｜search_end｜>, <think> / </think>) soll Tool-Aufrufe strukturieren und „Denksegmente“ intern abgrenzen – ein Designmuster, das die Koordination mit externen Tools vereinfacht.

Verbesserte Agenten-/Tool-Fähigkeiten und Latenzverbesserungen

DeepSeek gibt an, dass V3.1 von folgenden Vorteilen profitiert: Optimierung nach dem Training Fokussiert auf Tool-Aufrufe und mehrstufige Agentenaufgaben: Das Modell soll im Denkmodus schneller Antworten liefern als frühere DeepSeek R1-Versionen und beim Aufruf externer APIs oder der Ausführung mehrstufiger Pläne zuverlässiger sein. Diese Positionierung – schnellere und dennoch agentenfähigere Inferenz – ist ein klares Produktdifferenzierungsmerkmal für Teams, die Assistenten, Automatisierungen oder Agenten-Workflows erstellen.

Welche Architektur steckt hinter DeepSeek-V3.1?

DeepSeek-V3.1 baut auf der Kernforschung der DeepSeek-V3-Familie auf: einem Expertenmix (MoE) Backbone mit einer Reihe von Architekturinnovationen, die auf Effizienz und Skalierbarkeit ausgelegt sind. Der öffentliche technische Bericht für DeepSeek-V3 (die zugrunde liegende Familie) beschreibt:

Ein großes MoE-Design mit Hunderten von Milliarden Gesamtparametern und einem kleineren aktiviert Parameteranzahl pro Token (die Modellkarte listet insgesamt 671 B Parameter auf, von denen ungefähr 37 B pro Token aktiviert sind).
Multi-Head Latent Attention (MLA) und die benutzerdefinierten DeepSeekMoE-Routing- und Skalierungsansätze, die die Inferenzkosten reduzieren und gleichzeitig die Kapazität erhalten.
Trainingsziele und Lastausgleichsstrategien, die den Bedarf an zusätzlichen Verlusttermen für den Lastausgleich beseitigen und Multi-Token-Vorhersageziele übernehmen, um den Durchsatz und die Sequenzmodellierung zu verbessern.

Warum MoE + MLA?

Mit der Expertenmischung kann das Modell eine hohe theoretische Parameteranzahl beibehalten und gleichzeitig nur eine Teilmenge von Experten pro Token aktivieren. Dies reduziert den Rechenaufwand pro Token. MLA ist die Aufmerksamkeitsvariante von DeepSeek, die dem Modell hilft, Aufmerksamkeitsoperationen effizient über viele Experten und lange Kontexte hinweg zu skalieren. Diese Optionen ermöglichen das Trainieren und Bedienen sehr großer Checkpoints bei gleichzeitiger Beibehaltung brauchbarer Inferenzkosten für viele Bereitstellungen.

Wie schneidet DeepSeek-V3.1 in Benchmarks und Praxistests ab?

Vergleich von V3.1 in Worten

Über V3 (0324): V3.1 ist ein deutliches Upgrade auf ganzer Linie – insbesondere bei Codierungs- und Agentenaufgaben. Beispiel: LiveCodeBench springt von 43.0 → 56.4 (Nichtdenken) und → 74.8 (Denken); Aider-Polyglot von 55.1 → 68.4 / 76.3.
Gegen R1-0528: R1 bleibt ein starker, auf die Argumentation abgestimmter Vergleichspunkt, aber V3.1-Denken entspricht häufig R1-0528 oder übertrifft es (AIME/HMMT, LiveCodeBench) und bietet gleichzeitig einen gedankenlosen Pfad für die Nutzung mit geringer Latenz.
Allgemeinwissen (MMLU-Varianten): V3.1 liegt beim „Denken“ knapp unter R1-0528, aber über dem älteren V3.

Allgemeinwissen & Akademisches

Benchmark (metrisch)	V3.1-Nichtdenken	V3 (0324)	V3.1-Denken	R1-0528
MMLU-Redux (Genaue Übereinstimmung)	91.8	90.5	93.7	93.4
MMLU-Pro (Genaue Übereinstimmung)	83.7	81.2	84.8	85.0
GPQA-Diamant (Pass@1)	74.9	68.4	80.1	81.0

Was dies bedeutet: V3.1 ist bei Wissens-/akademischen Aufgaben eine Verbesserung gegenüber V3; „Denken“ verringert die Lücke zu R1 bei schwierigen wissenschaftlichen Fragen (GPQA-Diamond).

Kodierung (nicht-agent)

Benchmark (metrisch)	V3.1-Nichtdenken	V3 (0324)	V3.1-Denken	R1-0528
LiveCodeBench (2408–2505) (Pass@1)	56.4	43.0	74.8	73.3
Aider-Polyglot (Genauigkeit)	68.4	55.1	76.3	71.6
Codeforces-Div1 (Bewertung)	-	-	2091	1930

Anmerkungen:

LiveCodeBench (2408–2505) bezeichnet ein aggregiertes Fenster (Aug. 2024→Mai 2025). Ein höherer Pass@1-Wert spiegelt eine höhere Korrektheit beim ersten Versuch bei verschiedenen Codierungsaufgaben wider.
Aider-Polyglot simuliert die Codebearbeitung im Assistentenstil in vielen Sprachen; V3.1-Thinking ist führend, V3.1-NonThinking ist ein beträchtlicher Sprung gegenüber V3 (0324).
Die Modellkarte zeigt V3 (0324) bei 55.1 % auf Aider – im Einklang mit Aiders öffentlichem Bestenlisteneintrag für diesen Jahrgang. (Die höheren Punktzahlen von V3.1 sind neu auf der Modellkarte.)

Kodierung (Agentenaufgaben)

Benchmark (metrisch)	V3.1-Nichtdenken	V3 (0324)	V3.1-Denken	R1-0528
SWE verifiziert (Agentenmodus)	66.0	45.4	-	44.6
SWE-Bank Mehrsprachig (Agentenmodus)	54.5	29.3	-	30.5
Terminal-Bank (Terminus 1-Framework)	31.3	13.3	-	5.7

Wichtiger Vorbehalt: Diese sind Agentenbewertungen mithilfe der internen Frameworks von DeepSeek (Tools, mehrstufige Ausführung), keine reinen Next-Token-Dekodierungstests. Sie erfassen die Fähigkeit „LLM + Orchestrierung“. Behandeln Sie diese als fragst Ergebnisse (die Reproduzierbarkeit kann vom genauen Agentenstapel und den Einstellungen abhängen).

Mathematik und Wettbewerbsdenken

Benchmark (metrisch)	V3.1-Nichtdenken	V3 (0324)	V3.1-Denken	R1-0528
AIME 2024 (Pass@1)	66.3	59.4	93.1	91.4
AIME 2025 (Pass@1)	49.8	51.3	88.4	87.5
HMMT 2025 (Pass@1)	33.5	29.2	84.2	79.4

Mitnehmen: Antriebe im Denkmodus sehr groß Steigerungen bei Mathe-Wettbewerbssätzen – V3.1-Denken übertrifft R1-0528 bei AIME/HMMT in den gemeldeten Läufen.

Sucherweiterte/agentische Qualitätssicherung

Benchmark (metrisch)	V3.1-Nichtdenken	V3 (0324)	V3.1-Denken	R1-0528
BrowseComp	-	-	30.0	8.9
BrowseComp_zh	-	-	49.2	35.7
Die letzte Prüfung der Menschheit (Python + Suche)	-	-	29.8	24.8
SimpleQA	-	-	93.4	92.3
Die letzte Prüfung der Menschheit (nur Text)	-	-	15.9	17.7

Hinweis: DeepSeek gibt an, dass die Ergebnisse des Suchagenten sein internes Suchframework verwenden (kommerzielle Such-API + Seitenfilterung, 128K-Kontext). Die Methodik ist hier entscheidend; für die Reproduktion sind ähnliche Tools erforderlich.

Was sind die Einschränkungen und wie geht es weiter?

DeepSeek-V3.1 ist ein wichtiger Entwicklungs- und Produktschritt: Es verbindet Langzeitkontexttraining, Hybridvorlagen und MoE-Architektur zu einem breit einsetzbaren Checkpoint. Es gibt jedoch weiterhin Einschränkungen:

Die Sicherheit von Agenten in der realen Welt, Halluzinationen bei der Zusammenfassung langer Kontexte und gegnerisches Verhalten erfordern weiterhin Abhilfemaßnahmen auf Systemebene.
Benchmarks sind ermutigend, aber nicht einheitlich: Die Leistung variiert je nach Domäne, Sprache und Evaluierungssuite; eine unabhängige Validierung ist notwendig.
Geopolitische und Lieferkettenfaktoren – Hardwareverfügbarkeit und Chipkompatibilität – haben den Zeitplan von DeepSeek bereits beeinflusst und können Einfluss darauf haben, wie Kunden die Lösung im großen Maßstab einsetzen.

Erste Schritte über CometAPI

CometAPI ist eine einheitliche API-Plattform, die über 500 KI-Modelle führender Anbieter – wie die GPT-Reihe von OpenAI, Gemini von Google, Claude von Anthropic, Midjourney, Suno und weitere – in einer einzigen, entwicklerfreundlichen Oberfläche vereint. Durch konsistente Authentifizierung, Anforderungsformatierung und Antwortverarbeitung vereinfacht CometAPI die Integration von KI-Funktionen in Ihre Anwendungen erheblich. Ob Sie Chatbots, Bildgeneratoren, Musikkomponisten oder datengesteuerte Analyse-Pipelines entwickeln – CometAPI ermöglicht Ihnen schnellere Iterationen, Kostenkontrolle und Herstellerunabhängigkeit – und gleichzeitig die neuesten Erkenntnisse des KI-Ökosystems zu nutzen.

Entwickler können zugreifen DeepSeek R1(deepseek-r1-0528) und DeepSeek-V3.1 durch CometAPIDie neuesten Modellversionen sind zum Veröffentlichungsdatum des Artikels aufgeführt. Erkunden Sie zunächst die Funktionen des Modells im Spielplatz und konsultieren Sie die API-Leitfaden Für detaillierte Anweisungen. Stellen Sie vor dem Zugriff sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bieten einen Preis weit unter dem offiziellen Preis an, um Ihnen bei der Integration zu helfen.

Fazit

DeepSeek-V3.1 stellt ein pragmatisches, zukunftsorientiertes Update dar: Ein größeres Kontextfenster, hybride Think/Non-Think-Inferenz, verbesserte Tool-Interaktionen und eine OpenAI-kompatible API machen es zu einer attraktiven Option für Teams, die Agentenassistenten, Anwendungen mit langem Kontext und kostengünstige codeorientierte Workflows.