DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Eingabe:$0.22/M
Ausgabe:$0.35/M
Kontext:128K
Maximale Ausgabe:4K
DeepSeek v3.2 ist die neueste Produktionsversion innerhalb der DeepSeek V3-Familie: eine große, auf Schlussfolgern ausgerichtete Open-Weight-Sprachmodellfamilie, die für das Verständnis langer Kontexte, robusten Agenten-/Tool-Einsatz, fortgeschrittenes Schlussfolgern, Programmierung und Mathematik entwickelt wurde.

Was ist DeepSeek v3.2?

DeepSeek v3.2 ist die neueste produktionsreife Veröffentlichung der DeepSeek-V3-Familie: eine große, reasoning-first Open-Weight-Sprachmodellfamilie, entwickelt für Verständnis langer Kontexte, robuste Agenten-/Tool-Nutzung, fortgeschrittenes Schlussfolgern, Coding und Mathematik. Das Release bündelt mehrere Varianten (Production V3.2 und ein leistungsstarkes V3.2-Speciale). Das Projekt betont kosteneffiziente Inferenz bei langen Kontexten durch einen neuen Sparse-Attention-Mechanismus namens DeepSeek Sparse Attention (DSA) sowie Agenten-/„Denken“-Workflows („Thinking in Tool-Use“).

Hauptfunktionen (auf hoher Ebene)

  • DeepSeek Sparse Attention (DSA): ein Sparse-Attention-Mechanismus, der den Rechenaufwand in Langkontext-Szenarien drastisch reduzieren soll, bei gleichzeitiger Wahrung des Schlussfolgerns über große Distanzen. (Kernforschungsanspruch; verwendet in V3.2-Exp.)
  • Agentisches Denken + Tool-Use-Integration: V3.2 betont die Einbettung von „Denken“ in die Tool-Nutzung: Das Modell kann in Reasoning-/Thinking-Modi und in Nicht-Thinking-(normalen) Modi beim Aufrufen von Tools arbeiten, was die Entscheidungsfindung in mehrstufigen Aufgaben und die Tool-Orchestrierung verbessert.
  • Groß angelegte Pipeline zur Agenten-Datensynthese: DeepSeek berichtet von einem Trainingskorpus und einer Agenten-Synthese-Pipeline, die sich über Tausende von Umgebungen und Zehntausende komplexer Anweisungen erstrecken, um die Robustheit für interaktive Aufgaben zu verbessern.
  • DeepSeek Sparse Attention (DSA): DSA ist eine fein granulare Sparse-Attention-Methode, die in der V3.2-Linie eingeführt wurde (zuerst in V3.2-Exp) und die Aufmerksamkeitskomplexität reduziert (von naivem O(L²) zu einem O(L·k)-Stil mit k ≪ L), indem pro Abfragetoken eine kleinere Menge an Key/Value-Tokens ausgewählt wird. Das Ergebnis sind deutlich geringerer Speicher-/Rechenaufwand für sehr lange Kontexte (128K), wodurch Langkontext-Inferenz materiell günstiger wird.
  • Mixture-of-Experts-(MoE)-Backbone und Multi-head Latent Attention (MLA): Die V3-Familie nutzt MoE, um Kapazität effizient zu erhöhen (große nominale Parameterzahlen bei begrenzter Pro-Token-Aktivierung) sowie MLA-Methoden, um Qualität zu erhalten und den Rechenaufwand zu steuern.

Technische Spezifikationen (kurz)

  • Nomineller Parameterbereich: ~671B–685B (variantenabhängig).
  • Kontextfenster (dokumentierte Referenz): 128,000 Tokens (128K) in vLLM/reference-Konfigurationen.
  • Attention: DeepSeek Sparse Attention (DSA) + MLA; reduzierte Aufmerksamkeitskomplexität für lange Kontexte.
  • Numerische & Trainingspräzision: BF16 / F32 sowie komprimierte quantisierte Formate (F8_E4M3 etc.) verfügbar für die Distribution.
  • Architekturfamilie: MoE-(Mixture-of-Experts)-Backbone mit Pro-Token-Aktivierungsökonomie.
  • Eingabe/Ausgabe: standardisierte tokenisierte Texteingabe (Chat-/Nachrichtenformate unterstützt); unterstützt Tool-Aufrufe (Tool-Use-API-Primitiven) sowie sowohl interaktive Aufrufe im Chat-Stil als auch programmgesteuerte Vervollständigungen über die API.
  • Verfügbare Varianten: v3.2, v3.2-Exp (experimentell, DSA-Debüt), v3.2-Speciale (reasoning-first, vorerst nur API).

Benchmark-Leistung

Das rechenintensive V3.2-Speciale erreicht Parität mit oder übertrifft zeitgenössische High-End-Modelle auf mehreren Reasoning-/Mathe-/Coding-Benchmarks und erzielt Spitzenwerte auf ausgewählten hochkarätigen Mathematik-Aufgabensätzen. Das Preprint hebt Parität mit Modellen wie GPT-5 / Kimi K2 auf ausgewählten Reasoning-Benchmarks hervor, spezifische Verbesserungen gegenüber früheren DeepSeek R1/V3-Baselines:

  • AIME: verbessert von 70.0 auf 87.5 (Δ +17.5).
  • GPQA: 71.5 → 81.0 (Δ +9.5).
  • LCB_v6: 63.5 → 73.3 (Δ +9.8).
  • Aider: 57.0 → 71.6 (Δ +14.6).

Vergleich mit anderen Modellen (auf hoher Ebene)

  • Gegenüber GPT-5 / Gemini 3 Pro (öffentliche Angaben): Die DeepSeek-Autoren und mehrere Presseberichte behaupten Parität oder Überlegenheit bei ausgewählten Reasoning- und Coding-Aufgaben für die Speciale-Variante, während Kosteneffizienz und offene Lizenzierung als Differenzierungsmerkmale betont werden.
  • Gegenüber Open-Models (Olmo, Nemotron, Moonshot, etc.): DeepSeek hebt agentisches Training und DSA als Schlüsselmerkmale für Langkontext-Effizienz hervor.

Repräsentative Anwendungsfälle

  • Agentische Systeme/Orchestrierung: Multi-Tool-Agenten (APIs, Web-Scraper, Verbindungen zur Codeausführung), die von modellseitigem „Denken“ + expliziten Tool-Call-Primitiven profitieren.
  • Reasoning/Analyse langer Dokumente: juristische Dokumente, große Forschungskorpora, Besprechungsprotokolle — Langkontext-Varianten (128k Tokens) erlauben sehr große Kontexte in einem einzelnen Aufruf.
  • Komplexe Mathematik- & Coding-Unterstützung: V3.2-Speciale wird laut Anbieterbenchmarks für fortgeschrittenes mathematisches Reasoning und umfangreiche Code-Debugging-Aufgaben beworben.
  • Kostensensitive produktive Bereitstellungen: DSA + Preisänderungen zielen darauf ab, die Inferenzkosten für Aufgaben mit hohem Kontext zu senken.

So beginnen Sie mit der Nutzung der DeepSeek v3.2 API

DeepSeek v3.2 API-Preise in CometAPI, 20% unter dem offiziellen Preis:

Eingabe-Tokens$0.22
Ausgabe-Tokens$0.35

Erforderliche Schritte

  • Melden Sie sich bei cometapi.com an. Wenn Sie noch kein Nutzer sind, registrieren Sie sich bitte zuerst.
  • Holen Sie sich den Zugriffsberechtigungs-API-Schlüssel der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Add Token“, erhalten Sie den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
  • Rufen Sie die URL dieser Seite ab: https://api.cometapi.com/

Verwendungsmethode

  1. Wählen Sie den „deepseek-v3.2“-Endpoint, um die API-Anfrage zu senden, und setzen Sie den Request-Body. Anfragemethode und Request-Body entnehmen Sie der API-Dokumentation auf unserer Website. Unsere Website stellt Ihnen außerdem zu Ihrer Bequemlichkeit einen Apifox-Test bereit.
  2. Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto.
  3. Wählen Sie das Chat-Format: Fügen Sie Ihre Frage oder Anforderung in das content-Feld ein — darauf antwortet das Modell.
  4. .Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Weitere Modelle