DeepSeek V4 ist nicht länger nur ein Gerücht oder Teaser. Seit dem 24. April 2026 besagt die offizielle Dokumentation von DeepSeek, dass die V4-Vorschau live, Open Source und in der API verfügbar ist – mit zwei Varianten: DeepSeek-V4-Pro und DeepSeek-V4-Flash. Das offizielle Release hebt ein 1M-Token-Kontextfenster, zwei Reasoning-Modi und API-Kompatibilität mit OpenAI ChatCompletions und Anthropic-Formaten hervor. DeepSeek sagt außerdem, dass die Legacy-Modelnamen deepseek-chat und deepseek-reasoner am 24. Juli 2026 eingestellt werden.
Für Entwickler ist diese Kombination aus einem einfachen Grund relevant: Sie senkt die Migrationshürden und erhöht zugleich die Obergrenze dessen, was Sie bauen können. Sie lernen keine brandneue API-Form. Sie aktualisieren den Modellnamen, behalten die Basis-URL bei und liefern mit einem größeren Kontextfenster und neuem Reasoning-Verhalten aus. Die offizielle Dokumentation von DeepSeek sagt ausdrücklich, die Basis-URL beizubehalten und den Modellparameter auf deepseek-v4-pro oder deepseek-v4-flash zu ändern.
Auf Produktebene ist V4-Pro das stärkere Modell für agentisches Coding, Weltwissen und anspruchsvolles Reasoning, während V4-Flash die schnellere und günstigere Option ist, die bei einfacheren Agent-Aufgaben weiterhin gut abschneidet. CometAPI stellt den Zugriff auf beide Modelle zu sehr niedrigen Kosten bereit.
DeepSeek V4 Leistungsbenchmarks
DeepSeeks Vorschau-Release beschreibt V4-Pro als ein Modell mit 1.6T gesamt / 49B aktive Parameter und V4-Flash als 284B gesamt / 13B aktive Parameter. In derselben Ankündigung sagt DeepSeek, dass V4-Pro Open-Source-SOTA-Ergebnisse in agentischen Coding-Benchmarks liefert, bei Weltwissen unter den offenen Modellen führt (außer Gemini 3.1 Pro) und aktuelle offene Modelle in Mathematik, MINT und Coding schlägt, während es mit Top-Closed-Modellen konkurriert. V4-Flash nähert sich der Reasoning-Qualität von V4-Pro an und erreicht bei einfachen Agent-Aufgaben Gleichstand, bleibt dabei aber kleiner, schneller und günstiger im Betrieb.
V4-Pro verbessert sich gegenüber V3.2-Base bei mehreren repräsentativen Aufgaben, darunter MMLU-Pro, FACTS Parametric, HumanEval und LongBench-V2. Das macht das Release besonders relevant für Teams, die Langkontext-Assistenten, codeintensive Workflows und wissensintensive Apps bauen.
Benchmark-Tabelle: V3.2 vs V4-Flash vs V4-Pro
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
Was die Zahlen in der Praxis bedeuten
Wenn Sie einen Chatbot bauen, mag die Benchmark-Differenz abstrakt wirken. Wenn Sie jedoch einen Coding-Assistenten auf Repository-Ebene, ein Vertragsanalyse-Tool oder einen internen Agenten entwickeln, der eine lange Aufgabe über mehrere Tool-Aufrufe hinweg im Blick behalten muss, wird das Benchmark-Profil sehr konkret. Höhere Langkontext-Scores können sich in weniger verlorenen Details, besserem cross-dokumentarem Reasoning und weniger „Bitte wiederholen“-Fehlern innerhalb eines realen Workflows niederschlagen. Genau deshalb betont DeepSeeks Release Langkontext-Effizienz und Agent-Verhalten statt bloßer Chat-Qualität.
So verwenden Sie die DeepSeek V4 API
So denken Sie am einfachsten über die Integration nach:
DeepSeek V4 nutzt dieselbe API-Oberfläche wie frühere DeepSeek-Chatmodelle – Sie wechseln lediglich zum neuen V4-Modellnamen, behalten die Basis-URL bei und entscheiden sich für V4-Pro oder V4-Flash. CometAPI bestätigt außerdem die Unterstützung sowohl für OpenAI- als auch für Anthropic-kompatible Interfaces.
Schritt 1 — API-Zugang erhalten
Die Einstiegsdokumentation von DeepSeek sagt, dass Sie einen API-Schlüssel von der DeepSeek-Plattform benötigen, bevor Sie das Modell aufrufen können. Die offizielle Doku zeigt den Chat-Endpunkt, das Bearer-Token-Muster und die aktuellen V4-Modellnamen.
Schritt 2 — Basis-URL und Modellname festlegen
Für die offizielle DeepSeek-API sind die dokumentierten Basis-URLs:
Die Modellnamen sind deepseek-v4-flash und deepseek-v4-pro. DeepSeek weist außerdem darauf hin, dass deepseek-chat und deepseek-reasoner Legacy-Namen sind, die während der Übergangsphase auf V4-Flash-Verhalten abbilden und am 2026-07-24 eingestellt werden.
Schritt 3 — Ihre erste Anfrage senden
Eine minimale OpenAI-kompatible Anfrage sieht so aus:
curl https://api.deepseek.com/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $DEEPSEEK_API_KEY" \ -d '{ "model": "deepseek-v4-pro", "messages": [ {"role": "system", "content": "Sie sind ein hilfsbereiter Assistent."}, {"role": "user", "content": "Erklären Sie den Unterschied zwischen V4-Pro und V4-Flash."} ], "stream": false }'
Die offizielle Doku von DeepSeek zeigt dasselbe Anfrage-Muster und bestätigt, dass Streaming durch Setzen von stream auf true aktiviert werden kann.
Schritt 4 — Thinking-Modus, Tool-Calls und Streaming aktivieren
V4-Modelle unterstützen Thinking-/Non-Thinking-Modi, JSON-Ausgabe, Tool-Calls und Chat-Prefix-Completion. Die Modelle unterstützen außerdem bis zu 1M Kontext und eine maximale Ausgabe von 384K Token.
Ein praktisches Python-Beispiel:
from openai import OpenAIclient = OpenAI(
base_url="https://api.cometapi.com",
api_key="YOUR_DEEPSEEK_API_KEY",
)response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "Sie sind ein erfahrener Coding-Assistent."},
{"role": "user", "content": "Überprüfen Sie diese Architektur auf Engpässe."}
],
stream=False,
extra_body={
"thinking": {"type": "enabled"},
"reasoning_effort": "high"
}
)print(response.choices[0].message.content)
Dieses Muster spiegelt die dokumentierte Unterstützung von DeepSeek für Reasoning-Kontrollen und den Thinking-Modus wider.
Schritt 5 — Testen und produktiv setzen
Bevor Sie in die Produktion gehen, prüfen Sie drei Dinge:
- Ob Ihr Workload tatsächlich vom größeren Kontextfenster profitiert.
- Ob das Modell standardmäßig denken soll oder im Non-Thinking-Modus schnell antworten soll.
- Ob Tool-Calling für den Workflow wesentlich ist, insbesondere für Agenten und Coding-Assistenten.
V4 ist für Agent-Use-Cases ausgelegt und integriert sich bereits mit Tools wie Claude Code und OpenCode.
DeepSeek V4-Pro vs V4-Flash vs V3.2
Für die meisten Teams lautet die richtige Frage nicht „Welches Modell ist das beste?“, sondern „Welches Modell ist für diesen Workload am besten?“. Die Antwort hängt von Latenz, Kosten, Reasoning-Tiefe und Kontextlänge ab. DeepSeeks Release positioniert V4-Pro als Flaggschiff für hartes Reasoning und agentisches Coding, während V4-Flash die effiziente Wahl für High-Throughput-Workloads ist, die dennoch starkes Langkontextverhalten benötigen. V3.2 bleibt die ältere Basis für Vergleich und Migrationsplanung.
| Modell | Am besten für | Stärken | Trade-off |
|---|---|---|---|
| DeepSeek V4-Pro | Hartes Reasoning, Coding, Agenten, Research | Größte Gesamtkapazität in V4; am besten für harte Tasks | Höhere Kosten und größerer Compute-Footprint |
| DeepSeek V4-Flash | Schnelle Assistenten, Langdokument-Workflows, Durchsatz | Schnellere Antworten; wirtschaftlich; unterstützt 1M Kontext | Etwas schwächer bei den härtesten wissensintensiven Tasks |
| DeepSeek V3.2 | Basisvergleiche, Übergangspläne | Nützlich als Referenzpunkt | Ältere Generation; nicht der Zielzustand für neue Builds |
Dies ist die praktische Perspektive, die ich Produktteams empfehlen würde:
Wenn der Workflow unternehmenskritisch ist, starten Sie mit V4-Pro.
Wenn der Workflow volumengetrieben und latenzsensitiv ist, starten Sie mit V4-Flash.
Wenn Sie ein bestehendes System migrieren, verwenden Sie V3.2 als Benchmark-Referenz, nicht als Endziel.
Wo DeepSeek V4 am besten passt
Coding-Assistenten
DeepSeeks Release verweist ausdrücklich auf agentische Coding-Performance und Integration mit Tools wie Claude Code und OpenCode. Das macht V4 besonders attraktiv für Code-Review-Copilots, Refactoring-Assistenten auf Repo-Skala und entwicklerorientierte Agenten, die sich einen langen Aufgaben-Zustand über mehrere Runden hinweg merken müssen.
Analyse langer Dokumente
Das 1M-Token-Kontextfenster ist das Headline-Feature, aber der eigentliche Gewinn ist, was es ermöglicht: Lange Verträge, Due-Diligence-Pakete, Incident-Logs, Support-Wikis und interne Wissensbasen können verarbeitet werden, ohne alles in winzige Chunks zu zerschneiden. DeepSeeks Doku rahmt das Release ausdrücklich über ultra-hohe Langkontext-Effizienz und reduzierte Rechen-/Speicherkosten.
Agentische Workflows
Wenn Ihr Produkt Tool-Calls, mehrstufige Planung oder verkettete Aktionen nutzt, ist V4 interessanter als ein generisches Chat-Modell. DeepSeek sagt, dass beide V4-Varianten Tool-Calls und Thinking-Modi unterstützen, und die Vorschau erwähnt, dass V4 für Agent-Fähigkeiten optimiert wurde.
Such-, Research- und Support-Systeme
Teams, die suchintensive Research-Tools oder Kundensupport-Systeme bauen, benötigen oft sowohl Recall als auch Struktur. DeepSeeks dokumentierte Unterstützung für JSON-Ausgabe und lange Ausgabelängen macht V4 zu einer glaubwürdigen Wahl für diese Systeme, insbesondere wenn die User Experience auf stabilen, strukturierten Antworten statt kurzen Konversations-Replies beruht.
Best Practices für die Nutzung der DeepSeek-V4-API in der Produktion
Erstens: Wählen Sie das Modell nach Workload statt aus Gewohnheit. Verwenden Sie V4-Flash für das Parsen langer Dokumente, Assistenten mit hohem Durchsatz und schnelle Agent-Loops. Verwenden Sie V4-Pro, wenn die Aufgabe von härterem Reasoning, reichhaltigerem Wissen oder verlässlicherer Performance bei komplexen Coding- und Research-Workflows abhängt. DeepSeeks eigene Vorschau-Hinweise und Third-Party-Modellseiten deuten beide in diese Richtung.
Zweitens: Gestalten Sie Ihre Architektur rund um das 1M-Token-Kontextfenster, aber nehmen Sie nicht an, dass mehr Kontext stets bessere Antworten liefert. Großer Kontext ist wertvoll für Verträge, Codebasen, Research-Pakete und Support-Wissensbasen; er profitiert dennoch von gutem Retrieval, sinnvollem Chunking und diszipliniertem Zusammenfassen. DeepSeek rahmt V4 ausdrücklich über Langkontext-Effizienz und sagt, dass 1M Kontext über die offiziellen Services der Standard ist.
Drittens: Halten Sie Ihre Prompts strukturiert. Da V4 JSON-Ausgabe und Tool-Calls unterstützt, ist es ein guter Kandidat für Workflows wie Extraktion, Klassifizierung, Dokumenttriage, Agent-Routing und Codeunterstützung. Das sind die Bereiche, in denen ein Modell mit langem Kontext und explizitem Reasoning am meisten glänzt.
Viertens: Überwachen Sie den Migrationszeitpunkt genau. Wenn Ihr Stack noch deepseek-chat oder deepseek-reasoner aufruft, planen Sie den Upgrade-Pfad jetzt. DeepSeek gibt an, dass diese Legacy-Namen am 2026-07-24 eingestellt werden und derzeit aus Kompatibilitätsgründen auf V4-Flash-Modi abbilden.
Häufige Fehler, die es zu vermeiden gilt
V4 wie ein generisches Chat-Modell behandeln
Der häufigste Fehler ist, DeepSeek V4 wie einen normalen Q&A-Bot zu behandeln und dort stehenzubleiben. Das verschenkt Performance. Das Release dreht sich ausdrücklich um Reasoning, Coding, Tools und Langkontext-Nutzung. Wenn Sie diese Fähigkeiten nicht nutzen, bezahlen Sie im Wesentlichen für ungenutzten Headroom.
Kontextgrenzen und Reasoning-Modi ignorieren
Ein weiterer Fehler ist anzunehmen, „1M-Kontext“ bedeute, Sie könnten Prompt-Design ignorieren. Sie brauchen weiterhin saubere Struktur, Relevanzfilterung und eine vernünftige Memory-Strategie. DeepSeek unterstützt Thinking- und Non-Thinking-Modi, daher sollte Ihre App bewusst entscheiden, wann Token für tieferes Reasoning ausgegeben werden und wann schnell geantwortet wird.
Zu spät von Legacy-Modelnamen migrieren
DeepSeek hat bereits angekündigt, dass deepseek-chat und deepseek-reasoner am 2026-07-24 eingestellt werden. Wenn Ihr Produkt diese Namen noch hartkodiert, ist die Migrationsschuld nicht mehr theoretisch – sie hat ein Datum.
Tool-Calls, JSON-Ausgabe und agentische Workflows
DeepSeek-V4 unterstützt Tool-Calls und JSON-Ausgabe und eignet sich damit für strukturierte Automatisierung statt nur für einfachen Chat. Tool-Call-Nutzung ist sowohl im Non-Thinking- als auch im Thinking-Modus möglich, was bedeutet, dass das Modell überlegen, ein Tool aufrufen und die Antwort anschließend mit den neuen Informationen fortsetzen kann.
Für agentische Workflows ist ein Detail besonders wichtig: Wenn ein Thinking-Turn Tool-Calls enthält, muss der reasoning_content in nachfolgenden Requests vollständig zurückgegeben werden. Das ist ein produktionsrelevantes Implementierungsdetail und keine Fußnote, weil Agentensysteme oft scheitern, wenn sie den intermediären Reasoning-Status kürzen oder falsch behandeln.
Fazit
DeepSeek V4 ist ein bedeutendes Upgrade für Teams, denen an Langkontext-Reasoning, Coding-Unterstützung und agentischen Workflows liegt. Das offizielle Release unterstreicht die Einführung mit Substanz: zwei Modellvarianten, OpenAI- und Anthropic-Kompatibilität, 1M Kontext, Tool-Call-Unterstützung und ein klarer Migrationspfad von älteren DeepSeek-Modellnamen.
Wenn Ihr Use Case komplex, latenzsensitiv oder auf mehrstufiges Reasoning ausgerichtet ist, ist V4-Pro das zuerst zu testende Modell. Wenn Ihre Priorität Geschwindigkeit, Durchsatz und Kostendisziplin ist, ist V4-Flash der bessere Ausgangspunkt. Und wenn Sie schneller über mehrere Modellanbieter hinweg liefern möchten, ohne Integrationschaos zu erzeugen, ist CometAPI als praktische Schicht für Zugriff, Observability und Modellportabilität positioniert.
