ModellePreiseUnternehmen
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Unternehmen
Über unsUnternehmen
Ressourcen
KI-ModelleBlogÄnderungsprotokollSupport
NutzungsbedingungenDatenschutzrichtlinie
© 2026 CometAPI · All rights reserved
Home/Models/DeepSeek/DeepSeek V4 Flash
D

DeepSeek V4 Flash

Eingabe:$0.24/M
Ausgabe:$0.48/M
DeepSeek V4 Flash ist ein effizienzoptimiertes Mixture-of-Experts-Modell von DeepSeek mit 284B Gesamtparametern und 13B aktivierten Parametern und unterstützt ein 1M-Token-Kontextfenster. Es ist für schnelle Inferenz und Workloads mit hohem Durchsatz ausgelegt, wobei es zugleich eine starke Leistung beim Schlussfolgern und Programmieren beibehält.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API

Technische Spezifikationen von DeepSeek-V4-Flash

EintragDetails
ModelDeepSeek-V4-Flash
ProviderDeepSeek
FamilyDeepSeek-V4 Vorschau-Serie
ArchitectureMixture-of-Experts (MoE)
Total parameters284B
Activated parameters13B
Context length1,000,000 tokens
PrecisionFP4 + FP8 mixed
Reasoning modesNon-think, Think, Think Max
Release statusPreview model
LicenseMIT License

Was ist DeepSeek-V4-Flash?

DeepSeek-V4-Flash ist DeepSeeks effizienzfokussiertes Vorschau-Modell in der V4-Serie. Es ist als Mixture-of-Experts-Sprachmodell aufgebaut und verfügt im Verhältnis zu seiner Größe über einen relativ kleinen aktiven Footprint, wodurch es reaktionsschnell bleibt und gleichzeitig ein sehr großes 1M-token-Kontextfenster unterstützt.

Hauptfunktionen von DeepSeek-V4-Flash

  • Million-token-Kontext: Das Modell unterstützt ein 1,000,000-token-Kontextfenster und eignet sich damit für sehr lange Dokumente, große Codebasen und mehrstufige Agentensitzungen.
  • Effizienzorientiertes MoE-Design: Es nutzt 284B Gesamtparameter, aber nur 13B aktivierte Parameter pro Anfrage – eine Konfiguration, die auf schnellere und effizientere Inferenz abzielt.
  • Drei Reasoning-Modi: Non-think, Think und Think Max ermöglichen es, bei schwierigeren Aufgaben Geschwindigkeit gegen tiefere Reasoning-Fähigkeiten zu tauschen.
  • Starke Langkontext-Architektur: DeepSeek gibt an, dass die V4-Serie Compressed Sparse Attention und Heavily Compressed Attention kombiniert, um die Effizienz bei langen Kontexten zu verbessern.
  • Wettbewerbsfähiges Coding und agentisches Verhalten: Die Model Card weist starke Ergebnisse auf Coding- und agentischen Benchmarks aus, darunter HumanEval, SWE Verified, Terminal Bench 2.0 und BrowseComp.
  • Offene Gewichte und lokale Bereitstellung: Die Veröffentlichung umfasst Modellgewichte, Leitfäden für lokale Inferenz und eine MIT License, was Self-Hosting und Experimente praktikabel macht.

Benchmark-Leistung von DeepSeek-V4-Flash

Ausgewählte Ergebnisse aus der offiziellen Model Card zeigen, dass DeepSeek-V4-Flash bei mehreren zentralen Benchmarks gegenüber DeepSeek-V3.2-Base zulegt:

BenchmarkDeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
AGIEval (EM)80.182.683.1
MMLU (EM)87.888.790.1
MMLU-Pro (EM)65.568.373.5
HumanEval (Pass@1)62.869.576.8
LongBench-V2 (EM)40.244.751.5

In der Reasoning-und-Agent-Tabelle erzielt die Flash-Variante ebenfalls solide Ergebnisse bei Terminal- und Software-Aufgaben: Flash Max erreicht 56.9 auf Terminal Bench 2.0 und 79.0 auf SWE Verified, liegt jedoch bei den schwierigsten wissensintensiven und agentischen Aufgaben weiterhin hinter dem größeren Pro-Modell.

DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2

ModellAm besten geeignetAbwägung
DeepSeek-V4-FlashSchnelle Langkontext-Aufgaben, Coding-Assistenten und Agent-Flows mit hohem DurchsatzBei reinem Wissen und den komplexesten agentischen Aufgaben leicht hinter Pro
DeepSeek-V4-ProAufgaben mit höchsten Anforderungen, tieferes Reasoning und anspruchsvollere Agent-WorkflowsSchwerer und weniger auf Effizienz ausgerichtet als Flash
DeepSeek-V3.2Ältere Basis zum Vergleich und zur MigrationsplanungNiedrigere Benchmark-Leistung als V4-Flash in den offiziellen Tabellen

Typische Anwendungsfälle für DeepSeek-V4-Flash

  1. Analyse langer Dokumente für Verträge, Recherche-Pakete, Support-Wissensbasen und interne Wikis.
  2. Coding-Assistenten, die große Repos inspizieren, Anweisungen über viele Dateien hinweg befolgen und den Kontext aufrechterhalten müssen.
  3. Agent-Workflows, in denen das Modell denken, Tools aufrufen und iterieren muss, ohne den roten Faden zu verlieren.
  4. Enterprise-Chat-Systeme, die von einem sehr großen Kontextfenster und einer reibungsarmen Bereitstellung profitieren.
  5. Prototypische lokale Deployments für Teams, die das Verhalten von DeepSeek-V4 vor der Härtung für die Produktion evaluieren möchten.

Zugriff und Nutzung der Deepseek v4 Flash API

Schritt 1: Für API-Schlüssel registrieren

Melden Sie sich bei cometapi.com an. Falls Sie noch kein Benutzer sind, registrieren Sie sich bitte zuerst. Melden Sie sich in Ihrer CometAPI console an. Holen Sie sich den Zugangs-API-Schlüssel der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf “Add Token”, erhalten Sie den Token-Schlüssel: sk-xxxxx und senden Sie ab.

Schritt 2: Anfragen an die deepseek v4 flash API senden

Wählen Sie den Endpunkt “deepseek-v4-flash”, um die API-Anfrage zu senden, und legen Sie den Request-Body fest. Die Request-Methode und der Request-Body sind unserer Website-API-Dokumentation zu entnehmen. Unsere Website stellt zudem einen Apifox Test für Ihre Bequemlichkeit bereit. Ersetzen Sie <YOUR_API_KEY> durch Ihren tatsächlichen CometAPI-Schlüssel aus Ihrem Konto. Wo aufrufen: Anthropic Messages-Format und Chat-Format.

Fügen Sie Ihre Frage oder Anforderung in das content-Feld ein — darauf wird das Modell antworten. Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

Schritt 3: Ergebnisse abrufen und verifizieren

Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten. Nach der Verarbeitung antwortet die API mit dem Aufgabenstatus und den Ausgabedaten. Aktivieren Sie Funktionen wie Streaming, Prompt-Caching oder Langkontext-Handling über Standardparameter.

FAQ

Can DeepSeek-V4-Flash API handle 1M-token prompts?

Ja. DeepSeek-V4-Flash verfügt über eine 1M-Token-Kontextlänge und ist daher für sehr lange Prompts, Dokumente und Codebasen ausgelegt.

Does DeepSeek-V4-Flash API support thinking mode and non-thinking mode?

Ja. DeepSeek-V4-Flash unterstützt sowohl den Non-Thinking- als auch den Thinking-Modus; Thinking ist standardmäßig aktiviert.

Does DeepSeek-V4-Flash API support JSON output and tool calls?

Ja. DeepSeek führt sowohl JSON Output als auch Tool Calls als unterstützte Funktionen für DeepSeek-V4-Flash auf.

When should I use DeepSeek-V4-Flash API instead of DeepSeek-V4-Pro?

Verwenden Sie V4-Flash, wenn Sie das Kontextfenster und die Agent-Funktionen der V4-Serie wünschen, aber nicht das größere Pro-Modell benötigen. Der offizielle Bericht zeigt, dass V4-Pro bei mehreren wissensintensiven Benchmarks stärker ist; Pro ist daher die bessere Wahl für maximale Leistungsfähigkeit.

How do I integrate DeepSeek-V4-Flash API with OpenAI SDKs via CometAPI?

Verwenden Sie die OpenAI-kompatible Basis-URL https://api.cometapi.com und setzen Sie das Modell auf deepseek-v4-flash. DeepSeek dokumentiert außerdem einen Anthropic-kompatiblen Endpunkt, sodass Sie gängige OpenAI-/Anthropic-SDK-Muster mit derselben API-Oberfläche wiederverwenden können.

Is DeepSeek-V4-Flash API suitable for coding agents like Claude Code or OpenCode?

Ja, und die V4-Familie ist für dieselbe agentenorientierte API-Oberfläche und Reasoning-Steuerungen ausgelegt.

What are DeepSeek-V4-Flash API's known limitations?

Sie ist kleiner als DeepSeek-V4-Pro und liegt daher bei einigen wissensintensiven sowie komplexen agentenbasierten Aufgaben hinter Pro zurück. DeepSeek bezeichnet die V4-Serie außerdem als Vorabveröffentlichung, daher sollten Teams sie mit ihren eigenen Workloads testen.

Funktionen für DeepSeek V4 Flash

Entdecken Sie die wichtigsten Funktionen von DeepSeek V4 Flash, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für DeepSeek V4 Flash

Entdecken Sie wettbewerbsfähige Preise für DeepSeek V4 Flash, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie DeepSeek V4 Flash Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$0.24/M
Ausgabe:$0.48/M
Eingabe:$0.3/M
Ausgabe:$0.6/M
-20%

Beispielcode und API für DeepSeek V4 Flash

Greifen Sie auf umfassende Beispielcodes und API-Ressourcen für DeepSeek V4 Flash zu, um Ihren Integrationsprozess zu optimieren. Unsere detaillierte Dokumentation bietet schrittweise Anleitungen und hilft Ihnen dabei, das volle Potenzial von DeepSeek V4 Flash in Ihren Projekten zu nutzen.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
    },
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
  thinking: { type: "enabled" },
  reasoning_effort: "high",
  stream: false,
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "Hello!"
      }
    ],
    "thinking": {
      "type": "enabled"
    },
    "reasoning_effort": "high",
    "stream": false
  }'

Weitere Modelle

C

Claude Opus 4.7

Eingabe:$3/M
Ausgabe:$15/M
Das intelligenteste Modell für Agenten und Programmierung
A

Claude Sonnet 4.6

Eingabe:$2.4/M
Ausgabe:$12/M
Claude Sonnet 4.6 ist unser bisher leistungsfähigstes Sonnet-Modell. Es ist ein umfassendes Upgrade der Fähigkeiten des Modells in den Bereichen Programmierung, Computernutzung, Schlussfolgern mit langem Kontext, Agentenplanung, Wissensarbeit und Design. Sonnet 4.6 bietet außerdem ein 1M-Token-Kontextfenster in Beta.
O

GPT-5.4 nano

Eingabe:$0.16/M
Ausgabe:$1/M
GPT-5.4 nano ist für Aufgaben konzipiert, bei denen Geschwindigkeit und Kosten am wichtigsten sind, wie Klassifizierung, Datenextraktion, Ranking und Sub-Agenten.
O

GPT-5.4 mini

Eingabe:$0.6/M
Ausgabe:$3.6/M
GPT-5.4 mini bringt die Stärken von GPT-5.4 in ein schnelleres, effizienteres Modell, das für hochvolumige Workloads konzipiert ist.
X

MiMo-V2.5-Pro

Demnächst verfügbar
Eingabe:$60/M
Ausgabe:$240/M
MiMo-V2.5-Pro ist Xiaomis Flaggschiffmodell und zeichnet sich durch herausragende Allzweck-Agentenfähigkeiten und komplexes Software-Engineering aus.
X

MiMo-V2.5

Demnächst verfügbar
Eingabe:$60/M
Ausgabe:$240/M
MiMo‑V2.5 ist Xiaomis natives Vollmodal‑Modell. Es erreicht Agentenleistung in professioneller Qualität bei etwa der Hälfte der Inferenzkosten und übertrifft MiMo‑V2‑Omni bei der multimodalen Wahrnehmung in Aufgaben des Bild‑ und Videoverstehens.