Can DeepSeek-V4-Pro handle 1M-token documents in the API?

Yes. DeepSeek-V4-Pro with a 1M-token context length and up to 384K output tokens, so it is built for very long documents and multi-file workflows.

Does DeepSeek-V4-Pro support thinking mode and tool calls?

Yes. DeepSeek-V4-Pro supports both thinking and non-thinking modes, plus JSON output and tool calls.

When should I use DeepSeek-V4-Pro instead of DeepSeek-V4-Flash?

Use DeepSeek-V4-Pro when accuracy and agentic coding matter more than speed. DeepSeek says V4-Flash is the faster, more economical option, while V4-Pro is stronger on coding and broader agent evaluations.

Is DeepSeek-V4-Pro good for coding agents like Claude Code or OpenCode?

Yes. DeepSeek-V4-Pro configured for Claude Code and OpenCode, with `reasoningEffort` set to `max` and thinking enabled.

How do I integrate DeepSeek-V4-Pro with OpenAI-compatible SDKs?

Use the CometAPI base URL `https://api.cometapi.com` with the model name `deepseek-v4-pro`

Is DeepSeek-V4-Pro suitable for search-heavy research workflows?

Yes. V4-Pro performs strongly on search and retrieval-style tasks, and it outperforms DeepSeek-V3.2 by a substantial margin in both objective and subjective Q&A categories.

API de DeepSeek V4 Pro Asequible | text-to-text

Especificaciones técnicas

Elemento	DeepSeek-V4-Pro
Proveedor	DeepSeek
Nombre del modelo de la API	deepseek-v4-pro
URLs base	https://api.deepseek.com y https://api.deepseek.com/anthropic
Tipo de entrada	Texto
Tipo de salida	Texto, llamadas a herramientas, salida de razonamiento
Longitud de contexto	1,000,000 tokens
Salida máxima	384,000 tokens
Modos de razonamiento	Non-thinking, thinking (predeterminado)
Predeterminados de agente/codificación	reasoning_effort se puede establecer en high; las solicitudes de agente complejas pueden usar max
Funciones compatibles	Salida JSON, Llamadas a herramientas, Autocompletado de prefijo de chat (beta), FIM Completion (beta en modo non-thinking)
Lanzamiento local/pesos abiertos	1.6T parámetros totales, 49B parámetros activados, precisión mixta FP4 + FP8
Licencia (ficha del modelo)	MIT
Ficha del modelo de referencia	Vista previa de DeepSeek-V4-Pro en Hugging Face

¿Qué es DeepSeek-V4-Pro?

DeepSeek-V4-Pro es el miembro más sólido de la familia de vista previa V4 de DeepSeek. La ficha oficial del modelo lo describe como un modelo MoE de 1.6T parámetros con 49B parámetros activados y una ventana de contexto de un millón de tokens, orientado a trabajos de conocimiento de largo plazo, generación de código y tareas de agentes. Las API lo exponen a través de la superficie estándar de chat-completions de DeepSeek y admiten estilos de SDK tanto de OpenAI como de Anthropic.

Características principales

Contexto de un millón de tokens: DeepSeek documenta una longitud de contexto de 1M tokens, lo que hace que el modelo sea adecuado para conjuntos de documentos muy grandes, repositorios y sesiones de agentes de múltiples pasos.
Dos modos de razonamiento: La API admite modos non-thinking y thinking; thinking es el predeterminado, y la documentación indica que solicitudes de agentes complejas como Claude Code u OpenCode pueden usar automáticamente el esfuerzo max.
Compatible con llamadas a herramientas: El modo thinking de la API admite llamadas a herramientas, lo cual es importante para agentes que necesitan búsqueda, operaciones sobre archivos o funciones externas.
Eficiencia en contexto largo: La ficha del modelo indica que V4 usa un diseño de atención híbrida con Compressed Sparse Attention y Heavily Compressed Attention para reducir el cómputo de contexto largo y el costo del caché KV respecto a V3.2. citeturn980363view2
Enfoque en codificación y razonamiento: DeepSeek afirma que el modo de razonamiento V4-Pro-Max mejora los benchmarks de codificación y cierra gran parte de la brecha con los principales modelos de código cerrado en razonamiento y tareas agénticas. citeturn980363view2
Flexibilidad del SDK: Se puede acceder a través de chat completions compatible con OpenAI o mediante el endpoint compatible con Anthropic de DeepSeek para flujos de trabajo orientados a herramientas.

Rendimiento en benchmarks

La ficha oficial del modelo DeepSeek informa los siguientes resultados de evaluación para la familia de modelos base y para el conjunto de comparación V4-Pro-Max. En la tabla de modelos base, V4-Pro puntúa más alto que V3.2-Base en varios benchmarks de conocimiento y contexto largo, incluidos MMLU-Pro (73.5 vs. 65.5), FACTS Parametric (62.6 vs. 27.1) y LongBench-V2 (51.5 vs. 40.2).

Benchmark	V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU-Pro (EM)	65.5	68.3	73.5
FACTS Parametric (EM)	27.1	33.9	62.6
HumanEval (Pass@1)	62.8	69.5	76.8
LongBench-V2 (EM)	40.2	44.7	51.5

La misma ficha del modelo también muestra que V4-Pro-Max se mantiene competitivo con los modelos de vanguardia en tareas seleccionadas. Por ejemplo, registra 87.5 en MMLU-Pro, 57.9 en SimpleQA-Verified, 90.1 en GPQA Diamond y 67.9 en Terminal Bench 2.0 en la tabla comparativa publicada.

DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2

Modelo	Mejor ajuste	Contexto	Notas
DeepSeek-V4-Pro	Razonamiento intensivo, codificación, agentes, documentos grandes	1M	El modelo más grande de V4, 49B parámetros activados, mayor capacidad general de la serie. citeturn980363view2turn980363view0
DeepSeek-V4-Flash	Uso general más rápido y ligero	1M	Modelo más pequeño de 284B/13B, aún admite thinking y llamadas a herramientas. citeturn980363view2turn980363view0
DeepSeek-V3.2	Línea base de contexto largo de la generación anterior	128K en documentación de API anterior; V4 usa un diseño de contexto de 1M	Útil como punto de referencia para las mejoras de eficiencia; la ficha de V4-Pro informa grandes reducciones en FLOPs de contexto largo y caché KV frente a V3.2. citeturn321011view1turn980363view2

Mejores casos de uso

Asistentes de codificación a escala de repositorios y herramientas de refactorización
Análisis y síntesis de documentos extensos
Agentes que usan herramientas y necesitan razonamiento multi-turno
Flujos de soporte técnico que se benefician de memoria larga y salidas estructuradas
Tareas de conocimiento en chino y multilingües donde la ficha del modelo muestra un sólido rendimiento en benchmarks

Cómo acceder y usar la API Deepseek v4 pro

Paso 1: Regístrese para obtener una clave de API

Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su CometAPI console. Obtenga la clave de API de credenciales de acceso de la interfaz. Haga clic en “Add Token” en el token de API del centro personal, obtenga la clave del token: sk-xxxxx y envíela.

Paso 2: Enviar solicitudes a Deepseek v4 proAPI

Seleccione el endpoint “deepseek-v4-pro” para enviar la solicitud de API y configure el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen en la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece pruebas en Apifox para su conveniencia. Reemplace <YOUR_API_KEY> con su clave real de CometAPI de su cuenta. Dónde llamarlo: formato de Anthropic Messages y formato de Chat.

Inserte su pregunta o solicitud en el campo content; esto es a lo que responderá el modelo. Procese la respuesta de la API para obtener la respuesta generada.

Paso 3: Recuperar y verificar los resultados

Procese la respuesta de la API para obtener la respuesta generada. Después del procesamiento, la API responde con el estado de la tarea y los datos de salida. Habilite funciones como streaming, almacenamiento en caché de prompts o manejo de contexto largo mediante parámetros estándar.

Precios para DeepSeek V4 Pro

Explora precios competitivos para DeepSeek V4 Pro, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo DeepSeek V4 Pro puede mejorar tus proyectos mientras mantienes los costos manejables.

Precio de Comet (USD / M Tokens)	Precio Oficial (USD / M Tokens)	Descuento
Entrada:$0.416/M Salida:$0.832/M	Entrada:$0.52/M Salida:$1.04/M	-20%

Código de ejemplo y API para DeepSeek V4 Pro

Accede a código de muestra completo y recursos de API para DeepSeek V4 Pro para agilizar tu proceso de integración. Nuestra documentación detallada proporciona orientación paso a paso, ayudándote a aprovechar todo el potencial de DeepSeek V4 Pro en tus proyectos.

Python
JavaScript
Curl

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Which number is greater, 9.11 or 9.8? Answer with one sentence."},
    ],
    stream=True,
    max_tokens=256,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

thinking = False
for chunk in stream:
    delta = chunk.choices[0].delta
    reasoning = (delta.model_extra or {}).get("reasoning_content") or ""
    content = delta.content or ""

    if reasoning:
        if not thinking:
            print("<reasoning>")
            thinking = True
        print(reasoning, end="", flush=True)

    if content:
        if thinking:
            print("
</reasoning>

<answer>")
            thinking = False
        print(content, end="", flush=True)

print()

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Which number is greater, 9.11 or 9.8? Answer with one sentence."},
    ],
    stream=True,
    max_tokens=256,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

thinking = False
for chunk in stream:
    delta = chunk.choices[0].delta
    reasoning = (delta.model_extra or {}).get("reasoning_content") or ""
    content = delta.content or ""

    if reasoning:
        if not thinking:
            print("<reasoning>")
            thinking = True
        print(reasoning, end="", flush=True)

    if content:
        if thinking:
            print("\n</reasoning>\n\n<answer>")
            thinking = False
        print(content, end="", flush=True)

print()

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const stream = await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Which number is greater, 9.11 or 9.8? Answer with one sentence." },
  ],
  thinking: { type: "enabled" },
  reasoning_effort: "high",
  max_tokens: 256,
  stream: true,
});

let thinking = false;
for await (const chunk of stream) {
  const delta = chunk.choices[0]?.delta ?? {};
  const reasoning = delta.reasoning_content ?? "";
  const content = delta.content ?? "";

  if (reasoning) {
    if (!thinking) {
      process.stdout.write("<reasoning>\n");
      thinking = true;
    }
    process.stdout.write(reasoning);
  }

  if (content) {
    if (thinking) {
      process.stdout.write("\n</reasoning>\n\n<answer>\n");
      thinking = false;
    }
    process.stdout.write(content);
  }
}

process.stdout.write("\n");

Curl Code Example

#!/usr/bin/env bash
# Get your CometAPI key from https://www.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

if ! command -v jq >/dev/null 2>&1; then
  echo "jq is required to parse streamed reasoning_content in this shell example." >&2
  exit 1
fi

thinking=false

curl --silent --no-buffer --location --request POST "https://api.cometapi.com/v1/chat/completions" \
  --header "Authorization: Bearer $COMETAPI_KEY" \
  --header "Content-Type: application/json" \
  --data-raw '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Which number is greater, 9.11 or 9.8? Answer with one sentence."}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "high",
    "max_tokens": 256,
    "stream": true
  }' | while IFS= read -r line; do
    case "$line" in
      data:\ *) data=${line#data: } ;;
      *) continue ;;
    esac

    [ "$data" = "[DONE]" ] && break

    reasoning=$(printf '%s' "$data" | jq -r '.choices[0].delta.reasoning_content // empty')
    content=$(printf '%s' "$data" | jq -r '.choices[0].delta.content // empty')

    if [ -n "$reasoning" ]; then
      if [ "$thinking" = false ]; then
        printf '<reasoning>\n'
        thinking=true
      fi
      printf '%s' "$reasoning"
    fi

    if [ -n "$content" ]; then
      if [ "$thinking" = true ]; then
        printf '\n</reasoning>\n\n<answer>\n'
        thinking=false
      fi
      printf '%s' "$content"
    fi
  done

printf '\n'

Versiones de DeepSeek V4 Pro

La razón por la cual DeepSeek V4 Pro tiene múltiples instantáneas puede incluir factores potenciales como variaciones en la salida tras actualizaciones que requieren instantáneas anteriores para mantener la coherencia, ofrecer a los desarrolladores un período de transición para adaptación y migración, y diferentes instantáneas que corresponden a endpoints globales o regionales para optimizar la experiencia del usuario. Para conocer las diferencias detalladas entre versiones, consulte la documentación oficial.

version
deepseek-v4-pro