Especificaciones técnicas
| Elemento | DeepSeek-V4-Pro |
|---|---|
| Proveedor | DeepSeek |
| Nombre del modelo de la API | deepseek-v4-pro |
| URLs base | https://api.deepseek.com y https://api.deepseek.com/anthropic |
| Tipo de entrada | Texto |
| Tipo de salida | Texto, llamadas a herramientas, salida de razonamiento |
| Longitud de contexto | 1,000,000 tokens |
| Salida máxima | 384,000 tokens |
| Modos de razonamiento | Non-thinking, thinking (predeterminado) |
| Predeterminados de agente/codificación | reasoning_effort se puede establecer en high; las solicitudes de agente complejas pueden usar max |
| Funciones compatibles | Salida JSON, Llamadas a herramientas, Autocompletado de prefijo de chat (beta), FIM Completion (beta en modo non-thinking) |
| Lanzamiento local/pesos abiertos | 1.6T parámetros totales, 49B parámetros activados, precisión mixta FP4 + FP8 |
| Licencia (ficha del modelo) | MIT |
| Ficha del modelo de referencia | Vista previa de DeepSeek-V4-Pro en Hugging Face |
¿Qué es DeepSeek-V4-Pro?
DeepSeek-V4-Pro es el miembro más sólido de la familia de vista previa V4 de DeepSeek. La ficha oficial del modelo lo describe como un modelo MoE de 1.6T parámetros con 49B parámetros activados y una ventana de contexto de un millón de tokens, orientado a trabajos de conocimiento de largo plazo, generación de código y tareas de agentes. Las API lo exponen a través de la superficie estándar de chat-completions de DeepSeek y admiten estilos de SDK tanto de OpenAI como de Anthropic.
Características principales
- Contexto de un millón de tokens: DeepSeek documenta una longitud de contexto de 1M tokens, lo que hace que el modelo sea adecuado para conjuntos de documentos muy grandes, repositorios y sesiones de agentes de múltiples pasos.
- Dos modos de razonamiento: La API admite modos non-thinking y thinking; thinking es el predeterminado, y la documentación indica que solicitudes de agentes complejas como Claude Code u OpenCode pueden usar automáticamente el esfuerzo
max. - Compatible con llamadas a herramientas: El modo thinking de la API admite llamadas a herramientas, lo cual es importante para agentes que necesitan búsqueda, operaciones sobre archivos o funciones externas.
- Eficiencia en contexto largo: La ficha del modelo indica que V4 usa un diseño de atención híbrida con Compressed Sparse Attention y Heavily Compressed Attention para reducir el cómputo de contexto largo y el costo del caché KV respecto a V3.2. citeturn980363view2
- Enfoque en codificación y razonamiento: DeepSeek afirma que el modo de razonamiento V4-Pro-Max mejora los benchmarks de codificación y cierra gran parte de la brecha con los principales modelos de código cerrado en razonamiento y tareas agénticas. citeturn980363view2
- Flexibilidad del SDK: Se puede acceder a través de chat completions compatible con OpenAI o mediante el endpoint compatible con Anthropic de DeepSeek para flujos de trabajo orientados a herramientas.
Rendimiento en benchmarks
La ficha oficial del modelo DeepSeek informa los siguientes resultados de evaluación para la familia de modelos base y para el conjunto de comparación V4-Pro-Max. En la tabla de modelos base, V4-Pro puntúa más alto que V3.2-Base en varios benchmarks de conocimiento y contexto largo, incluidos MMLU-Pro (73.5 vs. 65.5), FACTS Parametric (62.6 vs. 27.1) y LongBench-V2 (51.5 vs. 40.2).
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
La misma ficha del modelo también muestra que V4-Pro-Max se mantiene competitivo con los modelos de vanguardia en tareas seleccionadas. Por ejemplo, registra 87.5 en MMLU-Pro, 57.9 en SimpleQA-Verified, 90.1 en GPQA Diamond y 67.9 en Terminal Bench 2.0 en la tabla comparativa publicada.
DeepSeek-V4-Pro vs DeepSeek-V4-Flash vs DeepSeek-V3.2
| Modelo | Mejor ajuste | Contexto | Notas |
|---|---|---|---|
| DeepSeek-V4-Pro | Razonamiento intensivo, codificación, agentes, documentos grandes | 1M | El modelo más grande de V4, 49B parámetros activados, mayor capacidad general de la serie. citeturn980363view2turn980363view0 |
| DeepSeek-V4-Flash | Uso general más rápido y ligero | 1M | Modelo más pequeño de 284B/13B, aún admite thinking y llamadas a herramientas. citeturn980363view2turn980363view0 |
| DeepSeek-V3.2 | Línea base de contexto largo de la generación anterior | 128K en documentación de API anterior; V4 usa un diseño de contexto de 1M | Útil como punto de referencia para las mejoras de eficiencia; la ficha de V4-Pro informa grandes reducciones en FLOPs de contexto largo y caché KV frente a V3.2. citeturn321011view1turn980363view2 |
Mejores casos de uso
- Asistentes de codificación a escala de repositorios y herramientas de refactorización
- Análisis y síntesis de documentos extensos
- Agentes que usan herramientas y necesitan razonamiento multi-turno
- Flujos de soporte técnico que se benefician de memoria larga y salidas estructuradas
- Tareas de conocimiento en chino y multilingües donde la ficha del modelo muestra un sólido rendimiento en benchmarks
Cómo acceder y usar la API Deepseek v4 pro
Paso 1: Regístrese para obtener una clave de API
Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero. Inicie sesión en su CometAPI console. Obtenga la clave de API de credenciales de acceso de la interfaz. Haga clic en “Add Token” en el token de API del centro personal, obtenga la clave del token: sk-xxxxx y envíela.
Paso 2: Enviar solicitudes a Deepseek v4 proAPI
Seleccione el endpoint “deepseek-v4-pro” para enviar la solicitud de API y configure el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen en la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece pruebas en Apifox para su conveniencia. Reemplace <YOUR_API_KEY> con su clave real de CometAPI de su cuenta. Dónde llamarlo: formato de Anthropic Messages y formato de Chat.
Inserte su pregunta o solicitud en el campo content; esto es a lo que responderá el modelo. Procese la respuesta de la API para obtener la respuesta generada.
Paso 3: Recuperar y verificar los resultados
Procese la respuesta de la API para obtener la respuesta generada. Después del procesamiento, la API responde con el estado de la tarea y los datos de salida. Habilite funciones como streaming, almacenamiento en caché de prompts o manejo de contexto largo mediante parámetros estándar.