Cómo usar la API de Deepseek V4

CometAPI
AnnaApr 24, 2026
Cómo usar la API de Deepseek V4

DeepSeek V4 ya no es solo un rumor ni un adelanto. A 24 de abril de 2026, la documentación oficial de DeepSeek dice que la vista previa de V4 está activa, de código abierto y disponible en la API, con dos variantes: DeepSeek-V4-Pro y DeepSeek-V4-Flash. El lanzamiento oficial destaca una ventana de contexto de 1M tokens, modos de razonamiento duales y compatibilidad de API con los formatos OpenAI ChatCompletions y Anthropic. DeepSeek también afirma que los nombres de modelos heredados deepseek-chat y deepseek-reasoner se retirarán el 24 de julio de 2026.

Para los desarrolladores, esa combinación importa por una razón simple: reduce la fricción de migración a la vez que eleva el techo de lo que puedes construir. No estás aprendiendo una forma de API totalmente nueva. Estás actualizando el nombre del modelo, manteniendo la URL base y desplegando contra una ventana de contexto más grande con un comportamiento de razonamiento más reciente. La documentación oficial de DeepSeek indica explícitamente mantener la URL base y cambiar el parámetro de modelo a deepseek-v4-pro o deepseek-v4-flash.

A nivel de producto, V4-Pro es el modelo más fuerte para codificación agéntica, conocimiento del mundo y razonamiento difícil, mientras que V4-Flash es la opción más rápida y económica que aún rinde bien en tareas de agente más simples. CometAPI proporciona acceso a ambos modelos a un costo muy bajo.

Benchmarks de rendimiento de DeepSeek V4

La versión de vista previa de DeepSeek describe V4-Pro como un modelo de 1.6T total / 49B parámetros activos y V4-Flash como un modelo de 284B total / 13B parámetros activos. En el mismo anuncio, DeepSeek afirma que V4-Pro ofrece resultados SOTA de código abierto en benchmarks de codificación agéntica, lidera a los modelos abiertos actuales en conocimiento del mundo salvo Gemini 3.1 Pro, y supera a los modelos abiertos actuales en matemáticas, STEM y programación, a la vez que rivaliza con los mejores modelos cerrados. Mientras tanto, V4-Flash se describe como cercano a la calidad de razonamiento de V4-Pro y equivalente en tareas de agente simples, manteniéndose más pequeño, rápido y barato de ejecutar.

V4-Pro mejora respecto a V3.2-Base en varias tareas representativas, incluidas MMLU-Pro, FACTS Parametric, HumanEval y LongBench-V2. Eso hace que el lanzamiento sea especialmente relevante para equipos que construyen asistentes de largo contexto, flujos de trabajo intensivos en código y aplicaciones con gran demanda de conocimiento.

Tabla de benchmarks: V3.2 vs V4-Flash vs V4-Pro

BenchmarkV3.2-BaseV4-Flash-BaseV4-Pro-Base
AGIEval (EM)80.182.683.1
MMLU (EM)87.888.790.1
MMLU-Pro (EM)65.568.373.5
HumanEval (Pass@1)62.869.576.8
LongBench-V2 (EM)40.244.751.5

Qué significan los números en la práctica

Si estás construyendo un chatbot, el delta de benchmark puede parecer abstracto. Si estás creando un asistente de programación a escala de repositorio, una herramienta de análisis de contratos o un agente interno que debe mantener el control de una tarea larga a través de múltiples llamadas a herramientas, el perfil de benchmarks se vuelve muy concreto. Puntuaciones más altas en largo contexto pueden traducirse en menos detalles perdidos, mejor razonamiento entre documentos y menos fallos de “por favor, repite eso” dentro de un flujo real. Precisamente por eso el lanzamiento de DeepSeek enfatiza la eficiencia en largo contexto y el comportamiento de agente en lugar de solo la calidad de chat en bruto.

Cómo usar la API de DeepSeek V4

Esta es la forma más simple de pensar en la integración:

DeepSeek V4 utiliza la misma superficie de API que los modelos de chat anteriores de DeepSeek, pero cambias al nuevo nombre de modelo V4, mantienes la URL base y decides si quieres V4-Pro o V4-Flash. CometAPI también confirma soporte tanto para interfaces al estilo OpenAI como al estilo Anthropic.

Paso 1 — Obtén acceso a la API

La documentación de primera llamada de DeepSeek dice que necesitas una clave de API de la plataforma DeepSeek antes de poder invocar el modelo. La documentación oficial muestra el endpoint de chat, el patrón de token Bearer y los nombres de modelos V4 actuales.

Paso 2 — Configura la URL base y el nombre del modelo

Para la API oficial de DeepSeek, las URLs base documentadas son:

Los nombres de modelo son deepseek-v4-flash y deepseek-v4-pro. DeepSeek también señala que deepseek-chat y deepseek-reasoner son nombres heredados que mapean al comportamiento de V4-Flash durante el período de transición y se retirarán el 2026-07-24.

Paso 3 — Envía tu primera solicitud

Una solicitud mínima compatible con OpenAI se ve así:

curl https://api.deepseek.com/chat/completions \  -H "Content-Type: application/json" \  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \  -d '{    "model": "deepseek-v4-pro",    "messages": [      {"role": "system", "content": "You are a helpful assistant."},      {"role": "user", "content": "Explain the difference between V4-Pro and V4-Flash."}    ],    "stream": false  }'

La documentación oficial de DeepSeek muestra el mismo patrón de solicitud y confirma que el streaming se puede habilitar configurando stream en true.

Paso 4 — Habilita el modo de pensamiento, las llamadas a herramientas y el streaming

Los modelos V4 admiten modos de pensamiento/sin pensamiento, salida JSON, llamadas a herramientas y chat prefix completion. Los modelos también admiten hasta 1M de contexto y una salida máxima de 384K tokens.

Un ejemplo práctico en Python:

from openai import OpenAIclient = OpenAI(
    base_url="https://api.cometapi.com",
    api_key="YOUR_DEEPSEEK_API_KEY",
)response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a senior coding assistant."},
        {"role": "user", "content": "Review this architecture for bottlenecks."}
    ],
    stream=False,
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high"
    }
)print(response.choices[0].message.content)

Ese patrón refleja el soporte documentado de DeepSeek para controles de razonamiento y modo de pensamiento.

Paso 5 — Prueba y llévalo a producción

Antes de mover esto a producción, valida tres cosas:

  1. Si tu carga realmente se beneficia de la ventana de contexto más grande.
  2. Si el modelo debe pensar por defecto o responder rápido en modo sin pensamiento.
  3. Si la llamada a herramientas es esencial para el flujo, especialmente para agentes y asistentes de programación.

V4 está diseñado para casos de uso de agentes y ya se integra con herramientas como Claude Code y OpenCode.

DeepSeek V4-Pro vs V4-Flash vs V3.2

Para la mayoría de los equipos, la pregunta correcta no es “¿Qué modelo es el mejor?” sino “¿Qué modelo es el mejor para esta carga de trabajo?”. La respuesta depende de la latencia, el costo, la profundidad de razonamiento y la longitud del contexto. El lanzamiento de DeepSeek posiciona a V4-Pro como el buque insignia para razonamiento difícil y codificación agéntica, mientras que V4-Flash es la elección eficiente para cargas de alto rendimiento que aún necesitan un fuerte comportamiento de largo contexto. V3.2 sigue siendo la línea base más antigua para comparación y planes de migración.

ModeloMejor paraFortalezasCompensación
DeepSeek V4-ProRazonamiento pesado, programación, agentes, investigaciónCapacidad general más fuerte en V4; mejor para tareas difícilesMayor costo y huella de cómputo más pesada
DeepSeek V4-FlashAsistentes rápidos, flujos con documentos largos, alto rendimientoRespuestas más rápidas; económico; sigue admitiendo 1M de contextoLigeramente más débil en las tareas más difíciles con mucho conocimiento
DeepSeek V3.2Comparaciones de línea base, planes de transiciónÚtil como punto de referenciaGeneración anterior; no es el estado objetivo para nuevos desarrollos

Este es el prisma práctico que usaría para equipos de producto:
Si el flujo de trabajo es crítico para el negocio, empieza con V4-Pro.
Si el flujo de trabajo es volumétrico y sensible a la latencia, empieza con V4-Flash.
Si estás migrando un sistema existente, usa V3.2 como referencia de benchmark, no como destino final.

Dónde encaja mejor DeepSeek V4

Asistentes de programación

El lanzamiento de DeepSeek destaca específicamente el rendimiento en codificación agéntica y la integración con herramientas como Claude Code y OpenCode. Eso hace que V4 sea especialmente atractivo para copilotos de revisión de código, asistentes de refactorización a escala de repositorio y agentes orientados a desarrolladores que necesitan recordar el estado de una tarea larga a lo largo de múltiples turnos.

Análisis de documentos largos

La ventana de contexto de 1M tokens es la característica principal, pero la verdadera ganancia es lo que desbloquea: contratos largos, paquetes de due diligence, registros de incidentes, wikis de soporte y bases de conocimiento internas pueden procesarse sin fragmentarlo todo en pequeños trozos. La documentación de DeepSeek enmarca explícitamente el lanzamiento en torno a la eficiencia de ultra alto contexto y la reducción del costo de cómputo/memoria.

Flujos de trabajo agénticos

Si tu producto usa llamadas a herramientas, planificación en varios pasos o acciones encadenadas, V4 es más interesante que un modelo de chat genérico. DeepSeek dice que ambas variantes de V4 admiten llamadas a herramientas y modos de pensamiento, y la vista previa afirma que V4 fue optimizado para capacidad de agente.

Sistemas de búsqueda, investigación y soporte

Los equipos que construyen herramientas de investigación intensivas en búsqueda o sistemas de soporte al cliente a menudo necesitan tanto recuperación como estructura. El soporte documentado de DeepSeek para salida JSON y longitudes de salida largas convierte a V4 en un candidato creíble para esos sistemas, especialmente cuando la experiencia de usuario depende de respuestas estables y estructuradas en lugar de réplicas conversacionales cortas.

Buenas prácticas para usar la API de DeepSeek-V4 en producción

Primero, elige el modelo por carga de trabajo y no por costumbre. Usa V4-Flash para análisis de documentos largos, asistentes de alto rendimiento y bucles de agente rápidos. Usa V4-Pro cuando la tarea dependa de un razonamiento más difícil, conocimiento más rico o un rendimiento más confiable en flujos complejos de programación e investigación. Las notas de vista previa de DeepSeek y páginas de terceros apuntan en esa dirección.

Segundo, diseña alrededor de la ventana de contexto de 1M tokens, pero no asumas que más contexto siempre significa mejores respuestas. El gran contexto es valioso para contratos, bases de código, paquetes de investigación y bases de conocimiento de soporte, pero aún se beneficia de una buena recuperación, fragmentación y disciplina de resumen. DeepSeek enmarca explícitamente V4 alrededor de la eficiencia en largo contexto y dice que el contexto de 1M es el valor por defecto en sus servicios oficiales.

Tercero, mantén tu prompting estructurado. Como V4 admite salida JSON y llamadas a herramientas, es un buen candidato para flujos como extracción, clasificación, triaje de documentos, enrutamiento de agentes y asistencia de código. Estas son las áreas donde un modelo con largo contexto y razonamiento explícito tiende a brillar más.

Cuarto, monitorea cuidadosamente el momento de la migración. Si tu stack aún invoca deepseek-chat o deepseek-reasoner, planifica la ruta de actualización ahora. DeepSeek indica que estos nombres heredados se retirarán el 24 de julio de 2026 y que actualmente mapean a modos V4-Flash por compatibilidad.

Errores comunes que se deben evitar

Tratar V4 como un modelo de chat genérico

El error más común es tratar DeepSeek V4 como un bot de preguntas y respuestas normal y quedarse ahí. Eso deja rendimiento sobre la mesa. El lanzamiento trata explícitamente de razonamiento, programación, herramientas y uso en largo contexto. Si no aprovechas esas capacidades, básicamente estás pagando por un margen que no explotas.

Ignorar los límites de contexto y los modos de razonamiento

Otro error es asumir que “1M de contexto” significa que puedes ignorar el diseño del prompt. Sigues necesitando estructura limpia, filtrado por relevancia y una estrategia de memoria sensata. DeepSeek admite modos con y sin pensamiento, así que tu aplicación debe decidir deliberadamente cuándo gastar tokens en razonamiento más profundo y cuándo responder rápido.

Migrar demasiado tarde desde los nombres de modelos heredados

DeepSeek ya ha anunciado que deepseek-chat y deepseek-reasoner se retirarán el 2026-07-24. Si tu producto aún codifica esos nombres, la deuda de migración ya no es teórica. Es una fecha en el calendario.

Llamadas a herramientas, salida JSON y flujos de trabajo agénticos

DeepSeek-V4 admite llamadas a herramientas y salida JSON, lo que lo hace adecuado para automatización estructurada más allá del chat simple; admite el uso de llamadas a herramientas tanto en modo sin pensamiento como en modo de pensamiento, lo que significa que el modelo puede razonar, llamar a una herramienta y luego continuar la respuesta con la información nueva.

Para flujos de trabajo agénticos, un detalle es especialmente importante: cuando un turno con pensamiento incluye llamadas a herramientas, el reasoning_content debe transmitirse íntegramente en las solicitudes posteriores. Ese es un detalle de implementación de nivel producción, no una nota menor, porque los sistemas de agentes a menudo fallan cuando truncan o manejan mal el estado de razonamiento intermedio.

Conclusión

DeepSeek V4 es una mejora significativa para equipos que se preocupan por razonamiento de largo contexto, asistencia de programación y flujos de trabajo agénticos. El lanzamiento oficial respalda de forma concreta esta versión: dos variantes de modelo, compatibilidad con OpenAI y Anthropic, 1M de contexto, soporte de llamadas a herramientas y una ruta de migración clara desde nombres de modelos antiguos de DeepSeek.

Si tu caso de uso es complejo, sensible a la latencia o se basa en razonamiento en múltiples pasos, V4-Pro es el modelo que debes probar primero. Si tu prioridad es la velocidad, el rendimiento y la disciplina de costos, V4-Flash es el mejor punto de partida. Y si quieres desplegar más rápido en múltiples proveedores de modelos sin añadir caos de integración, CometAPI está posicionado como una capa práctica para acceso, observabilidad y portabilidad entre modelos.

¿Listo para reducir los costos de desarrollo de IA en un 20%?

Comienza gratis en minutos. Créditos de prueba gratuitos incluidos. No se requiere tarjeta de crédito.

Leer Más