Especificaciones técnicas de DeepSeek-V4-Flash
| Elemento | Detalles |
|---|---|
| Modelo | DeepSeek-V4-Flash |
| Proveedor | DeepSeek |
| Familia | DeepSeek-V4 preview series |
| Arquitectura | Mixture-of-Experts (MoE) |
| Parámetros totales | 284B |
| Parámetros activados | 13B |
| Longitud de contexto | 1,000,000 tokens |
| Precisión | FP4 + FP8 mixed |
| Modos de razonamiento | Non-think, Think, Think Max |
| Estado de publicación | Modelo preliminar |
| Licencia | Licencia MIT |
¿Qué es DeepSeek-V4-Flash?
DeepSeek-V4-Flash es el modelo preliminar de DeepSeek centrado en la eficiencia dentro de la serie V4. Está construido como un modelo de lenguaje Mixture-of-Experts con una huella activa relativamente pequeña para su tamaño, lo que le ayuda a mantenerse ágil y, aun así, soportar una ventana de contexto muy grande de 1M de tokens.
Características principales de DeepSeek-V4-Flash
- Contexto de un millón de tokens: El modelo admite una ventana de contexto de 1,000,000 tokens, lo que lo hace adecuado para documentos muy largos, grandes bases de código y sesiones de agentes con múltiples pasos.
- Diseño MoE orientado a la eficiencia: Utiliza 284B de parámetros totales pero solo 13B de parámetros activados por solicitud, una configuración orientada a una inferencia más rápida y eficiente.
- Tres modos de razonamiento: Non-think, Think y Think Max permiten intercambiar velocidad por razonamiento más profundo cuando la tarea se complica.
- Arquitectura sólida para contextos largos: DeepSeek afirma que la serie V4 combina Compressed Sparse Attention y Heavily Compressed Attention para mejorar la eficiencia en contextos largos.
- Programación y comportamiento de agentes competitivos: La ficha del modelo reporta resultados sólidos en benchmarks de programación y de agentes, incluidos HumanEval, SWE Verified, Terminal Bench 2.0 y BrowseComp.
- Pesos abiertos y despliegue local: La publicación incluye los pesos del modelo, guías para inferencia local y una Licencia MIT, lo que hace viable el autoalojamiento y la experimentación.
Rendimiento en pruebas comparativas de DeepSeek-V4-Flash
Resultados seleccionados de la ficha oficial del modelo muestran que DeepSeek-V4-Flash mejora con respecto a DeepSeek-V3.2-Base en varios benchmarks clave:
| Benchmark | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|
| AGIEval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 65.5 | 68.3 | 73.5 |
| HumanEval (Pass@1) | 62.8 | 69.5 | 76.8 |
| LongBench-V2 (EM) | 40.2 | 44.7 | 51.5 |
En la tabla de razonamiento y agentes, la variante Flash también presenta resultados sólidos en tareas de terminal y software, con Flash Max alcanzando 56.9 en Terminal Bench 2.0 y 79.0 en SWE Verified, si bien aún queda por detrás del modelo Pro más grande en las tareas más difíciles, intensivas en conocimiento y de agentes.
DeepSeek-V4-Flash vs DeepSeek-V4-Pro vs DeepSeek-V3.2
| Modelo | Mejor para | Compromiso |
|---|---|---|
| DeepSeek-V4-Flash | Trabajo rápido con contextos largos, asistentes de programación y flujos de agentes de alto rendimiento | Ligeramente por detrás de Pro en conocimiento puro y en las tareas de agentes más complejas |
| DeepSeek-V4-Pro | Tareas de máxima capacidad, razonamiento más profundo y flujos de trabajo de agentes más difíciles | Más pesado y menos orientado a la eficiencia que Flash |
| DeepSeek-V3.2 | Antiguo punto de referencia para comparación y planificación de migración | Rendimiento de benchmark inferior a V4-Flash en las tablas oficiales |
Casos de uso típicos de DeepSeek-V4-Flash
- Análisis de documentos largos para contratos, paquetes de investigación, bases de conocimiento de soporte y wikis internas.
- Asistentes de programación que necesitan inspeccionar grandes repositorios, seguir instrucciones a través de muchos archivos y mantener el contexto.
- Flujos de trabajo con agentes donde el modelo necesita razonar, llamar herramientas e iterar sin perder el hilo.
- Sistemas de chat empresariales que se benefician de una ventana de contexto muy grande y un despliegue de baja fricción.
- Despliegues locales de prototipo para equipos que quieran evaluar el comportamiento de DeepSeek-V4 antes del endurecimiento para producción.
Cómo acceder y usar Deepseek v4 Flash API
Paso 1: Regístrate para obtener la clave de API
Inicia sesión en cometapi.com. Si aún no eres usuario, regístrate primero. Accede a tu CometAPI console. Obtén la clave de API de acceso a la interfaz. Haz clic en “Add Token” en el token de API del centro personal, obtén la clave del token: sk-xxxxx y envíala.
Paso 2: Envía solicitudes a deepseek v4 flash API
Selecciona el endpoint “deepseek-v4-flash” para enviar la solicitud de API y define el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API en nuestro sitio web. Nuestro sitio web también ofrece pruebas con Apifox para tu comodidad. Sustituye <YOUR_API_KEY> por tu clave real de CometAPI de tu cuenta. Dónde llamarlo: formato Anthropic Messages y formato Chat.
Inserta tu pregunta o solicitud en el campo content —es a lo que responderá el modelo—. Procesa la respuesta de la API para obtener la respuesta generada.
Paso 3: Recuperar y verificar resultados
Procesa la respuesta de la API para obtener la respuesta generada. Tras el procesamiento, la API responde con el estado de la tarea y los datos de salida. Habilita funciones como streaming, almacenamiento en caché de prompts o manejo de contextos largos mediante parámetros estándar.