¿Qué es DeepSeek v3.2?
DeepSeek v3.2 es la última versión de producción de la familia DeepSeek V3: una familia de modelos de lenguaje open-weight, centrada en el razonamiento, diseñada para la comprensión de contexto largo, uso sólido de agentes/herramientas, razonamiento avanzado, programación y matemáticas. La versión incluye múltiples variantes (la V3.2 de producción y una V3.2-Speciale de alto rendimiento). El proyecto pone énfasis en una inferencia de contexto largo rentable mediante un nuevo mecanismo de atención dispersa llamado DeepSeek Sparse Attention (DSA) y en flujos de trabajo de agentes / “pensamiento” (“Thinking in Tool-Use”).
Características principales (alto nivel)
- DeepSeek Sparse Attention (DSA): un mecanismo de atención dispersa diseñado para reducir drásticamente el cómputo en escenarios de contexto largo mientras preserva el razonamiento de largo alcance. (Afirmación central de investigación; usado en
V3.2-Exp.) - Pensamiento agéntico + integración de uso de herramientas: V3.2 enfatiza incorporar el “pensamiento” en el uso de herramientas: el modelo puede operar en modos de razonamiento/pensamiento y en modos sin pensamiento (normales) al llamar herramientas, mejorando la toma de decisiones en tareas de múltiples pasos y la orquestación de herramientas.
- Canalización de síntesis de datos agénticos a gran escala: DeepSeek informa de un corpus de entrenamiento y una canalización de síntesis de agentes que abarca miles de entornos y decenas de miles de instrucciones complejas para mejorar la robustez en tareas interactivas.
- DeepSeek Sparse Attention (DSA): DSA es un método de atención dispersa de grano fino introducido en la línea V3.2 (primero en V3.2-Exp) que reduce la complejidad de la atención (de la O(L²) ingenua a un estilo O(L·k), con k ≪ L), seleccionando un conjunto más pequeño de tokens key/value por token de consulta. El resultado es un uso sustancialmente menor de memoria/cómputo para contextos muy largos (128K), haciendo que la inferencia con contexto largo sea materialmente más barata.
- Arquitectura Mixture-of-Experts (MoE) y Multi-head Latent Attention (MLA): la familia V3 usa MoE para aumentar la capacidad de forma eficiente (grandes cantidades nominales de parámetros con activación limitada por token), junto con métodos MLA para mantener la calidad y controlar el cómputo.
Especificaciones técnicas (tabla concisa)
- Rango nominal de parámetros: ~671B – 685B (según la variante).
- Ventana de contexto (referencia documentada): 128,000 tokens (128K) en configuraciones de vLLM/referencia.
- Atención: DeepSeek Sparse Attention (DSA) + MLA; complejidad de atención reducida para contextos largos.
- Precisión numérica y de entrenamiento: BF16 / F32 y formatos cuantizados comprimidos (F8_E4M3, etc.) disponibles para distribución.
- Familia arquitectónica: columna vertebral MoE (mixture-of-experts) con economía de activación por token.
- Entrada / salida: entrada de texto tokenizado estándar (se admiten formatos de chat/mensajes); admite tool-calls (primitivas de API de uso de herramientas) y tanto llamadas interactivas de estilo chat como completions programáticas mediante API.
- Variantes ofrecidas:
v3.2,v3.2-Exp(experimental, debut de DSA),v3.2-Speciale(centrada en razonamiento, solo API a corto plazo).
Rendimiento en benchmarks
La variante de alto cómputo V3.2-Speciale alcanza la paridad o supera a modelos contemporáneos de gama alta en varios benchmarks de razonamiento/matemáticas/programación, y logra puntuaciones de primer nivel en conjuntos seleccionados de problemas matemáticos de élite. El preprint destaca la paridad con modelos como GPT-5 / Kimi K2 en benchmarks seleccionados de razonamiento, así como mejoras específicas frente a bases anteriores DeepSeek R1/V3:
- AIME: mejoró de 70.0 a 87.5 (Δ +17.5).
- GPQA: 71.5 → 81.0 (Δ +9.5).
- LCB_v6: 63.5 → 73.3 (Δ +9.8).
- Aider: 57.0 → 71.6 (Δ +14.6).
Comparación con otros modelos (alto nivel)
- Frente a GPT-5 / Gemini 3 Pro (afirmaciones públicas): los autores de DeepSeek y varios medios afirman paridad o superioridad en tareas seleccionadas de razonamiento y programación para la variante Speciale, al tiempo que destacan la eficiencia de costos y la licencia abierta como factores diferenciadores.
- Frente a modelos abiertos (Olmo, Nemotron, Moonshot, etc.): DeepSeek destaca el entrenamiento agéntico y DSA como diferenciadores clave para la eficiencia en contexto largo.
Casos de uso representativos
- Sistemas agénticos / orquestación: agentes con múltiples herramientas (APIs, web scrapers, conectores de ejecución de código) que se benefician del “pensamiento” a nivel de modelo + primitivas explícitas de llamada a herramientas.
- Razonamiento / análisis de documentos largos: documentos legales, grandes corpus de investigación, transcripciones de reuniones — las variantes de contexto largo (128k tokens) permiten mantener contextos muy grandes en una sola llamada.
- Asistencia compleja en matemáticas y programación:
V3.2-Specialese promociona para razonamiento matemático avanzado y tareas extensas de depuración de código según los benchmarks del proveedor. - Despliegues de producción sensibles al costo: DSA + cambios de precios apuntan a reducir los costos de inferencia para cargas de trabajo con alto contexto.
Cómo empezar a usar la API de DeepSeek v3.2
Precio de la API de DeepSeek v3.2 en CometAPI, 20% de descuento sobre el precio oficial:
| Input Tokens | $0.22 |
|---|---|
| Output Tokens | $0.35 |
Pasos requeridos
- Inicie sesión en cometapi.com. Si aún no es nuestro usuario, regístrese primero
- Obtenga la credencial de acceso API key de la interfaz. Haga clic en “Add Token” en la sección de API token del centro personal, obtenga la token key: sk-xxxxx y envíela.
- Obtenga la url de este sitio: https://api.cometapi.com/
Método de uso
- Seleccione el endpoint “
deepseek-v3.2” para enviar la solicitud de API y configure el cuerpo de la solicitud. El método de solicitud y el cuerpo de la solicitud se obtienen de la documentación API de nuestro sitio web. Nuestro sitio web también proporciona pruebas con Apifox para su comodidad. - Sustituya <YOUR_API_KEY> por su clave real de CometAPI de su cuenta.
- Seleccione el formato Chat: inserte su pregunta o solicitud en el campo content; esto es a lo que responderá el modelo.
- Procese la respuesta de la API para obtener la respuesta generada.