DeepSeek-V3.2

DeepSeek
deepseek-v3.2
Entrada:$0.22/M
Salida:$0.35/M
Contexto:128K
Salida Máxima:4K
DeepSeek v3.2 es la versión de producción más reciente de la familia DeepSeek V3: una familia de modelos de lenguaje grandes, de pesos abiertos y centrada en el razonamiento, diseñada para la comprensión de contextos largos, el uso robusto de agentes/herramientas, el razonamiento avanzado, la programación y las matemáticas.

¿Qué es DeepSeek v3.2?

DeepSeek v3.2 es la última versión de producción de la familia DeepSeek V3: una familia de modelos de lenguaje de pesos abiertos, orientada primero al razonamiento, diseñada para la comprensión de contextos largos, uso robusto de agentes/herramientas, razonamiento avanzado, programación y matemáticas. La versión agrupa múltiples variantes (V3.2 de producción y una V3.2-Speciale de alto rendimiento). El proyecto enfatiza la inferencia de contexto largo rentable mediante un nuevo mecanismo de atención dispersa llamado DeepSeek Sparse Attention (DSA) y flujos de trabajo de agentes/“pensamiento” (“Thinking in Tool-Use”).

Características principales (alto nivel)

  • DeepSeek Sparse Attention (DSA): un mecanismo de atención dispersa destinado a reducir drásticamente el cómputo en escenarios de contexto largo, preservando el razonamiento de largo alcance. (Afirmación central de investigación; utilizado en V3.2-Exp.)
  • Pensamiento agentivo + integración con uso de herramientas: V3.2 enfatiza integrar el “pensamiento” en el uso de herramientas: el modelo puede operar en modos de razonamiento/pensamiento y en modos sin pensamiento (normales) al invocar herramientas, mejorando la toma de decisiones en tareas de varios pasos y la orquestación de herramientas.
  • Canalización de síntesis de datos de agentes a gran escala: DeepSeek informa un corpus de entrenamiento y una canalización de síntesis de agentes que abarcan miles de entornos y decenas de miles de instrucciones complejas para mejorar la robustez en tareas interactivas.
  • DeepSeek Sparse Attention (DSA): DSA es un método de atención dispersa de grano fino introducido en la línea V3.2 (primero en V3.2-Exp) que reduce la complejidad de la atención (del O(L²) ingenuo a un estilo O(L·k) con k ≪ L), seleccionando un conjunto más pequeño de tokens clave/valor por token de consulta. El resultado es una reducción sustancial de memoria/cómputo para contextos muy largos (128K), haciendo que la inferencia de contexto largo sea materialmente más barata.
  • Arquitectura base Mixture-of-Experts (MoE) y Multi-head Latent Attention (MLA): la familia V3 utiliza MoE para aumentar la capacidad de forma eficiente (recuentos nominales de parámetros grandes con activación por token limitada) junto con métodos MLA para mantener la calidad y controlar el cómputo.

Especificaciones técnicas (resumen conciso)

  • Rango nominal de parámetros: ~671B – 685B (dependiente de la variante).
  • Ventana de contexto (referencia documentada): 128,000 tokens (128K) en configuraciones de referencia de vLLM.
  • Atención: DeepSeek Sparse Attention (DSA) + MLA; complejidad de atención reducida para contextos largos.
  • Precisión numérica y de entrenamiento: BF16 / F32 y formatos cuantizados comprimidos (F8_E4M3, etc.) disponibles para distribución.
  • Familia arquitectónica: MoE (mixture-of-experts) como base, con economía de activación por token.
  • Entrada/salida: entrada estándar de texto tokenizado (se admiten formatos de chat/mensaje); admite llamadas a herramientas (primitivas de API para uso de herramientas) y tanto llamadas interactivas estilo chat como finalizaciones programáticas vía API.
  • Variantes ofrecidas: v3.2, v3.2-Exp (experimental, debut de DSA), v3.2-Speciale (prioridad al razonamiento, solo API a corto plazo).

Rendimiento en benchmarks

La variante de alto cómputo V3.2-Speciale alcanza la paridad o supera a modelos contemporáneos de gama alta en varios benchmarks de razonamiento/matemáticas/código, y logra calificaciones de primer nivel en conjuntos de problemas matemáticos de élite seleccionados. El preprint destaca paridad con modelos como GPT-5 / Kimi K2 en determinados benchmarks de razonamiento, con mejoras específicas frente a las líneas base DeepSeek R1/V3 anteriores:

  • AIME: de 70.0 a 87.5 (Δ +17.5).
  • GPQA: 71.5 → 81.0 (Δ +9.5).
  • LCB_v6: 63.5 → 73.3 (Δ +9.8).
  • Aider: 57.0 → 71.6 (Δ +14.6).

Comparación con otros modelos (alto nivel)

  • Frente a GPT-5 / Gemini 3 Pro (afirmaciones públicas): los autores de DeepSeek y diversos medios afirman paridad o superioridad en tareas seleccionadas de razonamiento y codificación para la variante Speciale, al tiempo que destacan la eficiencia en costos y la licencia abierta como diferenciadores.
  • Frente a modelos abiertos (Olmo, Nemotron, Moonshot, etc.): DeepSeek destaca el entrenamiento orientado a agentes y DSA como diferenciadores clave para la eficiencia en contextos largos.

Casos de uso representativos

  • Sistemas agentivos / orquestación: agentes con múltiples herramientas (APIs, rastreadores web, conectores de ejecución de código) que se benefician del “pensamiento” a nivel de modelo + primitivas explícitas de llamadas a herramientas.
  • Razonamiento/análisis de documentos largos: documentos legales, grandes corpus de investigación, transcripciones de reuniones; las variantes de contexto largo (128k tokens) permiten mantener contextos muy grandes en una sola llamada.
  • Asistencia en matemáticas complejas y programación: V3.2-Speciale se promociona para razonamiento matemático avanzado y tareas extensas de depuración de código según los benchmarks del proveedor.
  • Despliegues de producción sensibles al costo: DSA + cambios de precios buscan reducir los costes de inferencia para cargas de trabajo con alto contexto.

Cómo empezar a usar la API de DeepSeek v3.2

Precios de la API de DeepSeek v3.2 en CometAPI, 20% de descuento sobre el precio oficial:

Tokens de entrada$0.22
Tokens de salida$0.35

Pasos necesarios

  • Inicie sesión en cometapi.com. Si aún no es usuario, regístrese primero
  • Obtenga la clave de API de credenciales de acceso de la interfaz. Haga clic en “Add Token” en el token de API en el centro personal, obtenga la clave del token: sk-xxxxx y envíela.
  • Obtenga la URL de este sitio: https://api.cometapi.com/

Método de uso

  1. Seleccione el endpoint “deepseek-v3.2” para enviar la solicitud de API y establezca el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio también proporciona pruebas en Apifox para su comodidad.
  2. Reemplace <YOUR_API_KEY> por su clave real de CometAPI de su cuenta.
  3. Seleccione Chat como formato: inserte su pregunta o solicitud en el campo content; esto es lo que el modelo responderá.
  4. .Procese la respuesta de la API para obtener la respuesta generada.

Más modelos