DeepSeek-V3.1: Características, arquitectura y puntos de referencia

En agosto de 2025, la startup china de inteligencia artificial DeepSeek anunció el lanzamiento de DeepSeek-V3.1, una actualización de mitad de generación que la compañía presenta como su primer paso hacia la era de los agentes. Esta actualización incorpora un modo de inferencia híbrido (un modelo único que puede ejecutarse en modo "pensante" o "no pensante"), una ventana de contexto considerablemente más amplia y mejoras específicas posteriores al entrenamiento en la llamada a herramientas y el comportamiento de los agentes en varios pasos.

¿Qué es DeepSeek-V3.1 y por qué es importante?

DeepSeek-V3.1 es la última actualización de producción de la serie V3 de DeepSeek. A grandes rasgos, se trata de una familia de modelos de lenguaje MoE híbridos (el linaje V3) que DeepSeek ha entrenado y ampliado para admitir dos modos de funcionamiento visibles para el usuario. Encontrará dos variantes principales: DeepSeek-V3.1-Base y la versión completa de DeepSeek-V3.1.

No pensar (charla de búsqueda profunda): un modo de finalización de chat estándar optimizado para la velocidad y el uso conversacional.
Pensamiento (razonador profundo): un modo de razonamiento agente que prioriza el razonamiento estructurado de múltiples pasos y la orquestación de herramientas y agentes.

El lanzamiento se centra en tres mejoras visibles: un canal de inferencia híbrido que equilibra la latencia y la capacidad, una orquestación de agentes/llamadas de herramientas más inteligente y una ventana de contexto sustancialmente extendida (anunciada como 128 XNUMX tokens).

Por qué es importante: DeepSeek-V3.1 continúa la tendencia general del sector de combinar arquitecturas MoE eficientes a gran escala con herramientas primitivas y ventanas de contexto muy extensas. Esta combinación es importante para agentes empresariales, flujos de trabajo de búsqueda y razonamiento, resúmenes de documentos extensos y automatización basada en herramientas, donde se requiere tanto rendimiento como la capacidad de "llamar" a herramientas externas de forma determinista.

¿Qué hace que DeepSeek-V3.1 sea diferente de las versiones anteriores de DeepSeek?

Inferencia híbrida: un modelo, dos modos operativos

El cambio arquitectónico principal es inferencia híbridaDeepSeek describe la versión 3.1 como compatible con un modo de "pensamiento" y un modo de "no pensamiento" dentro de la misma instancia del modelo, seleccionable mediante la plantilla de chat o un botón de la interfaz de usuario (el botón "DeepThink" de DeepSeek). En la práctica, esto significa que se puede instruir al modelo para que produzca rastros de razonamiento internos (útiles para flujos de trabajo de agentes con cadena de pensamiento) o para que responda directamente sin exponer tokens de razonamiento intermedios, según las necesidades del desarrollador. DeepSeek presenta esto como una vía hacia flujos de trabajo más agénticos, permitiendo a las aplicaciones elegir entre latencia y verbosidad.

Ventana de contexto más grande y primitivas de token

Las notas oficiales del comunicado informan que ventana de contexto mucho más grande en V3.1; las pruebas de la comunidad y las publicaciones de la empresa ponen el contexto extendido en 128k fichas Para algunas variantes alojadas, lo que permite conversaciones considerablemente más largas, razonamiento multidocumento o la incorporación de bases de código extensas en una sola sesión. Como complemento, DeepSeek introduce algunos tokens de control especiales (por ejemplo, <｜search_begin｜>/<｜search_end｜>, <think> / </think>) destinado a estructurar llamadas de herramientas y delinear segmentos de “pensamiento” internamente: un patrón de diseño que simplifica la coordinación con herramientas externas.

Habilidades de agente/herramienta mejoradas y mejoras de latencia

DeepSeek afirma que la versión 3.1 se beneficia de optimización post-entrenamiento Centrado en la invocación de herramientas y las tareas de agente de varios pasos: se afirma que el modelo alcanza respuestas más rápidamente en modo de reflexión que las versiones anteriores de DeepSeek R1, y es más fiable al invocar API externas o ejecutar planes de varios pasos. Este posicionamiento —una inferencia más rápida pero con mayor capacidad de agente— es un claro diferenciador para los equipos que desarrollan asistentes, automatizaciones o flujos de trabajo de agentes.

¿Cuál es la arquitectura detrás de DeepSeek-V3.1?

DeepSeek-V3.1 se basa en la investigación central de la familia DeepSeek-V3: una Mezcla de expertos (MoE) Una estructura troncal con un conjunto de innovaciones arquitectónicas diseñadas para la eficiencia y la escalabilidad. El informe técnico público de DeepSeek-V3 (la familia subyacente) describe:

Un diseño de MoE grande con cientos de miles de millones de parámetros totales y uno más pequeño activado recuento de parámetros por token (la tarjeta modelo enumera 671B de parámetros en total con aproximadamente 37B activados por token).
Atención latente de múltiples cabezales (MLA) y enfoques de enrutamiento y escalamiento DeepSeekMoE personalizados que reducen el costo de inferencia y preservan la capacidad.
Objetivos de entrenamiento y estrategias de equilibrio de carga que eliminan la necesidad de términos de pérdida de equilibrio de carga auxiliares y adoptan objetivos de predicción de múltiples tokens para mejorar el rendimiento y el modelado de secuencias.

¿Por qué MoE + MLA?

La combinación de expertos permite que el modelo mantenga un alto recuento teórico de parámetros, activando solo un subconjunto de expertos por token. Esto reduce el cómputo por token. MLA es la variante de atención de DeepSeek que ayuda al modelo a escalar eficientemente las operaciones de atención entre numerosos expertos y contextos extensos. Estas opciones, en conjunto, permiten entrenar y atender puntos de control muy amplios, manteniendo costos de inferencia utilizables para diversas implementaciones.

¿Cómo se desempeña DeepSeek-V3.1 en pruebas comparativas y del mundo real?

Cómo se compara la versión 3.1, en palabras

Sobre V3 (0324): La versión 3.1 supone una clara mejora en todos los aspectos, especialmente en las tareas de codificación y agencia. Ejemplo: Banco de código en vivo salta desde 43.0 56.4 → (sin pensar) y → 74.8 (pensamiento); Aider-Políglota de 55.1 → 68.4 / 76.3.
Contra R1-0528: R1 sigue siendo un punto de comparación sólido y "adaptado al razonamiento", pero V3.1-Pensar con frecuencia iguala o supera a R1-0528 (AIME/HMMT, LiveCodeBench), al mismo tiempo que ofrece un camino sin pensamiento para un uso de baja latencia.
Conocimientos generales (variantes de MMLU): La versión V3.1 se ubica justo debajo de la R1-0528 cuando se considera “pensar”, pero por encima de la versión V3 más antigua.

Conocimientos generales y académicos

Punto de referencia (métrico)	V3.1-No pensar	V3 (0324)	V3.1-Pensamiento	R1-0528
MMLU-Reedux (Nueva versión) (Coincidencia exacta)	91.8	90.5	93.7	93.4
MMLU-Pro (Coincidencia exacta)	83.7	81.2	84.8	85.0
GPQA-Diamante (Pase@1)	74.9	68.4	80.1	81.0

Lo que esto implica: La versión 3.1 mejora la versión 3 en tareas académicas y de conocimiento; “pensar” reduce la brecha con la versión 1 en preguntas científicas difíciles (GPQA-Diamond).

Codificación (sin agente)

Punto de referencia (métrico)	V3.1-No pensar	V3 (0324)	V3.1-Pensamiento	R1-0528
LiveCodeBench (2408–2505) (Pase@1)	56.4	43.0	74.8	73.3
Aider-Políglota (Exactitud)	68.4	55.1	76.3	71.6
Codeforces-Div1 (Clasificación)	-	-	2091	1930

Notas:

LiveCodeBench (2408–2505) Indica una ventana agregada (agosto de 2024 a mayo de 2025). Un nivel más alto de Pass@1 refleja una mayor precisión al primer intento en diversas tareas de codificación.
Aider-Políglota Simula la edición de código estilo asistente en muchos lenguajes; V3.1-Thinking lidera el conjunto, V3.1-NonThinking es un salto considerable respecto de V3 (0324).
La tarjeta modelo muestra V3 (0324) al 55.1% En Aider, de acuerdo con la clasificación pública de Aider para esa generación. (Las puntuaciones más altas de la versión 3.1 son nuevas en la tarjeta del modelo).

Codificación (tareas del agente)

Punto de referencia (métrico)	V3.1-No pensar	V3 (0324)	V3.1-Pensamiento	R1-0528
SWE verificado (Modo agente)	66.0	45.4	-	44.6
Banco SWE multilingüe (Modo agente)	54.5	29.3	-	30.5
Banco terminal (Marco del término 1)	31.3	13.3	-	5.7

Advertencia importante: Estos son procesos Evaluaciones de agentes utilizando los marcos internos de DeepSeek (herramientas, ejecución multipaso), no pruebas puras de decodificación del siguiente token. Capturan la capacidad de "LLM + orquestación". Trátelas como te resultados (la reproducibilidad puede depender de la pila de agentes exacta y de la configuración).

Razonamiento matemático y competitivo

Punto de referencia (métrico)	V3.1-No pensar	V3 (0324)	V3.1-Pensamiento	R1-0528
AIME 2024 (Pase@1)	66.3	59.4	93.1	91.4
AIME 2025 (Pase@1)	49.8	51.3	88.4	87.5
HMMT 2025 (Pase@1)	33.5	29.2	84.2	79.4

Para llevar: El modo “pensamiento” impulsa muy grande Asciende en los conjuntos de concursos de matemáticas: V3.1-Thinking supera a R1-0528 en AIME/HMMT en las ejecuciones informadas.

Control de calidad con búsqueda aumentada/"agentic"

Punto de referencia (métrico)	V3.1-No pensar	V3 (0324)	V3.1-Pensamiento	R1-0528
BrowseComp	-	-	30.0	8.9
BrowseComp_zh	-	-	49.2	35.7
El último examen de la humanidad (Python + Búsqueda)	-	-	29.8	24.8
Control de calidad simple	-	-	93.4	92.3
El último examen de la humanidad (solo texto)	-	-	15.9	17.7

Nota: DeepSeek afirma que los resultados del agente de búsqueda utilizan su marco de búsqueda interno (API de búsqueda comercial + filtrado de páginas, contexto de 128K). La metodología es importante; la reproducción requiere herramientas similares.

¿Cuáles son las limitaciones y el camino a seguir?

DeepSeek-V3.1 es un avance importante en ingeniería y desarrollo de producto: integra el entrenamiento de contexto largo, las plantillas híbridas y la arquitectura MoE en un punto de control ampliamente utilizable. Sin embargo, persisten limitaciones:

La seguridad de las agencias en el mundo real, la alucinación en resúmenes de contextos largos y el comportamiento inmediato adversario aún requieren mitigaciones a nivel de sistema.
Los puntos de referencia son alentadores pero no uniformes: el rendimiento varía según el dominio, el idioma y el conjunto de evaluaciones; es necesaria una validación independiente.
Factores geopolíticos y de la cadena de suministro (disponibilidad de hardware y compatibilidad de chips) han afectado previamente el cronograma de DeepSeek y pueden influir en cómo los clientes implementan a escala.

Introducción a CometAPI

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Los desarrolladores pueden acceder Búsqueda profunda R1(deepseek-r1-0528) y DeepSeek-V3.1 a través de CometAPILas últimas versiones de los modelos mencionados corresponden a la fecha de publicación del artículo. Para comenzar, explore las capacidades del modelo en... Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

Conclusión

DeepSeek-V3.1 representa una actualización pragmática y de ingeniería avanzada: una ventana de contexto más grande, una inferencia híbrida de pensar/no pensar, interacciones de herramientas mejoradas y una API compatible con OpenAI lo convierten en una opción atractiva para los equipos que construyen Asistentes agentes, aplicaciones de contexto largo y flujos de trabajo orientados al código de bajo costo.