Cómo ejecutar DeepSeek-V3.1 en su dispositivo local

CometAPI
AnnaSep 1, 2025
Cómo ejecutar DeepSeek-V3.1 en su dispositivo local

DeepSeek-V3.1 es un modelo de chat híbrido de mezcla de expertos (MoE) lanzado por DeepSeek en agosto de 2025 que admite dos modos de inferencia Un modo rápido de "no pensamiento" y un modo de "pensamiento" deliberado, desde el mismo punto de control. El modelo está disponible en Hugging Face y puede ejecutarse localmente mediante varias rutas (vLLM, Ollama/llama.cpp, GGUFs estilo Ollama o configuraciones multi-GPU a gran escala). A continuación, se explican los requisitos, el funcionamiento del modo de pensamiento, varias opciones de ejecución local (con fragmentos de código ejecutables) y una receta paso a paso para la "implementación en modo de pensamiento" con ejemplos de llamadas a herramientas y plantillas de tokens.

¿Qué es DeepSeek-V3.1 y por qué es importante?

DeepSeek-V3.1 es la actualización de la familia v3 de DeepSeek que presenta una diseño de inferencia híbrido:el mismo modelo se puede ejecutar en pensando (deliberativo, de varios pasos) o no pensar (respuesta directa, más rápido) modos modificando la plantilla de chat. Arquitectónicamente, se trata de una amplia familia de MoE (punto de control base con un total de aproximadamente 671 37 millones de parámetros, aproximadamente 128 8 millones activados por token) con entrenamiento de contexto largo extendido a 3.1 1 tokens y compatibilidad con el microescalado FP2025. DeepSeek posicionó la versión XNUMX como una versión preparada para agentes: mejor invocación de herramientas, habilidades mejoradas de los agentes y mayor eficiencia de pensamiento en comparación con versiones anteriores de la versión RXNUMX. La versión se anunció en agosto de XNUMX y se ha integrado en Hugging Face, herramientas CFD/OSS y guías de implementación en la nube.

Cómo funciona el modelo híbrido (en resumen)

  • Un punto de control, dos plantillas: Los modos de pensar y no pensar están controlados por el plantilla de chat y <think>/</think> Convención de tokens en el mensaje. La tarjeta modelo documenta los prefijos exactos.
  • Mejoras de agente/herramienta: Los aumentos posteriores al entrenamiento permiten llamadas de herramientas más inteligentes: el modelo espera un formato JSON de llamada de herramienta estricto para una ejecución de herramientas segura y determinista.
  • Compensaciones en el rendimiento: El modo de pensamiento gasta tokens en razonamiento interno de cadena de pensamiento y puede ser más lento o requerir más tokens; el modo sin pensamiento es más rápido y económico. Las pruebas de rendimiento en la tarjeta del modelo muestran mejoras sustanciales en las pruebas de rendimiento de razonamiento y código para la versión 3.1.

Cómo se estructura el modelo

  • Columna vertebral del Ministerio de Educación:gran cantidad total de parámetros con un subconjunto activado más pequeño por token (inferencia económica).
  • Entrenamiento de contexto largo:V3.1 extiende significativamente las fases de contexto largo (32k → entrenamiento más grande en documentos largos) para soportar ventanas de más de 128K en algunas compilaciones.
  • Flujo de trabajo nativo de FP8DeepSeek utiliza ampliamente los formatos FP8 (w8a8/UE8M0) para lograr eficiencia de peso/activación; existen scripts de conversión comunitarios si prefiere BF16/FP16.

¿Cuáles son los requisitos para ejecutar DeepSeek-V3.1 localmente? (Hardware, almacenamiento y software)

Corriendo el ser completados El modelo V3.1 (sin cuantificar) es una tarea compleja. A continuación, se presentan categorías realistas de configuraciones y sus requisitos habituales.

Cubos prácticos

  • Clúster/laboratorio de investigación (modelo completo):múltiples GPU de alta memoria (clase H100/H800 o muchas GPU Ada/Hopper), múltiples nodos con decenas de GPU, gran cantidad de almacenamiento NVMe (cientos de GB) y marcos de inferencia especializados (SGLang, vLLM, LMDeploy, TRT-LLM).
  • Servidor único de gama alta (cuantizado): posible con cuantificación pesada (INT4/AWQ/AWQ2/gguf) y marcos como Ollama (preempaquetado) o GGUF comunitarios; aún requiere entre decenas y cientos de GB de RAM de GPU o una descarga inteligente de CPU+GPU.
  • Portátil para desarrolladores/caja de desarrollo:no es factible para el modelo completo; utilice variantes pequeñas destiladas/ajustadas o conéctese al servidor local/instancia de Ollama.

Lista de verificación de hardware (práctica)

  • GPUPara un rendimiento de inferencia real de la versión 3.1 completa: clústeres multiGPU (H100/H800/Ada Lovelace+). Para la ejecución de FP8, se requieren GPU con capacidad de cómputo y compatibilidad con controladores.
  • RAM y almacenamientoSe esperan cientos de GB de espacio libre en disco para los archivos del modelo (las páginas del modelo indican algunos cientos de GB según el formato/cuantización), además de espacio de trabajo para los formatos convertidos. Los metadatos de Ollama indican una ocupación de aproximadamente 400 GB para un paquete DeepSeek V3.1 de Ollama en la biblioteca.
  • NetworkPara la inferencia de múltiples nodos, necesita interconexiones de baja latencia (NVLink/InfiniBand) y herramientas de orquestación para configuraciones tensoriales paralelas.

Lista de verificación de software

  • OSSe recomienda Linux para las herramientas de inferencia de la comunidad (la demostración de DeepSeek-Infer incluye Linux/Python).
  • Python: 3.10+ (en muchos ejemplos de DeepSeek). Las versiones típicas del paquete están ancladas en el repositorio. requirements.txt.
  • Marcos y herramientas (seleccione uno o más): SGLang, vLLM, LMDeploy, TRT-LLM/TensorRT-LLM, LightLLM u Ollama para instalaciones locales más sencillas. Cada uno incluye instrucciones y compatibilidad con precisión y cuantificación diferentes.

Nota práctica: Si solo tiene una GPU de consumo (por ejemplo, 24–48 GB), probablemente usará GGUF cuantificados o inferencia remota; si tiene una estación de trabajo con >128 GB de RAM más un clúster de GPU de clase H100/H200, puede apuntar a una inferencia FP8/FP16 de mayor fidelidad con vLLM.


¿Cómo ejecuto DeepSeek-V3.1 localmente?

A continuación se muestran varias rutas prácticas que puede utilizar, desde la más manual/flexible hasta la ruta más sencilla para un único cuadro de desarrollador. Proporcionaré tutoriales paso a paso y ejemplos de código.


Opción A: Demostración oficial de DeepSeek-Infer (ruta de desarrollo/clúster)

Este es el ejemplo/demo del repositorio para la inferencia FP8/BF16. Úselo si planea usar varios nodos o si desea experimentar con el código de inferencia oficial.

  1. Clonar, preparar el entorno
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
# Create a dedicated venv / conda env

python -m venv venv && source venv/bin/activate
pip install -r requirements.txt

(Repositorio inference/requirements.txt (Enumera las versiones de antorcha/tritón/transformadores recomendadas por el equipo).

  1. Descargar pesos de modelos
  • Descargar desde la página del modelo Hugging Face (deepseek-ai/DeepSeek-V3.1) y colóquelos debajo /path/to/DeepSeek-V3La tarjeta modelo y la nota del repositorio indican los enlaces de almacenamiento oficiales de Hugging Face.
  1. Convertir pesos para demostración
# example conversion command shown in the repo

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
  1. Ejecutar generación interactiva (distribuida)
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR \
  generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json \
  --interactive --temperature 0.7 --max-new-tokens 200

Este es el ejemplo canónico del repositorio de DeepSeek para ejecuciones de estilo clúster.


Opción B: vLLM (recomendada para implementaciones de servidor y API compatible con OpenAI)

vLLM es compatible con DeepSeek en los modos FP8/BF16 y ofrece un servidor compatible con OpenAI. Es una ruta de producción popular para modelos grandes gracias a las optimizaciones de memoria y la compatibilidad con API.

Inicie un servidor vLLM que recuperará el modelo de Hugging Face (patrón de ejemplo):

# this will download/serve the model (replace with exact model id if needed)

vllm serve deepseek-ai/DeepSeek-V3.1 --host 0.0.0.0 --port 8000

Luego solicita finalizaciones con curl o un cliente compatible con OpenAI:

curl -s -X POST "http://localhost:8000/v1/completions" \
  -H "Content-Type: application/json" \
  -d '{"model":"DeepSeek-V3.1","prompt":"Explain the QuickSort algorithm", "max_tokens":200}'

Las recetas y la documentación de vLLM incluyen ejemplos de DeepSeek y notas sobre la compatibilidad con FP8 y el paralelismo multi-GPU/pipeline. Para modelos pesados, se necesitarán varias GPU o una variante cuantificada.


Opción C: LMDeploy / SGLang / LightLLM y TensorRT-LLM (alto rendimiento)

El repositorio de DeepSeek recomienda explícitamente SGLang, LMDeploy e TensorRT-LLM Como motores optimizados para DeepSeek V3, ofrecen mayor latencia de inferencia, mayor rendimiento y núcleos FP8.

Una invocación típica de LMDeploy (consulte la documentación de LMDeploy para conocer la CLI exacta):

# pseudo-example; refer to LMDeploy docs for exact options

lmdeploy serve --model /path/to/deepseek_v3.1 --precision fp8 --port 8080

Los puntos de referencia y las recetas de lanzamiento de SGLang están disponibles en el repositorio y en el proyecto SGLang. benchmark/deepseek_v3 Carpeta. Utilice estas pilas cuando controle un clúster de GPU y desee rendimiento de producción.


Opción D: Ollama (la ruta de desarrollo local más sencilla, a menudo de una sola máquina)

Si desea la forma de ejecutar DeepSeek localmente con la menor fricción (y puede ahorrar el disco), Ollama Proporciona modelos empaquetados y una CLI sencilla (ollama pull, ollama run). DeepSeek-V3.1 aparece en la biblioteca Ollama y se puede ejecutar localmente (Ollama puede requerir una versión reciente o preliminar para algunas funciones).

Ejemplo (CLI de Ollama):

# Pull the model (downloads the model artifacts to your disk)

ollama pull deepseek-v3.1

# Start an interactive session:

ollama run deepseek-v3.1

# Or run as a local API server (Ollama supports a local API)

# Example: POSTing to Ollama's local API (adjust host/port to your setup)
curl -X POST http://localhost:11434/api/generate \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v3.1","prompt":"Summarize the following paper: ..."}'

Ollama abstrae muchos detalles de distribución/cuantización y puede ser una excelente manera de probar el comportamiento del modelo en un solo host. Nota: La página del modelo indica un tamaño de paquete de aproximadamente 404 GB para la entrada de Ollama, por lo que se recomienda planificar el disco y la RAM según corresponda.


¿Qué es el modo de pensamiento y cómo utilizarlo?

DeepSeek-V3.1 implementa un token de pensamiento híbrido Enfoque: el mismo punto de control puede ejecutarse en pensando modo (fichas internas de “cadena de pensamiento”) o no pensar modo cambiando la plantilla de chat/mensaje. El modelo utiliza tokens explícitos como <think> (y cerrando </think> En algunas plantillas, se utiliza para indicar la cadena de pensamiento interna frente a la generación directa de respuestas. La tarjeta modelo documenta los prefijos de pensamiento y de no pensamiento, y muestra las diferencias entre las plantillas.

Ejemplo: construcción de un mensaje en Python (ayudante tokenizador)

La tarjeta del modelo "Cara Abrazadora" incluye un práctico fragmento que muestra cómo aplicar la plantilla de chat mediante el tokenizador. Este es el patrón recomendado para generar... pensando or no pensar indicaciones formateadas:

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
    {"role": "user", "content": "1+1=?"}
]

# Thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)

# Non-thinking mode

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)

Interruptor thinking=True para producir un mensaje que utilice el <think> prefijo; thinking=False Produce la plantilla de no pensamiento. El modelo se comportará de forma diferente (deliberación interna vs. respuesta inmediata) según esta bandera.


Referencia rápida: solución de pequeños problemas y mejores prácticas

Si te quedas sin memoria de GPU: Pruebe compilaciones cuantificadas (AWQ/q4/INT4) o GGUF comunitarios; muchos espacios comunitarios publican cuantificaciones para uso local. Ollama/vLLM también puede ofrecer compilaciones cuantificadas más pequeñas.

Si necesita que el modelo llame a herramientas externas: Adopta el Llamada de herramienta Esquema exacto en la plantilla de chat. Pruebe la herramienta en formato JSON sin conexión y compruebe que el código de orquestación (la parte que ejecuta la herramienta) devuelve JSON depurado y tipificado al modelo.

Si necesitas un contexto más extenso: Utilice vLLM o SGLang con complementos de contexto largo; DeepSeek se entrenó y extendió explícitamente para contextos de 32 K/128 K y las herramientas relacionadas admiten ese intervalo. Es posible que se produzcan concesiones de memoria.

¿Puedo realmente ejecutar DeepSeek-V3.1 en una computadora portátil o un servidor pequeño?

Respuesta corta: Sí, pero con salvedades. Las cuantificaciones comunitarias (AWQ/GGUF/dinámicas de 1 bit) reducen drásticamente el consumo de almacenamiento y memoria, y han permitido a los aficionados ejecutar variantes de la versión 3.1 en ordenadores de escritorio de alta gama (se afirma que tienen un conjunto de trabajo de aproximadamente 170 GB). Sin embargo:

  • Compromiso entre fidelidad y tamaño: La cuantificación agresiva reduce la memoria, pero puede afectar el razonamiento y el rendimiento del código. Realice pruebas en sus cargas de trabajo.
  • Legal y licencias: El modelo tiene licencia MIT según la tarjeta modelo, pero las cuantificaciones de terceros pueden tener sus propias licencias; revíselas antes de usarlas en producción.

Palabras finales

DeepSeek-V3.1 supone un avance significativo hacia modelos híbridos de "agente" con comportamiento explícito de pensamiento/no pensamiento y un uso mejorado de las herramientas. Si desea ejecutarlo localmente, elija una ruta que se ajuste a su hardware y tolerancia al riesgo:

Para investigación: transformers + safetensors cuantificados y aceleran.

Para producción y rendimiento: vLLM + multi-GPU (H100/H200).

Para experimentos locales: Ollama/llama.cpp + GGUF comunitarios (combinar + ejecutar).

Primeros Pasos

CometAPI es una plataforma API unificada que integra más de 500 modelos de IA de proveedores líderes, como la serie GPT de OpenAI, Gemini de Google, Claude de Anthropic, Midjourney, Suno y más, en una única interfaz intuitiva para desarrolladores. Al ofrecer autenticación, formato de solicitudes y gestión de respuestas consistentes, CometAPI simplifica drásticamente la integración de las capacidades de IA en sus aplicaciones. Ya sea que esté desarrollando chatbots, generadores de imágenes, compositores musicales o canales de análisis basados ​​en datos, CometAPI le permite iterar más rápido, controlar costos y mantenerse independiente del proveedor, todo mientras aprovecha los últimos avances del ecosistema de IA.

Los desarrolladores pueden acceder DeepSeek-V3.1 A través de CometAPI, las últimas versiones de los modelos listadas corresponden a la fecha de publicación del artículo. Para comenzar, explore las capacidades del modelo en Playground y consultar el Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". CometAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento