Como executar o Mistral Small 4 localmente

CometAPI
AnnaMar 23, 2026
Como executar o Mistral Small 4 localmente

Mistral Small 4 é um modelo de IA multimodal recém-lançado pela Mistral AI (março de 2026) que unifica inferência, raciocínio, programação e capacidades multimodais em uma única arquitetura. Ele apresenta janela de contexto de 256K, design Mixture-of-Experts (MoE) (~119B de parâmetros totais, ~6.5B ativos por token) e oferece inferência mais rápida (redução de latência de até 40%), superando modelos abertos comparáveis como o GPT-OSS 120B em benchmarks.

Para executá-lo localmente, você precisa de GPUs com muita memória (≥48GB de VRAM recomendados) ou implantações quantizadas, além de frameworks como Transformers, vLLM ou Ollama.

O que é o Mistral Small 4?

Um único modelo para vários trabalhos

O Mistral Small 4 é melhor entendido como um “generalista”: ele combina os pontos fortes das famílias anteriores de instrução, raciocínio e programação da Mistral em um único modelo. Na linguagem do próprio lançamento da empresa, o Small 4 é o primeiro modelo da Mistral a unificar as capacidades do Magistral para raciocínio, do Pixtral para tarefas multimodais e do Devstral para programação orientada a agentes. Ele aceita entradas de texto e imagem, gera saídas em texto e é destinado a chat, programação, fluxos de trabalho orientados a agentes, compreensão de documentos, pesquisa e análise visual.

Por que este lançamento é importante

O significado prático é que o Mistral Small 4 reduz o overhead de troca de modelos. Em vez de rotear um prompt para um modelo rápido de instrução, um segundo para um modelo de raciocínio e um terceiro para um modelo de visão, você pode usar um único endpoint e ajustar a configuração de reasoning_effort conforme necessário. A Mistral afirma explicitamente que reasoning_effort="none" fornece respostas rápidas e leves comparáveis ao chat no estilo Small 3.2, enquanto reasoning_effort="high" produz um raciocínio mais profundo e verboso semelhante aos seus modelos Magistral anteriores.

Benchmarks de desempenho do Mistral Small 4

Principais destaques de desempenho

Como executar o Mistral Small 4 localmente

MétricaMistral Small 4
ArquiteturaMoE
Janela de contexto256K
Latência↓ até 40%
Benchmarks de programaçãoSupera o GPT-OSS 120B
Eficiência de saída20% menos tokens

👉 Isso o torna ideal para sistemas de IA em produção.

Arquitetura (insight técnico chave)

  • Tipo de modelo: Mixture-of-Experts (MoE)
  • Parâmetros totais: ~119B
  • Parâmetros ativos por token: ~6.5B
  • Especialistas: ~128 (4 ativos por passagem)

👉 Essa arquitetura proporciona inteligência de modelo grande com custo de modelo pequeno, tornando-o ideal para implantação local em comparação com modelos densos.

Requisitos de implantação que você deve considerar para o Mistral Small 4

Infraestrutura mínima e recomendada oficial

A Mistral é incomumente explícita aqui. Infraestrutura mínima de 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 ou 1x NVIDIA DGX B200. Sua configuração recomendada para desempenho ideal é 4x HGX H100, 4x HGX H200 ou 2x DGX B200. Isso é um forte sinal de que o caminho totalmente oficial visa máquinas de classe datacenter, e não uma única GPU de consumidor.

O que isso significa na prática

O Mistral Small 4 tem pesos abertos e é eficiente para seu tamanho, mas ainda é um sistema MoE de 119B com janela de contexto de 256k. Em implantações reais, essa combinação significa que a pressão de memória aumenta rapidamente conforme o comprimento do contexto cresce, e o desempenho sustentado geralmente depende de paralelismo de tensores multi-GPU e software de serving eficiente. É por isso que recomendamos o vLLM como o principal mecanismo de auto-implantação e a exposição de padrões de serving compatíveis com OpenAI em vez de padrões de “funciona em uma única máquina”.

Configuração recomendada (profissional)

ComponenteRecomendação
GPU48GB–80GB VRAM (A100 / H100)
CPU16–32 núcleos
RAM128GB
ArmazenamentoNVMe SSD

Por que o hardware importa

Porque:

  • Modelo com 119B de parâmetros (mesmo sendo MoE)
  • Contexto grande (256K tokens)
  • Processamento multimodal

👉 Sem otimização, ele é pesado demais para GPUs de consumo

Como executar o Mistral Small 4 localmente (passo a passo)

Etapa 1) Obtenha os pesos e aceite as condições de acesso

O vLLM obtém pesos do Hugging Face por padrão, então você precisa de um token de acesso do Hugging Face com permissão READ e deve aceitar as condições no cartão do modelo. Para uma configuração local prática, prepare uma máquina Linux com drivers NVIDIA, suporte de runtime compatível com CUDA, Python e memória de GPU suficiente para o checkpoint selecionado. Se você já tiver os artefatos no seu próprio armazenamento, pode pular a configuração do Hugging Face e apontar o vLLM para o caminho local.

Etapa 2) Use a pilha de servidor recomendada oficialmente

Recomenda auto-implantação via vLLM, descrito como um framework de serving altamente otimizado que pode expor uma API compatível com OpenAI. A documentação de auto-implantação também menciona TensorRT-LLM e TGI como alternativas, mas o vLLM é o caminho recomendado para esta família de modelos.

Etapa 3) Puxe a imagem Docker recomendada pela Mistral ou instale o vLLM manualmente

O Mistral Small 4 recomenda usar uma imagem Docker personalizada com as correções necessárias de tool-calling e parsing de raciocínio, ou instalar manualmente um build do vLLM com patches. O card fornece uma imagem personalizada e observa que a Mistral está trabalhando com a equipe do vLLM para upstream das mudanças.

Um ponto de partida prático é:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Etapa 4) Sirva o modelo

O comando de servidor recomendado pela Mistral é:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Esse comando é a pista prática mais importante de toda a história local: ele indica que o modelo foi concebido para rodar com um backend de GPU sério, uma janela de contexto longa e parsers específicos da Mistral para ferramentas e raciocínio habilitados.

Etapa 5) Conecte seu aplicativo ao endpoint local

Como o vLLM expõe uma API REST compatível com OpenAI, você geralmente pode apontar o código de SDK existente do OpenAI para http://localhost:8000/v1 e manter a maior parte da lógica do seu aplicativo inalterada. O exemplo da Mistral usa base_url="http://localhost:8000/v1" e uma chave de API vazia, o que é um padrão comum de desenvolvimento local.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Etapa 6) Ajuste para velocidade ou qualidade

Se você estiver testando o modelo localmente, sugere reasoning_effort="high" para prompts complexos e temperature=0.7 nesse modo, enquanto temperaturas mais baixas são mais apropriadas quando o raciocínio está desligado. O mesmo card também separa o checkpoint FP8 para melhor precisão do checkpoint NVFP4 para throughput e menor uso de memória, então a configuração certa depende de você estar otimizando para qualidade, velocidade ou pegada de hardware.

Etapa 7: Opcional – Executar via Ollama (simplificado)

ollama run mistral-small-4

👉 Ideal para:

  • Desenvolvimento local
  • Configuração rápida

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (comparação completa)

Mistral Small 4: MoE de eficiência extrema

  • 119B de parâmetros totais
  • ~6.5B ativos por token
  • 128 especialistas (4 ativos)
  • Multimodal (texto + imagem)

👉 Ideia‑chave: capacidade muito grande com baixo custo de computação por token

Isso proporciona:

  • Alto desempenho
  • Baixa latência
  • Menor custo por inferência

GPT-OSS: MoE prático para implantação

  • Versão 120B: ~117B total / 5.1B ativos
  • Versão 20B: ~21B total / 3.6B ativos
  • Apenas texto

👉 Ideia‑chave: colocar modelos poderosos em hardware mínimo

  • Pode rodar em uma única GPU H100
  • Forte uso de ferramentas / suporte a saída estruturada

Qwen 3.5: escalonamento de alta capacidade

  • Até 122B parâmetros
  • Maior contagem de parâmetros ativos (~20B+)
  • Multimodal + forte multilinguismo

👉 Ideia‑chave: maximizar a capacidade mesmo que o custo computacional aumente

Comparativo de benchmarks de desempenho

CategoriaMistral Small 4GPT-OSS (120B / 20B)Qwen 3.5 (Plus / MoE)
Entrada / SaídaEntrada Texto + Imagem → Saída em texto Contexto: 256K tokensEntrada Texto → Saída em texto Contexto: ~128K tokensEntrada Texto + Imagem + Vídeo → Saída em texto Contexto: até 1M tokens
Preço (API)$0.15 /M entrada $0.60 /M saídaSem preço oficial de API (auto‑hospedado) → Custo depende da infraestrutura$0.40–0.50 /M entrada $2.40–3.00 /M saída
ArquiteturaMoE (Mixture-of-Experts) 119B total / 6.5B ativos 128 especialistas (4 ativos)Transformer MoE 120B: 117B / 5.1B ativos 20B: 21B / 3.6B ativosMoE híbrido + camadas avançadas Até 397B total (A17B ativos)
Multimodal✅ Suporte a imagem❌ Apenas texto✅ Imagem + Vídeo
Controle de raciocínio✅ (reasoning_effort)✅ (modos baixa/média/alta)✅ Raciocínio adaptativo
Eficiência de contexto⭐⭐⭐⭐⭐ (saídas curtas)⭐⭐⭐⭐⭐⭐⭐ (saídas longas)
Suporte a ferramentas/agentes✅ Ferramentas nativas, agentes, saídas estruturadas✅ Forte uso de ferramentas, saídas estruturadas✅ Ecossistema avançado de agentes
Capacidade de programação⭐⭐⭐⭐⭐ (nível Devstral)⭐⭐⭐⭐⭐⭐⭐⭐⭐
ImplantaçãoPesada (recomendado multi‑GPU)Flexível (possível em uma única GPU)Pesada (preferível em escala de nuvem)

Com o raciocínio ativado, o Small 4 iguala ou supera o GPT-OSS 120B em LCR, LiveCodeBench e AIME 2025, enquanto gera saídas mais curtas. A Mistral cita um exemplo em que o Small 4 pontua 0.72 no AA LCR com apenas 1.6K caracteres, enquanto resultados comparáveis do Qwen precisaram de 5.8K–6.1K caracteres, e afirma que o Small 4 supera o GPT-OSS 120B no LiveCodeBench produzindo 20% menos saída.

Como executar o Mistral Small 4 localmente

Como executar o Mistral Small 4 localmente

Qual é a melhor escolha local?

Minha opinião: Mistral Small 4 é a melhor escolha “modelo único” se você quer uma implantação local ou privada equilibrada, com chat geral robusto, programação, trabalho orientado a agentes e suporte multimodal. GPT-OSS é a escolha mais clara se você quer um modelo OpenAI disponível abertamente com orientação de serving local muito explícita, especialmente a versão menor de 20B. Qwen 3.5 é a família mais ampla e é aquela a ser considerada se você se importa mais com cobertura multilíngue, múltiplos tamanhos e opções flexíveis de serving local.

Se você quer acessar esses principais modelos open-source usando APIs e não quer trocar de fornecedor, então recomendo a CometAPI, que oferece GPT-oss-120B e Qwen 3.5 plus API, entre outros.

Em outras palavras, você pode consumir o Small 4 como um modelo hospedado ou puxar os pesos e auto-hospedá-lo na sua própria infraestrutura.

Conclusão

O Small 4 é uma ótima opção quando você precisa de um modelo com pesos abertos, multimodal, capaz de raciocínio, que possa ser auto-hospedado, ajustado (fine-tuned) e integrado a stacks de aplicativos no estilo OpenAI existentes. Ele é especialmente atraente para equipes que se preocupam com controle de implantação, residência de dados e menores custos marginais por token, ao mesmo tempo em que desejam um modelo moderno de uso geral.

Pronto para acessar o Mistral Small 4? Então venha para a CometAPI!

Acesse Modelos de Ponta com Baixo Custo

Leia Mais