Mistral Small 4 é um modelo de IA multimodal recém-lançado pela Mistral AI (março de 2026) que unifica inferência, raciocínio, programação e capacidades multimodais em uma única arquitetura. Ele apresenta janela de contexto de 256K, design Mixture-of-Experts (MoE) (~119B de parâmetros totais, ~6.5B ativos por token) e oferece inferência mais rápida (redução de latência de até 40%), superando modelos abertos comparáveis como o GPT-OSS 120B em benchmarks.
Para executá-lo localmente, você precisa de GPUs com muita memória (≥48GB de VRAM recomendados) ou implantações quantizadas, além de frameworks como Transformers, vLLM ou Ollama.
O que é o Mistral Small 4?
Um único modelo para vários trabalhos
O Mistral Small 4 é melhor entendido como um “generalista”: ele combina os pontos fortes das famílias anteriores de instrução, raciocínio e programação da Mistral em um único modelo. Na linguagem do próprio lançamento da empresa, o Small 4 é o primeiro modelo da Mistral a unificar as capacidades do Magistral para raciocínio, do Pixtral para tarefas multimodais e do Devstral para programação orientada a agentes. Ele aceita entradas de texto e imagem, gera saídas em texto e é destinado a chat, programação, fluxos de trabalho orientados a agentes, compreensão de documentos, pesquisa e análise visual.
Por que este lançamento é importante
O significado prático é que o Mistral Small 4 reduz o overhead de troca de modelos. Em vez de rotear um prompt para um modelo rápido de instrução, um segundo para um modelo de raciocínio e um terceiro para um modelo de visão, você pode usar um único endpoint e ajustar a configuração de reasoning_effort conforme necessário. A Mistral afirma explicitamente que reasoning_effort="none" fornece respostas rápidas e leves comparáveis ao chat no estilo Small 3.2, enquanto reasoning_effort="high" produz um raciocínio mais profundo e verboso semelhante aos seus modelos Magistral anteriores.
Benchmarks de desempenho do Mistral Small 4
Principais destaques de desempenho

| Métrica | Mistral Small 4 |
|---|---|
| Arquitetura | MoE |
| Janela de contexto | 256K |
| Latência | ↓ até 40% |
| Benchmarks de programação | Supera o GPT-OSS 120B |
| Eficiência de saída | 20% menos tokens |
👉 Isso o torna ideal para sistemas de IA em produção.
Arquitetura (insight técnico chave)
- Tipo de modelo: Mixture-of-Experts (MoE)
- Parâmetros totais: ~119B
- Parâmetros ativos por token: ~6.5B
- Especialistas: ~128 (4 ativos por passagem)
👉 Essa arquitetura proporciona inteligência de modelo grande com custo de modelo pequeno, tornando-o ideal para implantação local em comparação com modelos densos.
Requisitos de implantação que você deve considerar para o Mistral Small 4
Infraestrutura mínima e recomendada oficial
A Mistral é incomumente explícita aqui. Infraestrutura mínima de 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 ou 1x NVIDIA DGX B200. Sua configuração recomendada para desempenho ideal é 4x HGX H100, 4x HGX H200 ou 2x DGX B200. Isso é um forte sinal de que o caminho totalmente oficial visa máquinas de classe datacenter, e não uma única GPU de consumidor.
O que isso significa na prática
O Mistral Small 4 tem pesos abertos e é eficiente para seu tamanho, mas ainda é um sistema MoE de 119B com janela de contexto de 256k. Em implantações reais, essa combinação significa que a pressão de memória aumenta rapidamente conforme o comprimento do contexto cresce, e o desempenho sustentado geralmente depende de paralelismo de tensores multi-GPU e software de serving eficiente. É por isso que recomendamos o vLLM como o principal mecanismo de auto-implantação e a exposição de padrões de serving compatíveis com OpenAI em vez de padrões de “funciona em uma única máquina”.
Configuração recomendada (profissional)
| Componente | Recomendação |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 núcleos |
| RAM | 128GB |
| Armazenamento | NVMe SSD |
Por que o hardware importa
Porque:
- Modelo com 119B de parâmetros (mesmo sendo MoE)
- Contexto grande (256K tokens)
- Processamento multimodal
👉 Sem otimização, ele é pesado demais para GPUs de consumo
Como executar o Mistral Small 4 localmente (passo a passo)
Etapa 1) Obtenha os pesos e aceite as condições de acesso
O vLLM obtém pesos do Hugging Face por padrão, então você precisa de um token de acesso do Hugging Face com permissão READ e deve aceitar as condições no cartão do modelo. Para uma configuração local prática, prepare uma máquina Linux com drivers NVIDIA, suporte de runtime compatível com CUDA, Python e memória de GPU suficiente para o checkpoint selecionado. Se você já tiver os artefatos no seu próprio armazenamento, pode pular a configuração do Hugging Face e apontar o vLLM para o caminho local.
Etapa 2) Use a pilha de servidor recomendada oficialmente
Recomenda auto-implantação via vLLM, descrito como um framework de serving altamente otimizado que pode expor uma API compatível com OpenAI. A documentação de auto-implantação também menciona TensorRT-LLM e TGI como alternativas, mas o vLLM é o caminho recomendado para esta família de modelos.
Etapa 3) Puxe a imagem Docker recomendada pela Mistral ou instale o vLLM manualmente
O Mistral Small 4 recomenda usar uma imagem Docker personalizada com as correções necessárias de tool-calling e parsing de raciocínio, ou instalar manualmente um build do vLLM com patches. O card fornece uma imagem personalizada e observa que a Mistral está trabalhando com a equipe do vLLM para upstream das mudanças.
Um ponto de partida prático é:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Etapa 4) Sirva o modelo
O comando de servidor recomendado pela Mistral é:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
Esse comando é a pista prática mais importante de toda a história local: ele indica que o modelo foi concebido para rodar com um backend de GPU sério, uma janela de contexto longa e parsers específicos da Mistral para ferramentas e raciocínio habilitados.
Etapa 5) Conecte seu aplicativo ao endpoint local
Como o vLLM expõe uma API REST compatível com OpenAI, você geralmente pode apontar o código de SDK existente do OpenAI para http://localhost:8000/v1 e manter a maior parte da lógica do seu aplicativo inalterada. O exemplo da Mistral usa base_url="http://localhost:8000/v1" e uma chave de API vazia, o que é um padrão comum de desenvolvimento local.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Etapa 6) Ajuste para velocidade ou qualidade
Se você estiver testando o modelo localmente, sugere reasoning_effort="high" para prompts complexos e temperature=0.7 nesse modo, enquanto temperaturas mais baixas são mais apropriadas quando o raciocínio está desligado. O mesmo card também separa o checkpoint FP8 para melhor precisão do checkpoint NVFP4 para throughput e menor uso de memória, então a configuração certa depende de você estar otimizando para qualidade, velocidade ou pegada de hardware.
Etapa 7: Opcional – Executar via Ollama (simplificado)
ollama run mistral-small-4
👉 Ideal para:
- Desenvolvimento local
- Configuração rápida
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (comparação completa)
Mistral Small 4: MoE de eficiência extrema
- 119B de parâmetros totais
- ~6.5B ativos por token
- 128 especialistas (4 ativos)
- Multimodal (texto + imagem)
👉 Ideia‑chave: capacidade muito grande com baixo custo de computação por token
Isso proporciona:
- Alto desempenho
- Baixa latência
- Menor custo por inferência
GPT-OSS: MoE prático para implantação
- Versão 120B: ~117B total / 5.1B ativos
- Versão 20B: ~21B total / 3.6B ativos
- Apenas texto
👉 Ideia‑chave: colocar modelos poderosos em hardware mínimo
- Pode rodar em uma única GPU H100
- Forte uso de ferramentas / suporte a saída estruturada
Qwen 3.5: escalonamento de alta capacidade
- Até 122B parâmetros
- Maior contagem de parâmetros ativos (~20B+)
- Multimodal + forte multilinguismo
👉 Ideia‑chave: maximizar a capacidade mesmo que o custo computacional aumente
Comparativo de benchmarks de desempenho
| Categoria | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Entrada / Saída | Entrada Texto + Imagem → Saída em texto Contexto: 256K tokens | Entrada Texto → Saída em texto Contexto: ~128K tokens | Entrada Texto + Imagem + Vídeo → Saída em texto Contexto: até 1M tokens |
| Preço (API) | $0.15 /M entrada $0.60 /M saída | Sem preço oficial de API (auto‑hospedado) → Custo depende da infraestrutura | $0.40–0.50 /M entrada $2.40–3.00 /M saída |
| Arquitetura | MoE (Mixture-of-Experts) 119B total / 6.5B ativos 128 especialistas (4 ativos) | Transformer MoE 120B: 117B / 5.1B ativos 20B: 21B / 3.6B ativos | MoE híbrido + camadas avançadas Até 397B total (A17B ativos) |
| Multimodal | ✅ Suporte a imagem | ❌ Apenas texto | ✅ Imagem + Vídeo |
| Controle de raciocínio | ✅ (reasoning_effort) | ✅ (modos baixa/média/alta) | ✅ Raciocínio adaptativo |
| Eficiência de contexto | ⭐⭐⭐⭐⭐ (saídas curtas) | ⭐⭐⭐⭐ | ⭐⭐⭐ (saídas longas) |
| Suporte a ferramentas/agentes | ✅ Ferramentas nativas, agentes, saídas estruturadas | ✅ Forte uso de ferramentas, saídas estruturadas | ✅ Ecossistema avançado de agentes |
| Capacidade de programação | ⭐⭐⭐⭐⭐ (nível Devstral) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Implantação | Pesada (recomendado multi‑GPU) | Flexível (possível em uma única GPU) | Pesada (preferível em escala de nuvem) |
Com o raciocínio ativado, o Small 4 iguala ou supera o GPT-OSS 120B em LCR, LiveCodeBench e AIME 2025, enquanto gera saídas mais curtas. A Mistral cita um exemplo em que o Small 4 pontua 0.72 no AA LCR com apenas 1.6K caracteres, enquanto resultados comparáveis do Qwen precisaram de 5.8K–6.1K caracteres, e afirma que o Small 4 supera o GPT-OSS 120B no LiveCodeBench produzindo 20% menos saída.


Qual é a melhor escolha local?
Minha opinião: Mistral Small 4 é a melhor escolha “modelo único” se você quer uma implantação local ou privada equilibrada, com chat geral robusto, programação, trabalho orientado a agentes e suporte multimodal. GPT-OSS é a escolha mais clara se você quer um modelo OpenAI disponível abertamente com orientação de serving local muito explícita, especialmente a versão menor de 20B. Qwen 3.5 é a família mais ampla e é aquela a ser considerada se você se importa mais com cobertura multilíngue, múltiplos tamanhos e opções flexíveis de serving local.
Se você quer acessar esses principais modelos open-source usando APIs e não quer trocar de fornecedor, então recomendo a CometAPI, que oferece GPT-oss-120B e Qwen 3.5 plus API, entre outros.
Em outras palavras, você pode consumir o Small 4 como um modelo hospedado ou puxar os pesos e auto-hospedá-lo na sua própria infraestrutura.
Conclusão
O Small 4 é uma ótima opção quando você precisa de um modelo com pesos abertos, multimodal, capaz de raciocínio, que possa ser auto-hospedado, ajustado (fine-tuned) e integrado a stacks de aplicativos no estilo OpenAI existentes. Ele é especialmente atraente para equipes que se preocupam com controle de implantação, residência de dados e menores custos marginais por token, ao mesmo tempo em que desejam um modelo moderno de uso geral.
Pronto para acessar o Mistral Small 4? Então venha para a CometAPI!
