Mistral Small 4 to nowo wydany multimodalny model AI firmy Mistral AI (marzec 2026), który łączy wnioskowanie, rozumowanie, programowanie i możliwości multimodalne w jednej architekturze. Oferuje okno kontekstu 256K, architekturę Mixture-of-Experts (MoE) (~119 mld parametrów łącznie, ~6,5 mld aktywnych na token) oraz zapewnia szybsze wnioskowanie (do 40% niższe opóźnienie), jednocześnie przewyższając porównywalne otwarte modele, takie jak GPT-OSS 120B, w benchmarkach.
Aby uruchomić go lokalnie, potrzebujesz kart GPU z dużą pamięcią (zalecane ≥48 GB VRAM) lub wdrożeń skwantyzowanych, a także frameworków takich jak Transformers, vLLM lub Ollama.
Czym jest Mistral Small 4?
Jeden model do wielu zadań
Mistral Small 4 najlepiej rozumieć jako model „wszechstronny”: łączy mocne strony wcześniejszych rodzin modeli Mistral do instrukcji, rozumowania i programowania w jeden model. W oficjalnym opisie firmy Small 4 jest pierwszym modelem Mistral, który integruje możliwości Magistral do rozumowania, Pixtral do zadań multimodalnych oraz Devstral do agentowego programowania. Przyjmuje wejścia tekstowe i obrazowe, generuje tekst i jest przeznaczony do czatu, programowania, przepływów agentowych, rozumienia dokumentów, badań i analizy wizualnej.
Dlaczego to wydanie ma znaczenie
Praktyczne znaczenie polega na tym, że Mistral Small 4 zmniejsza narzut związany z przełączaniem modeli. Zamiast kierować jeden prompt do szybkiego modelu instrukcyjnego, drugi do modelu rozumującego, a trzeci do modelu wizyjnego, możesz używać jednego endpointu i w razie potrzeby dostosowywać ustawienie reasoning_effort. Mistral wyraźnie wskazuje, że reasoning_effort="none" zapewnia szybkie, lekkie odpowiedzi porównywalne ze stylem czatu Small 3.2, natomiast reasoning_effort="high" daje głębsze, bardziej rozbudowane rozumowanie podobne do wcześniejszych modeli Magistral.
Benchmarki wydajności Mistral Small 4
Najważniejsze wyróżniki wydajności

| Metryka | Mistral Small 4 |
|---|---|
| Architektura | MoE |
| Okno kontekstu | 256K |
| Opóźnienie | ↓ do 40% |
| Benchmarki kodowania | Lepszy niż GPT-OSS 120B |
| Efektywność wyjścia | 20% mniej tokenów |
👉 To czyni go idealnym wyborem dla produkcyjnych systemów AI.
Architektura (kluczowy wgląd techniczny)
- Typ modelu: Mixture-of-Experts (MoE)
- Łączna liczba parametrów: ~119B
- Aktywne parametry na token: ~6,5B
- Eksperci: ~128 (4 aktywne na przebieg forward)
👉 Ta architektura zapewnia inteligencję dużego modelu przy koszcie małego modelu, dzięki czemu lepiej nadaje się do lokalnego wdrożenia niż modele gęste.
Jakie wymagania wdrożeniowe należy uwzględnić dla Mistral Small 4
Oficjalne minimum i zalecana infrastruktura
Mistral jest tutaj wyjątkowo konkretny. Minimalna infrastruktura to 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 lub 1x NVIDIA DGX B200. Zalecana konfiguracja dla optymalnej wydajności to 4x HGX H100, 4x HGX H200 lub 2x DGX B200. To wyraźny sygnał, że w pełni oficjalna ścieżka jest skierowana raczej do maszyn klasy data center niż do pojedynczej konsumenckiej karty GPU.
Co to oznacza w praktyce
Mistral Small 4 ma otwarte wagi i jest wydajny jak na swoje rozmiary, ale nadal jest to system MoE 119B z oknem kontekstu 256k. W rzeczywistych wdrożeniach taka kombinacja oznacza, że presja na pamięć szybko rośnie wraz z długością kontekstu, a utrzymanie wydajności zwykle zależy od równoległości tensorowej na wielu GPU oraz wydajnego oprogramowania serwującego. Dlatego zaleca się vLLM jako podstawowy silnik do samodzielnego wdrożenia i udostępnianie wzorców serwowania zgodnych z OpenAI zamiast domyślnych ustawień typu „po prostu działa” na pojedynczej maszynie.
Zalecana konfiguracja (profesjonalna)
| Komponent | Rekomendacja |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 rdzeni |
| RAM | 128GB |
| Dysk | NVMe SSD |
Dlaczego sprzęt ma znaczenie
Ponieważ:
- model ma 119B parametrów (nawet jeśli to MoE),
- duży kontekst (256K tokenów),
- przetwarzanie multimodalne.
👉 Bez optymalizacji jest zbyt ciężki dla konsumenckich GPU
Jak uruchomić Mistral Small 4 lokalnie (krok po kroku)
Krok 1) Pobierz wagi i zaakceptuj warunki dostępu
vLLM domyślnie pobiera wagi z Hugging Face, więc potrzebujesz tokena dostępu Hugging Face z uprawnieniem READ i musisz zaakceptować warunki na karcie modelu. Do praktycznej lokalnej konfiguracji przygotuj maszynę z Linuksem, sterownikami NVIDIA, środowiskiem zgodnym z CUDA, Pythonem oraz wystarczającą ilością pamięci GPU dla wybranego checkpointu. Jeśli artefakty masz już we własnej pamięci masowej, możesz pominąć konfigurację Hugging Face i zamiast tego wskazać vLLM lokalną ścieżkę.
Krok 2) Użyj oficjalnie zalecanego stosu serwerowego
Rekomendowane jest samodzielne wdrożenie przez vLLM, które opisano jako wysoce zoptymalizowany framework serwujący mogący udostępniać API zgodne z OpenAI. Dokumentacja self-hostingu wspomina także TensorRT-LLM i TGI jako alternatywy, ale vLLM jest zalecaną ścieżką dla tej rodziny modeli.
Krok 3) Pobierz zalecany przez Mistral obraz Docker lub zainstaluj vLLM ręcznie
Mistral Small 4 zaleca użycie niestandardowego obrazu Docker z niezbędnymi poprawkami dla wywołań narzędzi i parsowania rozumowania albo ręczną instalację poprawionej wersji vLLM. Karta modelu udostępnia własny obraz i zaznacza, że Mistral współpracuje z zespołem vLLM nad włączeniem zmian upstream.
Praktyczny punkt startowy to:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Krok 4) Uruchom serwowanie modelu
Zalecana przez Mistral komenda serwera to:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
To polecenie jest najważniejszą praktyczną wskazówką w całej historii lokalnego uruchamiania: pokazuje, że model jest przeznaczony do działania z poważnym backendem GPU, długim oknem kontekstu oraz włączonymi parserami narzędzi i rozumowania specyficznymi dla Mistral.
Krok 5) Podłącz swoją aplikację do lokalnego endpointu
Ponieważ vLLM udostępnia REST API zgodne z OpenAI, zwykle możesz skierować istniejący kod OpenAI SDK na http://localhost:8000/v1 i pozostawić większość logiki aplikacji bez zmian. Przykład Mistral używa base_url="http://localhost:8000/v1" oraz pustego klucza API, co jest częstym wzorcem w lokalnym developmentcie.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Krok 6) Dostosuj ustawienia pod kątem szybkości lub jakości
Jeśli testujesz model lokalnie, zalecane jest reasoning_effort="high" dla złożonych promptów oraz temperature=0.7 w tym trybie, podczas gdy niższe temperatury są bardziej odpowiednie, gdy rozumowanie jest wyłączone. Ta sama karta modelu rozdziela także checkpoint FP8 dla najlepszej jakości od checkpointu NVFP4 dla większej przepustowości i mniejszego zużycia pamięci, więc właściwa konfiguracja zależy od tego, czy optymalizujesz jakość, szybkość czy wymagania sprzętowe.
Krok 7: Opcjonalnie – uruchom przez Ollama (uproszczone)
ollama run mistral-small-4
👉 Najlepsze do:
- lokalnego developmentu,
- szybkiej konfiguracji.
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (pełne porównanie)
Mistral Small 4: skrajnie wydajny MoE
- 119B parametrów łącznie
- ~6,5B aktywnych na token
- 128 ekspertów (4 aktywnych)
- Multimodalny (tekst + obraz)
👉 Kluczowa idea: bardzo duża pojemność przy niskim koszcie obliczeń na token
Daje to:
- wysoką wydajność,
- niskie opóźnienia,
- niższy koszt pojedynczego wnioskowania.
GPT-OSS: praktyczny MoE do wdrożeń
- Wersja 120B: ~117B łącznie / 5,1B aktywnych
- Wersja 20B: ~21B łącznie / 3,6B aktywnych
- Tylko tekst
👉 Kluczowa idea: uruchamianie mocnych modeli na minimalnym sprzęcie
- Może działać na pojedynczej karcie H100
- Mocne wsparcie dla narzędzi / wyjścia strukturalnego
Qwen 3.5: skalowanie wysokich możliwości
- Do 122B parametrów
- Wyższa liczba aktywnych parametrów (~20B+)
- Multimodalny + silne wsparcie wielojęzyczne
👉 Kluczowa idea: maksymalizacja możliwości nawet kosztem wyższych kosztów obliczeniowych
Porównanie benchmarków wydajności
| Kategoria | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Wejście / Wyjście | Wejście tekst + obraz → wyjście tekstKontekst: 256K tokenów | Wejście tekst → wyjście tekstKontekst: ~128K tokenów | Wejście tekst + obraz + wideo → wyjście tekstKontekst: do 1M tokenów |
| Cena (API) | $0.15 /M input$0.60 /M output | Brak oficjalnego cennika API (self-hosted)→ koszt zależny od infrastruktury | $0.40–0.50 /M input$2.40–3.00 /M output |
| Architektura | MoE (Mixture-of-Experts)119B łącznie / 6.5B aktywnych128 ekspertów (4 aktywnych) | MoE Transformer120B: 117B / 5.1B aktywnych20B: 21B / 3.6B aktywnych | Hybrydowe MoE + zaawansowane warstwyDo 397B łącznie (A17B active) |
| Multimodalność | ✅ Obsługa obrazów | ❌ Tylko tekst | ✅ Obrazy + wideo |
| Kontrola rozumowania | ✅ (reasoning_effort) | ✅ (tryby low/med/high) | ✅ Adaptacyjne rozumowanie |
| Efektywność kontekstu | ⭐⭐⭐⭐⭐ (krótkie odpowiedzi) | ⭐⭐⭐⭐ | ⭐⭐⭐ (długie odpowiedzi) |
| Wsparcie narzędzi / agentów | ✅ Natywne narzędzia, agenci, wyjścia strukturalne | ✅ Mocne wsparcie narzędzi, wyjścia strukturalne | ✅ Zaawansowany ekosystem agentowy |
| Zdolności kodowania | ⭐⭐⭐⭐⭐ (poziom Devstral) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Wdrożenie | Wymagające (zalecane wiele GPU) | Elastyczne (możliwy pojedynczy GPU) | Wymagające (preferowana skala chmurowa) |
Przy włączonym rozumowaniu Small 4 dorównuje lub przewyższa GPT-OSS 120B w LCR, LiveCodeBench i AIME 2025, jednocześnie generując krótsze odpowiedzi. Mistral podaje przykład, w którym Small 4 uzyskuje 0,72 w AA LCR przy zaledwie 1,6 tys. znaków, podczas gdy porównywalne wyniki Qwen wymagały 5,8–6,1 tys. znaków, oraz twierdzi, że Small 4 przewyższa GPT-OSS 120B w LiveCodeBench, generując jednocześnie o 20% mniej wyjścia.


Który z nich jest najlepszym wyborem do uruchamiania lokalnego?
Moim zdaniem Mistral Small 4 to najlepszy wybór „jednego modelu”, jeśli chcesz zrównoważonego wdrożenia lokalnego lub prywatnego z mocnym ogólnym czatem, programowaniem, pracą agentową i obsługą multimodalną. GPT-OSS jest najbardziej oczywistym wyborem, jeśli chcesz otwarcie dostępny model OpenAI z bardzo jasnymi wskazówkami dotyczącymi lokalnego serwowania, zwłaszcza mniejszą wersję 20B. Qwen3.5 to najszersza rodzina i warto się jej przyjrzeć, jeśli najbardziej zależy Ci na obsłudze wielu języków, wielu wariantach rozmiarowych i elastycznych opcjach lokalnego serwowania.
Jeśli chcesz uzyskać dostęp do tych najlepszych modeli open source przez API i nie chcesz zmieniać dostawców, polecam CometAPI, które udostępnia GPT-oss-120B i Qwen 3.5 plus API itd.
Innymi słowy, możesz korzystać z Small 4 jako modelu hostowanego albo pobrać wagi i hostować go samodzielnie na własnej infrastrukturze.
Podsumowanie
Small 4 bardzo dobrze sprawdza się wtedy, gdy potrzebujesz modelu z otwartymi wagami, multimodalnego, zdolnego do rozumowania, który można hostować samodzielnie, dostrajać i integrować z istniejącymi stosami aplikacyjnymi w stylu OpenAI. Jest szczególnie atrakcyjny dla zespołów, którym zależy na kontroli wdrożenia, rezydencji danych i niższych krańcowych kosztach tokenów, a jednocześnie chcą nowoczesnego modelu ogólnego przeznaczenia.
Gotowy na dostęp do Mistral Small 4? W takim razie odwiedź CometAPI!
