Jak uruchomić Mistral Small 4 lokalnie

Mistral Small 4 to nowo wydany multimodalny model AI firmy Mistral AI (marzec 2026), który łączy wnioskowanie, rozumowanie, programowanie i możliwości multimodalne w jednej architekturze. Oferuje okno kontekstu 256K, architekturę Mixture-of-Experts (MoE) (~119 mld parametrów łącznie, ~6,5 mld aktywnych na token) oraz zapewnia szybsze wnioskowanie (do 40% niższe opóźnienie), jednocześnie przewyższając porównywalne otwarte modele, takie jak GPT-OSS 120B, w benchmarkach.

Aby uruchomić go lokalnie, potrzebujesz kart GPU z dużą pamięcią (zalecane ≥48 GB VRAM) lub wdrożeń skwantyzowanych, a także frameworków takich jak Transformers, vLLM lub Ollama.

Czym jest Mistral Small 4?

Jeden model do wielu zadań

Mistral Small 4 najlepiej rozumieć jako model „wszechstronny”: łączy mocne strony wcześniejszych rodzin modeli Mistral do instrukcji, rozumowania i programowania w jeden model. W oficjalnym opisie firmy Small 4 jest pierwszym modelem Mistral, który integruje możliwości Magistral do rozumowania, Pixtral do zadań multimodalnych oraz Devstral do agentowego programowania. Przyjmuje wejścia tekstowe i obrazowe, generuje tekst i jest przeznaczony do czatu, programowania, przepływów agentowych, rozumienia dokumentów, badań i analizy wizualnej.

Dlaczego to wydanie ma znaczenie

Praktyczne znaczenie polega na tym, że Mistral Small 4 zmniejsza narzut związany z przełączaniem modeli. Zamiast kierować jeden prompt do szybkiego modelu instrukcyjnego, drugi do modelu rozumującego, a trzeci do modelu wizyjnego, możesz używać jednego endpointu i w razie potrzeby dostosowywać ustawienie reasoning_effort. Mistral wyraźnie wskazuje, że reasoning_effort="none" zapewnia szybkie, lekkie odpowiedzi porównywalne ze stylem czatu Small 3.2, natomiast reasoning_effort="high" daje głębsze, bardziej rozbudowane rozumowanie podobne do wcześniejszych modeli Magistral.

Benchmarki wydajności Mistral Small 4

Najważniejsze wyróżniki wydajności

Jak uruchomić Mistral Small 4 lokalnie

Metryka	Mistral Small 4
Architektura	MoE
Okno kontekstu	256K
Opóźnienie	↓ do 40%
Benchmarki kodowania	Lepszy niż GPT-OSS 120B
Efektywność wyjścia	20% mniej tokenów

👉 To czyni go idealnym wyborem dla produkcyjnych systemów AI.

Architektura (kluczowy wgląd techniczny)

Typ modelu: Mixture-of-Experts (MoE)
Łączna liczba parametrów: ~119B
Aktywne parametry na token: ~6,5B
Eksperci: ~128 (4 aktywne na przebieg forward)

👉 Ta architektura zapewnia inteligencję dużego modelu przy koszcie małego modelu, dzięki czemu lepiej nadaje się do lokalnego wdrożenia niż modele gęste.

Jakie wymagania wdrożeniowe należy uwzględnić dla Mistral Small 4

Oficjalne minimum i zalecana infrastruktura

Mistral jest tutaj wyjątkowo konkretny. Minimalna infrastruktura to 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 lub 1x NVIDIA DGX B200. Zalecana konfiguracja dla optymalnej wydajności to 4x HGX H100, 4x HGX H200 lub 2x DGX B200. To wyraźny sygnał, że w pełni oficjalna ścieżka jest skierowana raczej do maszyn klasy data center niż do pojedynczej konsumenckiej karty GPU.

Co to oznacza w praktyce

Mistral Small 4 ma otwarte wagi i jest wydajny jak na swoje rozmiary, ale nadal jest to system MoE 119B z oknem kontekstu 256k. W rzeczywistych wdrożeniach taka kombinacja oznacza, że presja na pamięć szybko rośnie wraz z długością kontekstu, a utrzymanie wydajności zwykle zależy od równoległości tensorowej na wielu GPU oraz wydajnego oprogramowania serwującego. Dlatego zaleca się vLLM jako podstawowy silnik do samodzielnego wdrożenia i udostępnianie wzorców serwowania zgodnych z OpenAI zamiast domyślnych ustawień typu „po prostu działa” na pojedynczej maszynie.

Zalecana konfiguracja (profesjonalna)

Komponent	Rekomendacja
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 rdzeni
RAM	128GB
Dysk	NVMe SSD

Dlaczego sprzęt ma znaczenie

Ponieważ:

model ma 119B parametrów (nawet jeśli to MoE),
duży kontekst (256K tokenów),
przetwarzanie multimodalne.

👉 Bez optymalizacji jest zbyt ciężki dla konsumenckich GPU

Jak uruchomić Mistral Small 4 lokalnie (krok po kroku)

Krok 1) Pobierz wagi i zaakceptuj warunki dostępu

vLLM domyślnie pobiera wagi z Hugging Face, więc potrzebujesz tokena dostępu Hugging Face z uprawnieniem READ i musisz zaakceptować warunki na karcie modelu. Do praktycznej lokalnej konfiguracji przygotuj maszynę z Linuksem, sterownikami NVIDIA, środowiskiem zgodnym z CUDA, Pythonem oraz wystarczającą ilością pamięci GPU dla wybranego checkpointu. Jeśli artefakty masz już we własnej pamięci masowej, możesz pominąć konfigurację Hugging Face i zamiast tego wskazać vLLM lokalną ścieżkę.

Krok 2) Użyj oficjalnie zalecanego stosu serwerowego

Rekomendowane jest samodzielne wdrożenie przez vLLM, które opisano jako wysoce zoptymalizowany framework serwujący mogący udostępniać API zgodne z OpenAI. Dokumentacja self-hostingu wspomina także TensorRT-LLM i TGI jako alternatywy, ale vLLM jest zalecaną ścieżką dla tej rodziny modeli.

Krok 3) Pobierz zalecany przez Mistral obraz Docker lub zainstaluj vLLM ręcznie

Mistral Small 4 zaleca użycie niestandardowego obrazu Docker z niezbędnymi poprawkami dla wywołań narzędzi i parsowania rozumowania albo ręczną instalację poprawionej wersji vLLM. Karta modelu udostępnia własny obraz i zaznacza, że Mistral współpracuje z zespołem vLLM nad włączeniem zmian upstream.

Praktyczny punkt startowy to:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Krok 4) Uruchom serwowanie modelu

Zalecana przez Mistral komenda serwera to:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

To polecenie jest najważniejszą praktyczną wskazówką w całej historii lokalnego uruchamiania: pokazuje, że model jest przeznaczony do działania z poważnym backendem GPU, długim oknem kontekstu oraz włączonymi parserami narzędzi i rozumowania specyficznymi dla Mistral.

Krok 5) Podłącz swoją aplikację do lokalnego endpointu

Ponieważ vLLM udostępnia REST API zgodne z OpenAI, zwykle możesz skierować istniejący kod OpenAI SDK na http://localhost:8000/v1 i pozostawić większość logiki aplikacji bez zmian. Przykład Mistral używa base_url="http://localhost:8000/v1" oraz pustego klucza API, co jest częstym wzorcem w lokalnym developmentcie.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Krok 6) Dostosuj ustawienia pod kątem szybkości lub jakości

Jeśli testujesz model lokalnie, zalecane jest reasoning_effort="high" dla złożonych promptów oraz temperature=0.7 w tym trybie, podczas gdy niższe temperatury są bardziej odpowiednie, gdy rozumowanie jest wyłączone. Ta sama karta modelu rozdziela także checkpoint FP8 dla najlepszej jakości od checkpointu NVFP4 dla większej przepustowości i mniejszego zużycia pamięci, więc właściwa konfiguracja zależy od tego, czy optymalizujesz jakość, szybkość czy wymagania sprzętowe.

Krok 7: Opcjonalnie – uruchom przez Ollama (uproszczone)

ollama run mistral-small-4

👉 Najlepsze do:

lokalnego developmentu,
szybkiej konfiguracji.

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (pełne porównanie)

Mistral Small 4: skrajnie wydajny MoE

119B parametrów łącznie
~6,5B aktywnych na token
128 ekspertów (4 aktywnych)
Multimodalny (tekst + obraz)

👉 Kluczowa idea: bardzo duża pojemność przy niskim koszcie obliczeń na token

Daje to:

wysoką wydajność,
niskie opóźnienia,
niższy koszt pojedynczego wnioskowania.

GPT-OSS: praktyczny MoE do wdrożeń

Wersja 120B: ~117B łącznie / 5,1B aktywnych
Wersja 20B: ~21B łącznie / 3,6B aktywnych
Tylko tekst

👉 Kluczowa idea: uruchamianie mocnych modeli na minimalnym sprzęcie

Może działać na pojedynczej karcie H100
Mocne wsparcie dla narzędzi / wyjścia strukturalnego

Qwen 3.5: skalowanie wysokich możliwości

Do 122B parametrów
Wyższa liczba aktywnych parametrów (~20B+)
Multimodalny + silne wsparcie wielojęzyczne

👉 Kluczowa idea: maksymalizacja możliwości nawet kosztem wyższych kosztów obliczeniowych

Porównanie benchmarków wydajności

Kategoria	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Wejście / Wyjście	Wejście tekst + obraz → wyjście tekstKontekst: 256K tokenów	Wejście tekst → wyjście tekstKontekst: ~128K tokenów	Wejście tekst + obraz + wideo → wyjście tekstKontekst: do 1M tokenów
Cena (API)	$0.15 /M input$0.60 /M output	Brak oficjalnego cennika API (self-hosted)→ koszt zależny od infrastruktury	$0.40–0.50 /M input$2.40–3.00 /M output
Architektura	MoE (Mixture-of-Experts)119B łącznie / 6.5B aktywnych128 ekspertów (4 aktywnych)	MoE Transformer120B: 117B / 5.1B aktywnych20B: 21B / 3.6B aktywnych	Hybrydowe MoE + zaawansowane warstwyDo 397B łącznie (A17B active)
Multimodalność	✅ Obsługa obrazów	❌ Tylko tekst	✅ Obrazy + wideo
Kontrola rozumowania	✅ (`reasoning_effort`)	✅ (tryby low/med/high)	✅ Adaptacyjne rozumowanie
Efektywność kontekstu	⭐⭐⭐⭐⭐ (krótkie odpowiedzi)	⭐⭐⭐⭐	⭐⭐⭐ (długie odpowiedzi)
Wsparcie narzędzi / agentów	✅ Natywne narzędzia, agenci, wyjścia strukturalne	✅ Mocne wsparcie narzędzi, wyjścia strukturalne	✅ Zaawansowany ekosystem agentowy
Zdolności kodowania	⭐⭐⭐⭐⭐ (poziom Devstral)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Wdrożenie	Wymagające (zalecane wiele GPU)	Elastyczne (możliwy pojedynczy GPU)	Wymagające (preferowana skala chmurowa)

Przy włączonym rozumowaniu Small 4 dorównuje lub przewyższa GPT-OSS 120B w LCR, LiveCodeBench i AIME 2025, jednocześnie generując krótsze odpowiedzi. Mistral podaje przykład, w którym Small 4 uzyskuje 0,72 w AA LCR przy zaledwie 1,6 tys. znaków, podczas gdy porównywalne wyniki Qwen wymagały 5,8–6,1 tys. znaków, oraz twierdzi, że Small 4 przewyższa GPT-OSS 120B w LiveCodeBench, generując jednocześnie o 20% mniej wyjścia.

Jak uruchomić Mistral Small 4 lokalnie

Który z nich jest najlepszym wyborem do uruchamiania lokalnego?

Moim zdaniem Mistral Small 4 to najlepszy wybór „jednego modelu”, jeśli chcesz zrównoważonego wdrożenia lokalnego lub prywatnego z mocnym ogólnym czatem, programowaniem, pracą agentową i obsługą multimodalną. GPT-OSS jest najbardziej oczywistym wyborem, jeśli chcesz otwarcie dostępny model OpenAI z bardzo jasnymi wskazówkami dotyczącymi lokalnego serwowania, zwłaszcza mniejszą wersję 20B. Qwen3.5 to najszersza rodzina i warto się jej przyjrzeć, jeśli najbardziej zależy Ci na obsłudze wielu języków, wielu wariantach rozmiarowych i elastycznych opcjach lokalnego serwowania.

Jeśli chcesz uzyskać dostęp do tych najlepszych modeli open source przez API i nie chcesz zmieniać dostawców, polecam CometAPI, które udostępnia GPT-oss-120B i Qwen 3.5 plus API itd.

Innymi słowy, możesz korzystać z Small 4 jako modelu hostowanego albo pobrać wagi i hostować go samodzielnie na własnej infrastrukturze.

Podsumowanie

Small 4 bardzo dobrze sprawdza się wtedy, gdy potrzebujesz modelu z otwartymi wagami, multimodalnego, zdolnego do rozumowania, który można hostować samodzielnie, dostrajać i integrować z istniejącymi stosami aplikacyjnymi w stylu OpenAI. Jest szczególnie atrakcyjny dla zespołów, którym zależy na kontroli wdrożenia, rezydencji danych i niższych krańcowych kosztach tokenów, a jednocześnie chcą nowoczesnego modelu ogólnego przeznaczenia.

Gotowy na dostęp do Mistral Small 4? W takim razie odwiedź CometAPI!

Czym jest Mistral Small 4?

Jeden model do wielu zadań

Dlaczego to wydanie ma znaczenie

Benchmarki wydajności Mistral Small 4

Najważniejsze wyróżniki wydajności

Architektura (kluczowy wgląd techniczny)

Jakie wymagania wdrożeniowe należy uwzględnić dla Mistral Small 4

Oficjalne minimum i zalecana infrastruktura

Co to oznacza w praktyce

Zalecana konfiguracja (profesjonalna)

Dlaczego sprzęt ma znaczenie

Jak uruchomić Mistral Small 4 lokalnie (krok po kroku)

Krok 1) Pobierz wagi i zaakceptuj warunki dostępu

Krok 2) Użyj oficjalnie zalecanego stosu serwerowego

Krok 3) Pobierz zalecany przez Mistral obraz Docker lub zainstaluj vLLM ręcznie

Krok 4) Uruchom serwowanie modelu

Krok 5) Podłącz swoją aplikację do lokalnego endpointu

Krok 6) Dostosuj ustawienia pod kątem szybkości lub jakości

Krok 7: Opcjonalnie – uruchom przez Ollama (uproszczone)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (pełne porównanie)

Mistral Small 4: skrajnie wydajny MoE

GPT-OSS: praktyczny MoE do wdrożeń

Qwen 3.5: skalowanie wysokich możliwości

Porównanie benchmarków wydajności

Który z nich jest najlepszym wyborem do uruchamiania lokalnego?

Podsumowanie

Dostęp do najlepszych modeli po niskich kosztach

Czytaj więcej