Mistral Small 4-ті жергілікті түрде қалай іске қосуға болады

Mistral Small 4 — Mistral AI ұсынған (2026 жылғы наурыз) жаңа мультимодальды AI моделі, ол инференс, ойлау, код жазу және мультимодальды мүмкіндіктерді бірыңғай архитектураға біріктіреді. Ол 256K контекст терезесін, Mixture-of-Experts (MoE) дизайнын (~119B жалпы параметр, бір токенге ~6.5B белсенді) ұсынады және инференс жылдамдығын арттырады (кідірісті 40%-ға дейін төмендету), сонымен бірге бенчмарктарда GPT-OSS 120B сияқты салыстырмалы ашық модельдерден асып түседі.

Жергілікті түрде іске қосу үшін жоғары жадты GPU-лар (≥48GB VRAM ұсынылады) немесе квантизацияланған орналастырулар, сондай-ақ Transformers, vLLM немесе Ollama сияқты фреймворктар қажет.

Mistral Small 4 деген не?

Бір модель – бірнеше міндетке

Mistral Small 4 — “әмбебап” модель: ол Mistral-дың бұрынғы нұсқамалық, ойлау және кодтау отбасыларының артықшылықтарын бір модельде біріктіреді. Компанияның өз сипаттамасында Small 4 — Magistral (ойлау), Pixtral (мультимодальды міндеттер) және Devstral (агенттік кодтау) мүмкіндіктерін біріктірген алғашқы Mistral моделі. Ол мәтін мен суретті кіріс ретінде қабылдайды, мәтін шығарады және чат, кодтау, агенттік жұмыс процестері, құжаттарды түсіну, зерттеу және визуалды талдау үшін арналған.

Неге бұл шығарылым маңызды

Практикалық тұрғыда Mistral Small 4 модельдерді ауыстыру шығынын азайтады. Бір тілді нұсқамалық модельге, екіншісін ойлау моделіне, үшіншісін көру моделіне бағыттаудың орнына, бір ғана соңғы нүктені қолданып, қажетіне қарай reasoning_effort параметрін реттей аласыз. Mistral нақтылайды: reasoning_effort="none" Small 3.2 стиліндегі чатқа ұқсас жылдам, жеңіл жауаптар береді, ал reasoning_effort="high" бұрынғы Magistral модельдеріне ұқсас тереңірек, көлемдірек ойлау жасайды.

Mistral Small 4 өнімділік бенчмарктары

Негізгі өнімділік ерекшеліктері

Mistral Small 4-ті жергілікті түрде қалай іске қосуға болады

Өлшем	Mistral Small 4
Архитектура	MoE
Контекст терезесі	256K
Кідіріс	↓ 40%-ға дейін
Кодтау бенчмарктары	GPT-OSS 120B-ден озады
Шығыс тиімділігі	Токендер 20% азырақ

👉 Бұл оны өндірістік деңгейдегі AI жүйелері үшін өте қолайлы етеді.

Архитектура (Негізгі техникалық түсінік)

Модель түрі: Mixture-of-Experts (MoE)
Жалпы параметр саны: ~119B
Бір токенге белсенді параметр: ~6.5B
Эксперттер: ~128 (әр алға өтуде 4 белсенді)

👉 Бұл архитектура үлкен модель ақылын шағын модель құнымен ұсынады, сондықтан тығыз (dense) модельдермен салыстырғанда жергілікті орналастыруға тиімді.

Mistral Small 4-ті орналастыру талаптары

Ресми минимум және ұсынылатын инфрақұрылым

Mistral бұл жерде әдеттен тыс нақты. Минималды инфрақұрылым: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 немесе 1x NVIDIA DGX B200. Оптималды өнімділік үшін ұсынылатын баптама: 4x HGX H100, 4x HGX H200 немесе 2x DGX B200. Бұл толықтай ресми жолдың дербес тұтынушылық GPU-дан гөрі деректер орталығы деңгейіндегі машиналарға бағытталғанын айқын көрсетеді.

Практикада бұл нені білдіреді

Mistral Small 4 ашық салмақты және өз өлшемі үшін тиімді болса да, ол 256k контексті бар 119B MoE жүйесі. Нақты орналастыруларда бұл комбинация контекст ұзындығы өскен сайын жад қысымының тез артуын білдіреді және тұрақты өнімділік әдетте көп-GPU тензорлық параллелизмге және тиімді қызмет көрсетуге тәуелді. Сондықтан біз vLLM-ды негізгі өзіндік орналастыру қозғалтқышы ретінде ұсынамыз және бір машинада “өздігінен жұмыс істейді” әдепкілерінің орнына OpenAI-мен үйлесімді қызмет көрсету үлгілерін қолдануды меңзейміз.

Ұсынылатын конфигурация (Кәсіби)

Компонент	Ұсыным
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 ядро
RAM	128GB
Жад	NVMe SSD

Неліктен аппараттық құрал маңызды

Себебі:

119B параметрлі модель (MoE болса да)
Үлкен контекст (256K токен)
Мультимодальды өңдеу

👉 Оптимизациясыз ол тұтынушылық GPU-лар үшін тым ауыр

Mistral Small 4-ті жергілікті түрде қалай іске қосу керек (қадам-қадамымен)

1-қадам) Салмақтарды алыңыз және қол жеткізу шарттарын қабылдаңыз

vLLM әдепкіде салмақтарды Hugging Face-тен алады, сондықтан сізге READ рұқсаты бар Hugging Face қолжеткізу токені қажет және модель картасындағы шарттарды қабылдау керек. Практикалық жергілікті орнату үшін NVIDIA драйверлері, CUDA-үйлесімді рантайм, Python және таңдалған чекпойнтқа жеткілікті GPU жады бар Linux машинасын дайындаңыз. Егер артефактілер өзіңіздің сақтау орныңызда болса, Hugging Face баптауын өткізіп, vLLM-ды жергілікті жолға бағыттай аласыз.

2-қадам) Ресми ұсынылатын сервер стекін қолданыңыз

Өзіндік орналастыруды vLLM арқылы ұсынады, ол OpenAI-мен үйлесімді API ұсына алатын жоғары оңтайландырылған қызмет көрсету фреймворкі ретінде сипатталады. Өзіндік орналастыру құжаттарында сондай-ақ TensorRT-LLM және TGI балама ретінде аталады, бірақ бұл модель отбасы үшін vLLM ұсынылатын жол.

3-қадам) Mistral ұсынған Docker имиджін тартыңыз немесе vLLM-ды қолмен орнатыңыз

Mistral Small 4 қажетті құрал-қолдану және ойлау-талдау түзетулері бар теңшелген Docker имиджін пайдалануды немесе патчталған vLLM құралының қолмен орнатылуын ұсынады. Картада арнайы имидж беріледі және Mistral өзгерістерді vLLM командасымен біріктіріп жатқанын ескертеді.

Бастау үшін практикалық нүкте:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

4-қадам) Модельді сервис ретінде көтеріңіз

Mistral ұсынған сервер командасы:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Бұл команда жергілікті оқиғадағы ең маңызды практикалық ишара: модельдің маңызды GPU бэкендімен, ұзын контекст терезесімен және Mistral-ға тән құрал және ойлау парсерлерімен іске қосуға арналғанын көрсетеді.

5-қадам) Қолданбаңызды жергілікті соңғы нүктеге қосыңыз

vLLM OpenAI-мен үйлесімді REST API ұсынғандықтан, әдетте бар OpenAI SDK кодыңызды http://localhost:8000/v1 мекенжайына бағыттап, қолданба логикасының көп бөлігін өзгертпей қала аласыз. Mistral мысалында base_url="http://localhost:8000/v1" және бос API кілті қолданылады — бұл жергілікті әзірлеуде жиі қолданылатын тәсіл.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

6-қадам) Жылдамдықты немесе сапаны баптаңыз

Егер сіз модельді жергілікті түрде сынақтан өткізіп жатсаңыз, күрделі промптар үшін reasoning_effort="high" және сол режимде temperature=0.7 ұсынылады, ал ойлау өшірілгенде температураны төменірек ұстаған жөн. Сондай-ақ картада үздік дәлдік үшін FP8 чекпойнті, ал өткізу қабілеті және төмен жад тұтынуы үшін NVFP4 чекпойнті бөлек берілген — сондықтан дұрыс конфигурация сіздің сапа, жылдамдық немесе аппараттық із қалдырылым басымдығыңызға байланысты.

7-қадам: Қосымша – Ollama арқылы іске қосу (жеңілдетілген)

ollama run mistral-small-4

👉 Қолайлы:

Жергілікті әзірлеу
Жылдам орнату

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Толық салыстыру)

Mistral Small 4: аса тиімді MoE

119B жалпы параметр
~6.5B бір токенге белсенді
128 эксперт (4 белсенді)
Мультимодальды (мәтін + сурет)

👉 Негізгі ой: өте үлкен сыйымдылық, бірақ токенге есептеу аз

Бұл береді:

Жоғары өнімділік
Төмен кідіріс
Инференс құны төмен

GPT-OSS: орналастыруға арналған практикалық MoE

120B нұсқа: ~117B жалпы / 5.1B белсенді
20B нұсқа: ~21B жалпы / 3.6B белсенді
Тек мәтін

👉 Негізгі ой: қуатты модельдерді минималды аппаратта іске сыйғызу

бір H100 GPU-да іске қосыла алады
Құрал қолдану / құрылымдалған шығуларға мықты қолдау

Qwen 3.5: жоғары қабілетті масштабтау

122B параметрге дейін
Жоғары белсенді параметр саны (~20B+)
Мультимодальды + күшті көптілділік

👉 Негізгі ой: есептеу құны өссе де қабілетті барынша арттыру

Өнімділік бенчмарк салыстыруы

Санат	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Кіріс / Шығыс	Мәтін + Сурет кірісі → Мәтін шығысыКонтекст: 256K токен	Мәтін кірісі → Мәтін шығысыКонтекст: ~128K токен	Мәтін + Сурет + Видео → Мәтін шығысыКонтекст: 1M токенге дейін
Баға (API)	$0.15 /M кіріс$0.60 /M шығыс	Ресми API бағасы жоқ (өзін-өзі хост)→ Инфраға тәуелді құн	$0.40–0.50 /M кіріс$2.40–3.00 /M шығыс
Архитектура	MoE (Mixture-of-Experts)119B жалпы / 6.5B белсенді128 эксперт (4 белсенді)	MoE Transformer120B: 117B / 5.1B белсенді20B: 21B / 3.6B белсенді	Гибрид MoE + кеңейтілген қабаттарUp to 397B total (A17B active)
Мультимодальды	✅ Сурет қолдауы	❌ Тек мәтін	✅ Сурет + Видео
Ойлауды басқару	✅ (reasoning_effort)	✅ (low/med/high modes)	✅ Adaptive reasoning
Контекст тиімділігі	⭐⭐⭐⭐⭐ (қысқа шығулар)	⭐⭐⭐⭐	⭐⭐⭐ (ұзын шығулар)
Құрал/Агент қолдау	✅ Туған құралдар, агенттер, құрылымдалған нәтижелер	✅ Құрал қолдану, құрылымдалған нәтижелер	✅ Кеңейтілген агент экожүйесі
Кодтау қабілеті	⭐⭐⭐⭐⭐ (Devstral деңгейі)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Орналастыру	Ауыр (көп-GPU ұсынылады)	Икемді (бір GPU мүмкін)	Ауыр (клауд ауқымы ұсынылады)

Ойлау қосылғанда, Small 4 LCR, LiveCodeBench және AIME 2025 бойынша GPT-OSS 120B-мен теңеседі немесе одан асып түседі, әрі қысқаша шығулар жасайды. Mistral бір мысалда Small 4 AA LCR-да 0.72 көрсеткішін небәрі 1.6K таңбамен алғанын келтіреді, ал салыстырмалы Qwen нәтижелеріне 5.8K–6.1K таңба қажет болған; сондай-ақ Small 4 LiveCodeBench-те GPT-OSS 120B-ден озып, 20% қысқа шығулар береді.

Mistral Small 4-ті жергілікті түрде қалай іске қосуға болады

Қайсысы жергілікті қолдануға ең жақсы таңдау?

Менің ойымша: Mistral Small 4 — жалпы чат, кодтау, агенттік жұмыс және мультимодальды қолдауы мықты, теңгерімді жергілікті немесе жеке орналастыруға арналған «бір модельдік» ең үздік таңдау. GPT-OSS — өте айқын жергілікті сервинг нұсқаулығы бар OpenAI моделін қажет етсеңіз, әсіресе 20B кіші нұсқасы — ең түсінікті таңдау. Qwen3.5 — ең кең отбасы, егер сіз көптілді қамтуға, әртүрлі өлшем сатыларына және икемді жергілікті сервинг мүмкіндіктеріне көбірек мән берсеңіз, назар аударыңыз.

Егер осы үздік ашық модельдерді API арқылы қолданып, жеткізушілерді ауыстырғыңыз келмесе, мен CometAPI қызметін ұсынамын: онда GPT-oss-120B және Qwen 3.5 plus API және т.б. бар.

Басқаша айтқанда, Small 4-ті хостингтелген модель ретінде де тұтына аласыз, не салмақтарды тартып, өз инфрақұрылымыңызда өзін-өзі хост етіп іске қоса аласыз.

Қорытынды

Small 4 — ашық салмақты, мультимодальды, ойлау қабілеті бар модель қажет болғанда және оны өзін-өзі хосттау, fine-tune жасау және бар OpenAI-стиліндегі қолданба стектерімен интеграциялау керек болғанда өте сәтті таңдау. Ол орналастыруды бақылауға, деректердің орналасуына және маржиналды токен құнын төмендетуге мән беретін, сонымен бірге заманауи жалпы мақсаттағы модель қалаған командалар үшін ерекше тартымды.

Mistral Small 4 қолжетімді ме? Онда CometAPI қызметіне келіңіз!

Mistral Small 4 деген не?

Бір модель – бірнеше міндетке

Неге бұл шығарылым маңызды

Mistral Small 4 өнімділік бенчмарктары

Негізгі өнімділік ерекшеліктері

Архитектура (Негізгі техникалық түсінік)

Mistral Small 4-ті орналастыру талаптары

Ресми минимум және ұсынылатын инфрақұрылым

Практикада бұл нені білдіреді

Ұсынылатын конфигурация (Кәсіби)

Неліктен аппараттық құрал маңызды

Mistral Small 4-ті жергілікті түрде қалай іске қосу керек (қадам-қадамымен)

1-қадам) Салмақтарды алыңыз және қол жеткізу шарттарын қабылдаңыз

2-қадам) Ресми ұсынылатын сервер стекін қолданыңыз

3-қадам) Mistral ұсынған Docker имиджін тартыңыз немесе vLLM-ды қолмен орнатыңыз

4-қадам) Модельді сервис ретінде көтеріңіз

5-қадам) Қолданбаңызды жергілікті соңғы нүктеге қосыңыз

6-қадам) Жылдамдықты немесе сапаны баптаңыз

7-қадам: Қосымша – Ollama арқылы іске қосу (жеңілдетілген)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (Толық салыстыру)

Mistral Small 4: аса тиімді MoE

GPT-OSS: орналастыруға арналған практикалық MoE

Qwen 3.5: жоғары қабілетті масштабтау

Өнімділік бенчмарк салыстыруы

Қайсысы жергілікті қолдануға ең жақсы таңдау?

Қорытынды

Жоғары деңгейдегі модельдерге төмен бағамен қол жеткізіңіз

Толығырақ оқу