Как запустить Mistral Small 4 локально

Mistral Small 4 — это недавно выпущенная мультимодальная ИИ-модель от Mistral AI (март 2026), которая объединяет инференс, рассуждение, кодинг и мультимодальные возможности в единой архитектуре. Она имеет контекстное окно 256K, архитектуру Mixture-of-Experts (MoE) (~119B общих параметров, ~6.5B активных на токен) и обеспечивает более быстрый инференс (снижение задержки до 40%), при этом превосходя сопоставимые открытые модели, такие как GPT-OSS 120B, в бенчмарках.

Чтобы запускать её локально, вам понадобятся GPU с большим объёмом памяти (рекомендуется ≥48GB VRAM) или квантизованные развертывания, а также фреймворки вроде Transformers, vLLM или Ollama.

Что такое Mistral Small 4?

Одна модель для множества задач

Mistral Small 4 лучше всего понимать как «универсала»: она объединяет сильные стороны предыдущих семейств Mistral для инструкций, рассуждений и кодинга в одной модели. В формулировке самой компании Small 4 — это первая модель Mistral, которая объединяет возможности Magistral для рассуждений, Pixtral для мультимодальных задач и Devstral для агентного программирования. Она принимает текст и изображения на вход, выдаёт текст на выход и предназначена для чатов, программирования, агентных workflow, понимания документов, исследований и визуального анализа.

Почему этот релиз важен

Практическое значение в том, что Mistral Small 4 снижает накладные расходы на переключение между моделями. Вместо того чтобы отправлять один запрос в быструю instruct-модель, второй — в reasoning-модель, а третий — в vision-модель, можно использовать единую конечную точку и при необходимости настраивать параметр reasoning_effort. Mistral прямо указывает, что reasoning_effort="none" даёт быстрые, лёгкие ответы, сопоставимые с чатом в стиле Small 3.2, тогда как reasoning_effort="high" даёт более глубокие и подробные рассуждения, похожие на ответы её предыдущих моделей Magistral.

Бенчмарки производительности Mistral Small 4

Ключевые показатели производительности

Как запустить Mistral Small 4 локально

Метрика	Mistral Small 4
Архитектура	MoE
Контекстное окно	256K
Задержка	↓ до 40%
Бенчмарки кодинга	Лучше GPT-OSS 120B
Эффективность вывода	На 20% меньше токенов

👉 Это делает модель идеальной для продакшн-уровневых ИИ-систем.

Архитектура (ключевая техническая информация)

Тип модели: Mixture-of-Experts (MoE)
Общее число параметров: ~119B
Активные параметры на токен: ~6.5B
Эксперты: ~128 (4 активны за один forward pass)

👉 Такая архитектура обеспечивает интеллект большой модели при стоимости маленькой модели, что делает её особенно подходящей для локального развертывания по сравнению с плотными моделями.

Какие требования к развертыванию стоит учитывать для Mistral Small 4

Официальная минимальная и рекомендуемая инфраструктура

Здесь Mistral необычно конкретна. Минимальная инфраструктура — 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 или 1x NVIDIA DGX B200. Рекомендуемая конфигурация для оптимальной производительности — 4x HGX H100, 4x HGX H200 или 2x DGX B200. Это явный сигнал, что полностью официальный путь ориентирован на машины уровня дата-центра, а не на один потребительский GPU.

Что это означает на практике

Mistral Small 4 имеет открытые веса и эффективна для своего размера, но это всё ещё система MoE на 119B с контекстным окном 256k. В реальных развертываниях это сочетание означает, что давление на память быстро растёт по мере увеличения длины контекста, а стабильная производительность обычно зависит от тензорного параллелизма на нескольких GPU и эффективного сервингового ПО. Именно поэтому рекомендуется vLLM как основной движок для самостоятельного развертывания с OpenAI-совместимыми паттернами сервинга, а не подход «на одной машине просто работает» по умолчанию.

Компонент	Рекомендация
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 ядер
RAM	128GB
Хранилище	NVMe SSD

Почему железо важно

Потому что:

модель на 119B параметров (даже если это MoE)
большой контекст (256K токенов)
мультимодальная обработка

👉 Без оптимизации она слишком тяжела для потребительских GPU

Как запустить Mistral Small 4 локально (пошагово)

Шаг 1) Получите веса и примите условия доступа

vLLM по умолчанию получает веса из Hugging Face, поэтому вам нужен токен доступа Hugging Face с правами READ, а также нужно принять условия на странице модели. Для практической локальной настройки подготовьте Linux-машину с драйверами NVIDIA, поддержкой CUDA-совместимого runtime, Python и достаточным объёмом GPU-памяти для выбранного чекпойнта. Если у вас уже есть артефакты в собственном хранилище, можно пропустить настройку Hugging Face и указать vLLM локальный путь.

Шаг 2) Используйте официальный рекомендуемый серверный стек

Для самостоятельного развертывания рекомендуется vLLM, который описывается как высокооптимизированный фреймворк сервинга, способный предоставлять OpenAI-совместимый API. В документации по self-deployment также упоминаются TensorRT-LLM и TGI как альтернативы, но для этого семейства моделей рекомендуемый путь — именно vLLM.

Шаг 3) Скачайте рекомендованный Mistral Docker-образ или установите vLLM вручную

Для Mistral Small 4 рекомендуется использовать кастомный Docker-образ с необходимыми исправлениями для tool calling и parsing reasoning, либо вручную установить пропатченный билд vLLM. На странице модели приведён кастомный образ, и отмечается, что Mistral работает с командой vLLM над тем, чтобы включить эти изменения в основную ветку.

Практическая стартовая точка:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Шаг 4) Поднимите модель

Рекомендуемая Mistral команда запуска сервера:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Эта команда — самый важный практический намёк во всей истории с локальным запуском: она показывает, что модель рассчитана на серьёзный GPU-бэкенд, длинное контекстное окно и включённые парсеры инструментов и рассуждений от Mistral.

Шаг 5) Подключите ваше приложение к локальному endpoint

Поскольку vLLM предоставляет OpenAI-совместимый REST API, обычно можно направить существующий код на OpenAI SDK в http://localhost:8000/v1 и оставить большую часть логики приложения без изменений. В примере Mistral используется base_url="http://localhost:8000/v1" и пустой API key — это распространённый паттерн для локальной разработки.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Шаг 6) Настройте скорость или качество

Если вы тестируете модель локально, рекомендуется reasoning_effort="high" для сложных запросов и temperature=0.7 в этом режиме, тогда как более низкие температуры подходят, когда рассуждение отключено. Та же страница модели также разделяет FP8-чекпойнт для наилучшей точности и NVFP4-чекпойнт для большей пропускной способности и меньшего потребления памяти, поэтому правильная конфигурация зависит от того, что вы оптимизируете: качество, скорость или аппаратный footprint.

Шаг 7: Дополнительно — запуск через Ollama (упрощённо)

ollama run mistral-small-4

👉 Лучше всего подходит для:

локальной разработки
быстрого старта

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (полное сравнение)

Mistral Small 4: экстремально эффективная MoE

119B общих параметров
~6.5B активных на токен
128 экспертов (4 активны)
Мультимодальность (текст + изображения)

👉 Ключевая идея: очень большая ёмкость при низких вычислениях на токен

Это даёт:

высокую производительность
низкую задержку
меньшую стоимость одного инференса

GPT-OSS: практичная MoE для развертывания

Версия 120B: ~117B общих / 5.1B активных
Версия 20B: ~21B общих / 3.6B активных
Только текст

👉 Ключевая идея: размещать мощные модели на минимальном железе

Можно запускать на одном H100 GPU
Сильная поддержка tool use / structured output

Qwen 3.5: масштабирование с высокой функциональностью

До 122B параметров
Более высокое число активных параметров (~20B+)
Мультимодальность + сильная многоязычность

👉 Ключевая идея: максимизировать возможности, даже если вычислительная стоимость растёт

Сравнение бенчмарков производительности

Категория	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Ввод / вывод	Вход: текст + изображение → выход: текстКонтекст: 256K токенов	Вход: текст → выход: текстКонтекст: ~128K токенов	Вход: текст + изображение + видео → выход: текстКонтекст: до 1M токенов
Цена (API)	$0.15 /M input$0.60 /M output	Нет официальных API-цен (self-hosted)→ стоимость зависит от инфраструктуры	$0.40–0.50 /M input$2.40–3.00 /M output
Архитектура	MoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active)	MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B active	Гибридная MoE + продвинутые слоиДо 397B total (A17B active)
Мультимодальность	✅ Поддержка изображений	❌ Только текст	✅ Изображения + видео
Управление рассуждением	✅ (`reasoning_effort`)	✅ (режимы low/med/high)	✅ Адаптивное рассуждение
Эффективность контекста	⭐⭐⭐⭐⭐ (короткие ответы)	⭐⭐⭐⭐	⭐⭐⭐ (длинные ответы)
Поддержка tools / агентов	✅ Нативные инструменты, агенты, структурированные ответы	✅ Сильная поддержка tools, структурированных ответов	✅ Продвинутая экосистема агентов
Способности к кодингу	⭐⭐⭐⭐⭐ (уровень Devstral)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Развертывание	Тяжёлое (рекомендуется несколько GPU)	Гибкое (возможен один GPU)	Тяжёлое (предпочтителен облачный масштаб)

С включённым reasoning Small 4 соответствует или превосходит GPT-OSS 120B на LCR, LiveCodeBench и AIME 2025, при этом генерируя более короткие ответы. Mistral приводит пример, где Small 4 получает 0.72 на AA LCR при всего 1.6K символов, тогда как сопоставимым результатам Qwen потребовалось 5.8K–6.1K символов, а также заявляет, что Small 4 превосходит GPT-OSS 120B на LiveCodeBench, производя на 20% меньше вывода.

Как запустить Mistral Small 4 локально

Какой вариант лучше для локального использования?

Моё мнение: Mistral Small 4 — лучший выбор «одной модели», если вам нужно сбалансированное локальное или приватное развертывание с сильными возможностями общего чата, кодинга, агентной работы и мультимодальной поддержкой. GPT-OSS — наиболее очевидный выбор, если вам нужна открыто доступная модель OpenAI с очень ясными рекомендациями по локальному сервингу, особенно младшая версия 20B. Qwen3.5 — самое широкое семейство, и на него стоит смотреть, если для вас важнее всего многоязычность, несколько размерных уровней и гибкие варианты локального сервинга.

Если вы хотите получать доступ к этим топовым open-source моделям через API и не хотите переключаться между вендорами, тогда я рекомендую CometAPI, он предоставляет GPT-oss-120B и Qwen 3.5 plus API и т. д.

Иными словами, вы можете использовать Small 4 как размещённую модель или скачать веса и развернуть её на собственной инфраструктуре.

Заключение

Small 4 очень хорошо подходит, когда вам нужна модель с открытыми весами, мультимодальная, способная к рассуждению, которую можно размещать самостоятельно, дообучать и интегрировать в существующие стеки приложений в стиле OpenAI. Она особенно привлекательна для команд, которым важны контроль над развертыванием, локализация данных и более низкая предельная стоимость токенов, но при этом нужна современная универсальная модель.

Готовы получить доступ к Mistral Small 4? Тогда заходите на CometAPI!

Что такое Mistral Small 4?

Одна модель для множества задач

Почему этот релиз важен

Бенчмарки производительности Mistral Small 4

Ключевые показатели производительности

Архитектура (ключевая техническая информация)

Какие требования к развертыванию стоит учитывать для Mistral Small 4

Официальная минимальная и рекомендуемая инфраструктура

Что это означает на практике

Рекомендуемая конфигурация (профессиональная)

Почему железо важно

Как запустить Mistral Small 4 локально (пошагово)

Шаг 1) Получите веса и примите условия доступа

Шаг 2) Используйте официальный рекомендуемый серверный стек

Шаг 3) Скачайте рекомендованный Mistral Docker-образ или установите vLLM вручную

Шаг 4) Поднимите модель

Шаг 5) Подключите ваше приложение к локальному endpoint

Шаг 6) Настройте скорость или качество

Шаг 7: Дополнительно — запуск через Ollama (упрощённо)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (полное сравнение)

Mistral Small 4: экстремально эффективная MoE

GPT-OSS: практичная MoE для развертывания

Qwen 3.5: масштабирование с высокой функциональностью

Сравнение бенчмарков производительности

Какой вариант лучше для локального использования?

Заключение

Доступ к топовым моделям по низкой цене

Читать далее