Mistral Small 4 — это недавно выпущенная мультимодальная ИИ-модель от Mistral AI (март 2026), которая объединяет инференс, рассуждение, кодинг и мультимодальные возможности в единой архитектуре. Она имеет контекстное окно 256K, архитектуру Mixture-of-Experts (MoE) (~119B общих параметров, ~6.5B активных на токен) и обеспечивает более быстрый инференс (снижение задержки до 40%), при этом превосходя сопоставимые открытые модели, такие как GPT-OSS 120B, в бенчмарках.
Чтобы запускать её локально, вам понадобятся GPU с большим объёмом памяти (рекомендуется ≥48GB VRAM) или квантизованные развертывания, а также фреймворки вроде Transformers, vLLM или Ollama.
Что такое Mistral Small 4?
Одна модель для множества задач
Mistral Small 4 лучше всего понимать как «универсала»: она объединяет сильные стороны предыдущих семейств Mistral для инструкций, рассуждений и кодинга в одной модели. В формулировке самой компании Small 4 — это первая модель Mistral, которая объединяет возможности Magistral для рассуждений, Pixtral для мультимодальных задач и Devstral для агентного программирования. Она принимает текст и изображения на вход, выдаёт текст на выход и предназначена для чатов, программирования, агентных workflow, понимания документов, исследований и визуального анализа.
Почему этот релиз важен
Практическое значение в том, что Mistral Small 4 снижает накладные расходы на переключение между моделями. Вместо того чтобы отправлять один запрос в быструю instruct-модель, второй — в reasoning-модель, а третий — в vision-модель, можно использовать единую конечную точку и при необходимости настраивать параметр reasoning_effort. Mistral прямо указывает, что reasoning_effort="none" даёт быстрые, лёгкие ответы, сопоставимые с чатом в стиле Small 3.2, тогда как reasoning_effort="high" даёт более глубокие и подробные рассуждения, похожие на ответы её предыдущих моделей Magistral.
Бенчмарки производительности Mistral Small 4
Ключевые показатели производительности

| Метрика | Mistral Small 4 |
|---|---|
| Архитектура | MoE |
| Контекстное окно | 256K |
| Задержка | ↓ до 40% |
| Бенчмарки кодинга | Лучше GPT-OSS 120B |
| Эффективность вывода | На 20% меньше токенов |
👉 Это делает модель идеальной для продакшн-уровневых ИИ-систем.
Архитектура (ключевая техническая информация)
- Тип модели: Mixture-of-Experts (MoE)
- Общее число параметров: ~119B
- Активные параметры на токен: ~6.5B
- Эксперты: ~128 (4 активны за один forward pass)
👉 Такая архитектура обеспечивает интеллект большой модели при стоимости маленькой модели, что делает её особенно подходящей для локального развертывания по сравнению с плотными моделями.
Какие требования к развертыванию стоит учитывать для Mistral Small 4
Официальная минимальная и рекомендуемая инфраструктура
Здесь Mistral необычно конкретна. Минимальная инфраструктура — 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 или 1x NVIDIA DGX B200. Рекомендуемая конфигурация для оптимальной производительности — 4x HGX H100, 4x HGX H200 или 2x DGX B200. Это явный сигнал, что полностью официальный путь ориентирован на машины уровня дата-центра, а не на один потребительский GPU.
Что это означает на практике
Mistral Small 4 имеет открытые веса и эффективна для своего размера, но это всё ещё система MoE на 119B с контекстным окном 256k. В реальных развертываниях это сочетание означает, что давление на память быстро растёт по мере увеличения длины контекста, а стабильная производительность обычно зависит от тензорного параллелизма на нескольких GPU и эффективного сервингового ПО. Именно поэтому рекомендуется vLLM как основной движок для самостоятельного развертывания с OpenAI-совместимыми паттернами сервинга, а не подход «на одной машине просто работает» по умолчанию.
Рекомендуемая конфигурация (профессиональная)
| Компонент | Рекомендация |
|---|---|
| GPU | 48GB–80GB VRAM (A100 / H100) |
| CPU | 16–32 ядер |
| RAM | 128GB |
| Хранилище | NVMe SSD |
Почему железо важно
Потому что:
- модель на 119B параметров (даже если это MoE)
- большой контекст (256K токенов)
- мультимодальная обработка
👉 Без оптимизации она слишком тяжела для потребительских GPU
Как запустить Mistral Small 4 локально (пошагово)
Шаг 1) Получите веса и примите условия доступа
vLLM по умолчанию получает веса из Hugging Face, поэтому вам нужен токен доступа Hugging Face с правами READ, а также нужно принять условия на странице модели. Для практической локальной настройки подготовьте Linux-машину с драйверами NVIDIA, поддержкой CUDA-совместимого runtime, Python и достаточным объёмом GPU-памяти для выбранного чекпойнта. Если у вас уже есть артефакты в собственном хранилище, можно пропустить настройку Hugging Face и указать vLLM локальный путь.
Шаг 2) Используйте официальный рекомендуемый серверный стек
Для самостоятельного развертывания рекомендуется vLLM, который описывается как высокооптимизированный фреймворк сервинга, способный предоставлять OpenAI-совместимый API. В документации по self-deployment также упоминаются TensorRT-LLM и TGI как альтернативы, но для этого семейства моделей рекомендуемый путь — именно vLLM.
Шаг 3) Скачайте рекомендованный Mistral Docker-образ или установите vLLM вручную
Для Mistral Small 4 рекомендуется использовать кастомный Docker-образ с необходимыми исправлениями для tool calling и parsing reasoning, либо вручную установить пропатченный билд vLLM. На странице модели приведён кастомный образ, и отмечается, что Mistral работает с командой vLLM над тем, чтобы включить эти изменения в основную ветку.
Практическая стартовая точка:
docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest
Шаг 4) Поднимите модель
Рекомендуемая Mistral команда запуска сервера:
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \ --max-model-len 262144 \ --tensor-parallel-size 2 \ --attention-backend TRITON_MLA \ --tool-call-parser mistral \ --enable-auto-tool-choice \ --reasoning-parser mistral \ --max_num_batched_tokens 16384 \ --max_num_seqs 128 \ --gpu_memory_utilization 0.8
Эта команда — самый важный практический намёк во всей истории с локальным запуском: она показывает, что модель рассчитана на серьёзный GPU-бэкенд, длинное контекстное окно и включённые парсеры инструментов и рассуждений от Mistral.
Шаг 5) Подключите ваше приложение к локальному endpoint
Поскольку vLLM предоставляет OpenAI-совместимый REST API, обычно можно направить существующий код на OpenAI SDK в http://localhost:8000/v1 и оставить большую часть логики приложения без изменений. В примере Mistral используется base_url="http://localhost:8000/v1" и пустой API key — это распространённый паттерн для локальной разработки.
from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create( model="mistralai/Mistral-Small-4-119B-2603-NVFP4", messages=[{"role": "user", "content": "Summarize the document in five bullets."}], temperature=0.7, reasoning_effort="none",)print(resp.choices[0].message.content)
Шаг 6) Настройте скорость или качество
Если вы тестируете модель локально, рекомендуется reasoning_effort="high" для сложных запросов и temperature=0.7 в этом режиме, тогда как более низкие температуры подходят, когда рассуждение отключено. Та же страница модели также разделяет FP8-чекпойнт для наилучшей точности и NVFP4-чекпойнт для большей пропускной способности и меньшего потребления памяти, поэтому правильная конфигурация зависит от того, что вы оптимизируете: качество, скорость или аппаратный footprint.
Шаг 7: Дополнительно — запуск через Ollama (упрощённо)
ollama run mistral-small-4
👉 Лучше всего подходит для:
- локальной разработки
- быстрого старта
Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (полное сравнение)
Mistral Small 4: экстремально эффективная MoE
- 119B общих параметров
- ~6.5B активных на токен
- 128 экспертов (4 активны)
- Мультимодальность (текст + изображения)
👉 Ключевая идея: очень большая ёмкость при низких вычислениях на токен
Это даёт:
- высокую производительность
- низкую задержку
- меньшую стоимость одного инференса
GPT-OSS: практичная MoE для развертывания
- Версия 120B: ~117B общих / 5.1B активных
- Версия 20B: ~21B общих / 3.6B активных
- Только текст
👉 Ключевая идея: размещать мощные модели на минимальном железе
- Можно запускать на одном H100 GPU
- Сильная поддержка tool use / structured output
Qwen 3.5: масштабирование с высокой функциональностью
- До 122B параметров
- Более высокое число активных параметров (~20B+)
- Мультимодальность + сильная многоязычность
👉 Ключевая идея: максимизировать возможности, даже если вычислительная стоимость растёт
Сравнение бенчмарков производительности
| Категория | Mistral Small 4 | GPT-OSS (120B / 20B) | Qwen 3.5 (Plus / MoE) |
|---|---|---|---|
| Ввод / вывод | Вход: текст + изображение → выход: текстКонтекст: 256K токенов | Вход: текст → выход: текстКонтекст: ~128K токенов | Вход: текст + изображение + видео → выход: текстКонтекст: до 1M токенов |
| Цена (API) | $0.15 /M input$0.60 /M output | Нет официальных API-цен (self-hosted)→ стоимость зависит от инфраструктуры | $0.40–0.50 /M input$2.40–3.00 /M output |
| Архитектура | MoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active) | MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B active | Гибридная MoE + продвинутые слоиДо 397B total (A17B active) |
| Мультимодальность | ✅ Поддержка изображений | ❌ Только текст | ✅ Изображения + видео |
| Управление рассуждением | ✅ (reasoning_effort) | ✅ (режимы low/med/high) | ✅ Адаптивное рассуждение |
| Эффективность контекста | ⭐⭐⭐⭐⭐ (короткие ответы) | ⭐⭐⭐⭐ | ⭐⭐⭐ (длинные ответы) |
| Поддержка tools / агентов | ✅ Нативные инструменты, агенты, структурированные ответы | ✅ Сильная поддержка tools, структурированных ответов | ✅ Продвинутая экосистема агентов |
| Способности к кодингу | ⭐⭐⭐⭐⭐ (уровень Devstral) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Развертывание | Тяжёлое (рекомендуется несколько GPU) | Гибкое (возможен один GPU) | Тяжёлое (предпочтителен облачный масштаб) |
С включённым reasoning Small 4 соответствует или превосходит GPT-OSS 120B на LCR, LiveCodeBench и AIME 2025, при этом генерируя более короткие ответы. Mistral приводит пример, где Small 4 получает 0.72 на AA LCR при всего 1.6K символов, тогда как сопоставимым результатам Qwen потребовалось 5.8K–6.1K символов, а также заявляет, что Small 4 превосходит GPT-OSS 120B на LiveCodeBench, производя на 20% меньше вывода.


Какой вариант лучше для локального использования?
Моё мнение: Mistral Small 4 — лучший выбор «одной модели», если вам нужно сбалансированное локальное или приватное развертывание с сильными возможностями общего чата, кодинга, агентной работы и мультимодальной поддержкой. GPT-OSS — наиболее очевидный выбор, если вам нужна открыто доступная модель OpenAI с очень ясными рекомендациями по локальному сервингу, особенно младшая версия 20B. Qwen3.5 — самое широкое семейство, и на него стоит смотреть, если для вас важнее всего многоязычность, несколько размерных уровней и гибкие варианты локального сервинга.
Если вы хотите получать доступ к этим топовым open-source моделям через API и не хотите переключаться между вендорами, тогда я рекомендую CometAPI, он предоставляет GPT-oss-120B и Qwen 3.5 plus API и т. д.
Иными словами, вы можете использовать Small 4 как размещённую модель или скачать веса и развернуть её на собственной инфраструктуре.
Заключение
Small 4 очень хорошо подходит, когда вам нужна модель с открытыми весами, мультимодальная, способная к рассуждению, которую можно размещать самостоятельно, дообучать и интегрировать в существующие стеки приложений в стиле OpenAI. Она особенно привлекательна для команд, которым важны контроль над развертыванием, локализация данных и более низкая предельная стоимость токенов, но при этом нужна современная универсальная модель.
Готовы получить доступ к Mistral Small 4? Тогда заходите на CometAPI!
