Как запустить Mistral Small 4 локально

CometAPI
AnnaMar 23, 2026
Как запустить Mistral Small 4 локально

Mistral Small 4 — это недавно выпущенная мультимодальная ИИ-модель от Mistral AI (март 2026), которая объединяет инференс, рассуждение, кодинг и мультимодальные возможности в единой архитектуре. Она имеет контекстное окно 256K, архитектуру Mixture-of-Experts (MoE) (~119B общих параметров, ~6.5B активных на токен) и обеспечивает более быстрый инференс (снижение задержки до 40%), при этом превосходя сопоставимые открытые модели, такие как GPT-OSS 120B, в бенчмарках.

Чтобы запускать её локально, вам понадобятся GPU с большим объёмом памяти (рекомендуется ≥48GB VRAM) или квантизованные развертывания, а также фреймворки вроде Transformers, vLLM или Ollama.

Что такое Mistral Small 4?

Одна модель для множества задач

Mistral Small 4 лучше всего понимать как «универсала»: она объединяет сильные стороны предыдущих семейств Mistral для инструкций, рассуждений и кодинга в одной модели. В формулировке самой компании Small 4 — это первая модель Mistral, которая объединяет возможности Magistral для рассуждений, Pixtral для мультимодальных задач и Devstral для агентного программирования. Она принимает текст и изображения на вход, выдаёт текст на выход и предназначена для чатов, программирования, агентных workflow, понимания документов, исследований и визуального анализа.

Почему этот релиз важен

Практическое значение в том, что Mistral Small 4 снижает накладные расходы на переключение между моделями. Вместо того чтобы отправлять один запрос в быструю instruct-модель, второй — в reasoning-модель, а третий — в vision-модель, можно использовать единую конечную точку и при необходимости настраивать параметр reasoning_effort. Mistral прямо указывает, что reasoning_effort="none" даёт быстрые, лёгкие ответы, сопоставимые с чатом в стиле Small 3.2, тогда как reasoning_effort="high" даёт более глубокие и подробные рассуждения, похожие на ответы её предыдущих моделей Magistral.

Бенчмарки производительности Mistral Small 4

Ключевые показатели производительности

Как запустить Mistral Small 4 локально

МетрикаMistral Small 4
АрхитектураMoE
Контекстное окно256K
Задержка↓ до 40%
Бенчмарки кодингаЛучше GPT-OSS 120B
Эффективность выводаНа 20% меньше токенов

👉 Это делает модель идеальной для продакшн-уровневых ИИ-систем.

Архитектура (ключевая техническая информация)

  • Тип модели: Mixture-of-Experts (MoE)
  • Общее число параметров: ~119B
  • Активные параметры на токен: ~6.5B
  • Эксперты: ~128 (4 активны за один forward pass)

👉 Такая архитектура обеспечивает интеллект большой модели при стоимости маленькой модели, что делает её особенно подходящей для локального развертывания по сравнению с плотными моделями.

Какие требования к развертыванию стоит учитывать для Mistral Small 4

Официальная минимальная и рекомендуемая инфраструктура

Здесь Mistral необычно конкретна. Минимальная инфраструктура — 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 или 1x NVIDIA DGX B200. Рекомендуемая конфигурация для оптимальной производительности — 4x HGX H100, 4x HGX H200 или 2x DGX B200. Это явный сигнал, что полностью официальный путь ориентирован на машины уровня дата-центра, а не на один потребительский GPU.

Что это означает на практике

Mistral Small 4 имеет открытые веса и эффективна для своего размера, но это всё ещё система MoE на 119B с контекстным окном 256k. В реальных развертываниях это сочетание означает, что давление на память быстро растёт по мере увеличения длины контекста, а стабильная производительность обычно зависит от тензорного параллелизма на нескольких GPU и эффективного сервингового ПО. Именно поэтому рекомендуется vLLM как основной движок для самостоятельного развертывания с OpenAI-совместимыми паттернами сервинга, а не подход «на одной машине просто работает» по умолчанию.

Рекомендуемая конфигурация (профессиональная)

КомпонентРекомендация
GPU48GB–80GB VRAM (A100 / H100)
CPU16–32 ядер
RAM128GB
ХранилищеNVMe SSD

Почему железо важно

Потому что:

  • модель на 119B параметров (даже если это MoE)
  • большой контекст (256K токенов)
  • мультимодальная обработка

👉 Без оптимизации она слишком тяжела для потребительских GPU

Как запустить Mistral Small 4 локально (пошагово)

Шаг 1) Получите веса и примите условия доступа

vLLM по умолчанию получает веса из Hugging Face, поэтому вам нужен токен доступа Hugging Face с правами READ, а также нужно принять условия на странице модели. Для практической локальной настройки подготовьте Linux-машину с драйверами NVIDIA, поддержкой CUDA-совместимого runtime, Python и достаточным объёмом GPU-памяти для выбранного чекпойнта. Если у вас уже есть артефакты в собственном хранилище, можно пропустить настройку Hugging Face и указать vLLM локальный путь.

Шаг 2) Используйте официальный рекомендуемый серверный стек

Для самостоятельного развертывания рекомендуется vLLM, который описывается как высокооптимизированный фреймворк сервинга, способный предоставлять OpenAI-совместимый API. В документации по self-deployment также упоминаются TensorRT-LLM и TGI как альтернативы, но для этого семейства моделей рекомендуемый путь — именно vLLM.

Шаг 3) Скачайте рекомендованный Mistral Docker-образ или установите vLLM вручную

Для Mistral Small 4 рекомендуется использовать кастомный Docker-образ с необходимыми исправлениями для tool calling и parsing reasoning, либо вручную установить пропатченный билд vLLM. На странице модели приведён кастомный образ, и отмечается, что Mistral работает с командой vLLM над тем, чтобы включить эти изменения в основную ветку.

Практическая стартовая точка:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Шаг 4) Поднимите модель

Рекомендуемая Mistral команда запуска сервера:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Эта команда — самый важный практический намёк во всей истории с локальным запуском: она показывает, что модель рассчитана на серьёзный GPU-бэкенд, длинное контекстное окно и включённые парсеры инструментов и рассуждений от Mistral.

Шаг 5) Подключите ваше приложение к локальному endpoint

Поскольку vLLM предоставляет OpenAI-совместимый REST API, обычно можно направить существующий код на OpenAI SDK в http://localhost:8000/v1 и оставить большую часть логики приложения без изменений. В примере Mistral используется base_url="http://localhost:8000/v1" и пустой API key — это распространённый паттерн для локальной разработки.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Шаг 6) Настройте скорость или качество

Если вы тестируете модель локально, рекомендуется reasoning_effort="high" для сложных запросов и temperature=0.7 в этом режиме, тогда как более низкие температуры подходят, когда рассуждение отключено. Та же страница модели также разделяет FP8-чекпойнт для наилучшей точности и NVFP4-чекпойнт для большей пропускной способности и меньшего потребления памяти, поэтому правильная конфигурация зависит от того, что вы оптимизируете: качество, скорость или аппаратный footprint.

Шаг 7: Дополнительно — запуск через Ollama (упрощённо)

ollama run mistral-small-4

👉 Лучше всего подходит для:

  • локальной разработки
  • быстрого старта

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (полное сравнение)

Mistral Small 4: экстремально эффективная MoE

  • 119B общих параметров
  • ~6.5B активных на токен
  • 128 экспертов (4 активны)
  • Мультимодальность (текст + изображения)

👉 Ключевая идея: очень большая ёмкость при низких вычислениях на токен

Это даёт:

  • высокую производительность
  • низкую задержку
  • меньшую стоимость одного инференса

GPT-OSS: практичная MoE для развертывания

  • Версия 120B: ~117B общих / 5.1B активных
  • Версия 20B: ~21B общих / 3.6B активных
  • Только текст

👉 Ключевая идея: размещать мощные модели на минимальном железе

  • Можно запускать на одном H100 GPU
  • Сильная поддержка tool use / structured output

Qwen 3.5: масштабирование с высокой функциональностью

  • До 122B параметров
  • Более высокое число активных параметров (~20B+)
  • Мультимодальность + сильная многоязычность

👉 Ключевая идея: максимизировать возможности, даже если вычислительная стоимость растёт

Сравнение бенчмарков производительности

КатегорияMistral Small 4GPT-OSS (120B / 20B)Qwen 3.5 (Plus / MoE)
Ввод / выводВход: текст + изображение → выход: текстКонтекст: 256K токеновВход: текст → выход: текстКонтекст: ~128K токеновВход: текст + изображение + видео → выход: текстКонтекст: до 1M токенов
Цена (API)$0.15 /M input$0.60 /M outputНет официальных API-цен (self-hosted)→ стоимость зависит от инфраструктуры$0.40–0.50 /M input$2.40–3.00 /M output
АрхитектураMoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active)MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B activeГибридная MoE + продвинутые слоиДо 397B total (A17B active)
Мультимодальность✅ Поддержка изображений❌ Только текст✅ Изображения + видео
Управление рассуждением✅ (reasoning_effort)✅ (режимы low/med/high)✅ Адаптивное рассуждение
Эффективность контекста⭐⭐⭐⭐⭐ (короткие ответы)⭐⭐⭐⭐⭐⭐⭐ (длинные ответы)
Поддержка tools / агентов✅ Нативные инструменты, агенты, структурированные ответы✅ Сильная поддержка tools, структурированных ответов✅ Продвинутая экосистема агентов
Способности к кодингу⭐⭐⭐⭐⭐ (уровень Devstral)⭐⭐⭐⭐⭐⭐⭐⭐⭐
РазвертываниеТяжёлое (рекомендуется несколько GPU)Гибкое (возможен один GPU)Тяжёлое (предпочтителен облачный масштаб)

С включённым reasoning Small 4 соответствует или превосходит GPT-OSS 120B на LCR, LiveCodeBench и AIME 2025, при этом генерируя более короткие ответы. Mistral приводит пример, где Small 4 получает 0.72 на AA LCR при всего 1.6K символов, тогда как сопоставимым результатам Qwen потребовалось 5.8K–6.1K символов, а также заявляет, что Small 4 превосходит GPT-OSS 120B на LiveCodeBench, производя на 20% меньше вывода.

Как запустить Mistral Small 4 локально

Как запустить Mistral Small 4 локально

Какой вариант лучше для локального использования?

Моё мнение: Mistral Small 4 — лучший выбор «одной модели», если вам нужно сбалансированное локальное или приватное развертывание с сильными возможностями общего чата, кодинга, агентной работы и мультимодальной поддержкой. GPT-OSS — наиболее очевидный выбор, если вам нужна открыто доступная модель OpenAI с очень ясными рекомендациями по локальному сервингу, особенно младшая версия 20B. Qwen3.5 — самое широкое семейство, и на него стоит смотреть, если для вас важнее всего многоязычность, несколько размерных уровней и гибкие варианты локального сервинга.

Если вы хотите получать доступ к этим топовым open-source моделям через API и не хотите переключаться между вендорами, тогда я рекомендую CometAPI, он предоставляет GPT-oss-120B и Qwen 3.5 plus API и т. д.

Иными словами, вы можете использовать Small 4 как размещённую модель или скачать веса и развернуть её на собственной инфраструктуре.

Заключение

Small 4 очень хорошо подходит, когда вам нужна модель с открытыми весами, мультимодальная, способная к рассуждению, которую можно размещать самостоятельно, дообучать и интегрировать в существующие стеки приложений в стиле OpenAI. Она особенно привлекательна для команд, которым важны контроль над развертыванием, локализация данных и более низкая предельная стоимость токенов, но при этом нужна современная универсальная модель.

Готовы получить доступ к Mistral Small 4? Тогда заходите на CometAPI!

Доступ к топовым моделям по низкой цене

Читать далее