로컬에서 Mistral Small 4를 실행하는 방법

Mistral Small 4는 Mistral AI가 새롭게 출시한 멀티모달 AI 모델(2026년 3월)로, 추론, 사고, 코딩, 멀티모달 기능을 하나의 아키텍처로 통합했습니다. 이 모델은 **256K 컨텍스트 윈도우, Mixture-of-Experts(MoE) 설계(~119B 총 파라미터, 토큰당 ~6.5B 활성화)**를 특징으로 하며, 벤치마크에서 GPT-OSS 120B 같은 유사한 오픈 모델을 능가하면서도 **더 빠른 추론(최대 40% 지연 감소)**을 제공합니다.

로컬에서 실행하려면 고용량 메모리 GPU(권장: ≥48GB VRAM) 또는 양자화 배포 환경이 필요하며, Transformers, vLLM, Ollama 같은 프레임워크와 함께 사용해야 합니다.

Mistral Small 4란?

여러 작업을 위한 단일 모델

Mistral Small 4는 “올라운더” 모델로 이해하는 것이 가장 적절합니다. Mistral의 기존 instruction, reasoning, coding 계열 모델의 강점을 하나로 결합한 모델입니다. 회사의 공식 출시 표현에 따르면, Small 4는 추론용 Magistral, 멀티모달 작업용 Pixtral, 에이전트형 코딩용 Devstral의 역량을 하나로 통합한 최초의 Mistral 모델입니다. 이 모델은 텍스트와 이미지 입력을 받아 텍스트를 출력하며, 챗봇, 코딩, 에이전트 워크플로, 문서 이해, 리서치, 시각 분석을 위한 용도로 설계되었습니다.

왜 이번 출시가 중요한가

실질적인 의미는 Mistral Small 4가 모델 전환 오버헤드를 줄여준다는 점입니다. 빠른 인스트럭트 모델에 하나의 프롬프트를 보내고, 추론 모델에 두 번째 프롬프트를 보내고, 비전 모델에 세 번째 프롬프트를 보내는 대신, 단일 엔드포인트를 사용하면서 필요에 따라 reasoning_effort 설정만 조정하면 됩니다. Mistral은 **reasoning_effort="none"**일 때 Small 3.2 스타일의 채팅과 유사한 빠르고 가벼운 응답을 제공하고, **reasoning_effort="high"**일 때는 이전 Magistral 모델과 비슷한 더 깊고 장황한 추론을 생성한다고 명시하고 있습니다.

Mistral Small 4의 성능 벤치마크

핵심 성능 하이라이트

로컬에서 Mistral Small 4를 실행하는 방법

지표	Mistral Small 4
아키텍처	MoE
컨텍스트 윈도우	256K
지연 시간	↓ 최대 40%
코딩 벤치마크	GPT-OSS 120B 능가
출력 효율	토큰 20% 절감

👉 따라서 프로덕션급 AI 시스템에 이상적입니다.

아키텍처(핵심 기술 인사이트)

모델 유형: Mixture-of-Experts (MoE)
총 파라미터 수: ~119B
토큰당 활성 파라미터 수: ~6.5B
전문가 수: ~128개(포워드 패스당 4개 활성화)

👉 이 아키텍처는 소형 모델 비용으로 대형 모델 수준의 지능을 가능하게 하며, dense 모델과 비교해 로컬 배포에 유리합니다.

Mistral Small 4를 계획할 때 고려해야 할 배포 요구사항

공식 최소 및 권장 인프라

Mistral은 이 부분을 매우 명확하게 제시합니다. 최소 인프라는 NVIDIA HGX H100 4대, NVIDIA HGX H200 2대 또는 NVIDIA DGX B200 1대입니다. 최적 성능을 위한 권장 구성은 HGX H100 4대, HGX H200 4대 또는 DGX B200 2대입니다. 이는 공식적으로는 단일 소비자용 GPU가 아니라 데이터센터급 장비를 염두에 두고 있다는 강력한 신호입니다.

실제 의미

Mistral Small 4는 오픈 웨이트이면서 규모 대비 효율적이지만, 여전히 256k 컨텍스트 윈도우를 가진 119B MoE 시스템입니다. 실제 배포에서는 컨텍스트 길이가 늘어날수록 메모리 압박이 빠르게 증가하며, 지속적인 성능은 보통 멀티 GPU 텐서 병렬화와 효율적인 서빙 소프트웨어에 달려 있습니다. 그래서 recommend vLLM을 기본 셀프 배포 엔진으로 권장하며, 단일 머신에서 “그냥 바로 동작”하는 기본값보다는 OpenAI 호환 서빙 패턴을 노출하는 방식을 택합니다.

권장 구성(전문 환경)

구성 요소	권장 사양
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32코어
RAM	128GB
스토리지	NVMe SSD

왜 하드웨어가 중요한가

이유는 다음과 같습니다:

119B 파라미터 모델(MoE라도)
큰 컨텍스트(256K 토큰)
멀티모달 처리

👉 최적화가 없으면 소비자용 GPU에는 너무 무겁습니다

Mistral Small 4를 로컬에서 실행하는 방법(단계별)

1단계) 웨이트를 받고 접근 조건에 동의하기

vLLM은 기본적으로 Hugging Face에서 웨이트를 가져오므로, READ 권한이 있는 Hugging Face 액세스 토큰이 필요하며 모델 카드의 조건에 동의해야 합니다. 실용적인 로컬 환경을 위해서는 NVIDIA 드라이버, CUDA 호환 런타임 지원, Python, 그리고 선택한 체크포인트를 구동할 수 있을 만큼 충분한 GPU 메모리를 갖춘 Linux 머신을 준비해야 합니다. 이미 아티팩트를 자체 스토리지에 보유하고 있다면 Hugging Face 설정은 건너뛰고 vLLM이 로컬 경로를 가리키도록 설정하면 됩니다.

2단계) 공식 권장 서버 스택 사용하기

셀프 배포에는 vLLM 사용을 권장하며, 이를 OpenAI 호환 API를 노출할 수 있는 고도로 최적화된 서빙 프레임워크라고 설명합니다. 셀프 배포 문서에는 TensorRT-LLM과 TGI도 대안으로 언급되어 있지만, 이 모델 계열에 대한 권장 경로는 vLLM입니다.

3단계) Mistral 권장 Docker 이미지를 받거나 vLLM을 수동 설치하기

Mistral Small 4는 필요한 tool-calling 및 reasoning-parsing 수정이 포함된 커스텀 Docker 이미지를 사용하거나, 패치된 vLLM 빌드를 수동 설치하는 방식을 권장합니다. 모델 카드에는 커스텀 이미지가 제공되며, 해당 변경 사항을 vLLM 팀과 협력해 업스트림에 반영하고 있다고 명시되어 있습니다.

실용적인 시작 예시는 다음과 같습니다:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

4단계) 모델 서빙하기

Mistral이 권장하는 서버 명령은 다음과 같습니다:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

이 명령은 전체 로컬 구동 스토리에서 가장 중요한 실전 단서입니다. 즉, 이 모델이 강력한 GPU 백엔드, 긴 컨텍스트 윈도우, 그리고 Mistral 전용 tool 및 reasoning 파서를 활성화한 상태로 실행되도록 설계되었음을 보여줍니다.

5단계) 애플리케이션을 로컬 엔드포인트에 연결하기

vLLM은 OpenAI 호환 REST API를 노출하므로, 일반적으로 기존 OpenAI SDK 코드를 http://localhost:8000/v1로 지정하기만 하면 애플리케이션 로직 대부분을 변경하지 않고 사용할 수 있습니다. Mistral의 예시에서는 base_url="http://localhost:8000/v1"와 빈 API 키를 사용하는데, 이는 흔한 로컬 개발 패턴입니다.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

6단계) 속도 또는 품질에 맞게 튜닝하기

로컬에서 모델을 테스트하는 경우, 복잡한 프롬프트에는 reasoning_effort="high"와 해당 모드에서 temperature=0.7을 권장하며, 추론이 꺼져 있을 때는 더 낮은 temperature가 적합하다고 제안합니다. 같은 모델 카드에서는 최고 정확도를 위한 FP8 체크포인트와 높은 처리량 및 낮은 메모리 사용을 위한 NVFP4 체크포인트를 구분하고 있으므로, 올바른 설정은 품질, 속도, 하드웨어 점유 중 무엇을 최적화하느냐에 따라 달라집니다.

7단계: 선택 사항 – Ollama로 실행하기(간단 버전)

ollama run mistral-small-4

👉 다음에 가장 적합합니다:

로컬 개발
빠른 설정

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (전체 비교)

Mistral Small 4: 극단적 효율의 MoE

총 119B 파라미터
토큰당 ~6.5B 활성화
128개 전문가(4개 활성화)
멀티모달(텍스트 + 이미지)

👉 핵심 아이디어: 매우 큰 용량이지만 토큰당 계산량은 낮음

이로 인해 다음과 같은 장점이 있습니다:

높은 성능
낮은 지연 시간
더 낮은 추론 비용

GPT-OSS: 배포 실용성을 위한 MoE

120B 버전: ~117B 총합 / 5.1B 활성화
20B 버전: ~21B 총합 / 3.6B 활성화
텍스트 전용

👉 핵심 아이디어: 최소한의 하드웨어에 강력한 모델을 맞춤

단일 H100 GPU에서 실행 가능
강력한 도구 사용 / 구조화 출력 지원

Qwen 3.5: 고성능 확장성

최대 122B 파라미터
더 높은 활성 파라미터 수(~20B+)
멀티모달 + 강력한 다국어 성능

👉 핵심 아이디어: 계산 비용이 늘어나더라도 성능을 극대화

성능 벤치마크 비교

카테고리	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
입력 / 출력	텍스트 + 이미지 입력 → 텍스트 출력Context: 256K tokens	텍스트 입력 → 텍스트 출력Context: ~128K tokens	텍스트 + 이미지 + 비디오 → 텍스트 출력Context: up to 1M tokens
가격(API)	$0.15 /M input$0.60 /M output	공식 API 가격 없음(셀프 호스팅)→ 인프라 의존 비용	$0.40–0.50 /M input$2.40–3.00 /M output
아키텍처	MoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active)	MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B active	Hybrid MoE + advanced layersUp to 397B total (A17B active)
멀티모달	✅ 이미지 지원	❌ 텍스트 전용	✅ 이미지 + 비디오
추론 제어	✅ (reasoning_effort)	✅ (low/med/high modes)	✅ 적응형 추론
컨텍스트 효율	⭐⭐⭐⭐⭐ (짧은 출력)	⭐⭐⭐⭐	⭐⭐⭐ (긴 출력)
도구 / 에이전트 지원	✅ 네이티브 도구, 에이전트, 구조화 출력	✅ 강력한 도구 사용, 구조화 출력	✅ 고급 에이전트 생태계
코딩 능력	⭐⭐⭐⭐⭐ (Devstral 수준)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
배포	무거움(멀티 GPU 권장)	유연함(단일 GPU 가능)	무거움(클라우드 규모 선호)

추론을 활성화하면 Small 4는 LCR, LiveCodeBench, AIME 2025에서 GPT-OSS 120B와 비슷하거나 그 이상 성능을 보이면서도 더 짧은 출력을 생성합니다. Mistral은 한 예시로 Small 4가 AA LCR에서 1.6K 문자만으로 0.72 점수를 기록한 반면, 비슷한 Qwen 결과는 5.8K–6.1K 문자가 필요했다고 언급하며, Small 4가 LiveCodeBench에서 GPT-OSS 120B를 능가하면서 출력은 20% 적다고 설명합니다.

로컬에서 Mistral Small 4를 실행하는 방법

로컬 환경에서 가장 좋은 선택은?

제 생각에는 Mistral Small 4가 강력한 범용 채팅, 코딩, 에이전트 작업, 멀티모달 지원을 모두 원하는 경우 가장 균형 잡힌 “단일 모델” 선택지입니다. GPT-OSS는 특히 더 작은 20B 버전을 포함해, 명확한 로컬 서빙 가이드를 갖춘 공개 OpenAI 모델을 원한다면 가장 분명한 선택입니다. Qwen3.5는 가장 폭넓은 제품군을 제공하며, 다국어 지원, 다양한 크기 옵션, 유연한 로컬 서빙 선택지가 중요하다면 살펴볼 가치가 있습니다.

이러한 최상위 오픈소스 모델을 API로 사용하고 벤더를 바꾸고 싶지 않다면, CometAPI를 추천합니다. 여기서는 GPT-oss-120B와 Qwen 3.5 plus API 등을 제공합니다.

즉, Small 4를 호스팅형 모델로 사용할 수도 있고, 웨이트를 받아 자체 인프라에서 셀프 호스팅할 수도 있습니다.

결론

Small 4는 오픈 웨이트, 멀티모달, 추론 가능 모델이면서 셀프 호스팅, 파인튜닝, 기존 OpenAI 스타일 애플리케이션 스택과의 통합이 필요한 경우 매우 강력한 선택입니다. 특히 배포 제어, 데이터 주권, 더 낮은 토큰당 비용을 중요하게 여기면서도 최신 범용 모델을 원하는 팀에 매우 매력적입니다.

Mistral Small 4를 바로 사용해보고 싶으신가요? 그렇다면 CometAPI로 오세요!

Mistral Small 4란?

여러 작업을 위한 단일 모델

왜 이번 출시가 중요한가

Mistral Small 4의 성능 벤치마크

핵심 성능 하이라이트

아키텍처(핵심 기술 인사이트)

Mistral Small 4를 계획할 때 고려해야 할 배포 요구사항

공식 최소 및 권장 인프라

실제 의미

권장 구성(전문 환경)

왜 하드웨어가 중요한가

Mistral Small 4를 로컬에서 실행하는 방법(단계별)

1단계) 웨이트를 받고 접근 조건에 동의하기

2단계) 공식 권장 서버 스택 사용하기

3단계) Mistral 권장 Docker 이미지를 받거나 vLLM을 수동 설치하기

4단계) 모델 서빙하기

5단계) 애플리케이션을 로컬 엔드포인트에 연결하기

6단계) 속도 또는 품질에 맞게 튜닝하기

7단계: 선택 사항 – Ollama로 실행하기(간단 버전)

Mistral Small 4 vs GPT-OSS vs Qwen 3.5 (전체 비교)

Mistral Small 4: 극단적 효율의 MoE

GPT-OSS: 배포 실용성을 위한 MoE

Qwen 3.5: 고성능 확장성

성능 벤치마크 비교

로컬 환경에서 가장 좋은 선택은?

결론

저렴한 비용으로 최고 모델에 액세스

더 보기