Cách chạy Mistral Small 4 cục bộ

Mistral Small 4 là một mô hình AI đa phương thức mới ra mắt của Mistral AI (tháng 3/2026) hợp nhất suy luận, lập luận, lập trình và khả năng đa phương thức trong một kiến trúc duy nhất. Mô hình có cửa sổ ngữ cảnh 256K, thiết kế Hỗn hợp chuyên gia (MoE) (~119B tham số tổng, ~6.5B tham số hoạt động mỗi token), và mang lại suy luận nhanh hơn (giảm độ trễ lên đến 40%) đồng thời vượt qua các mô hình mở tương đương như GPT-OSS 120B trên các bài đo chuẩn.

Để chạy cục bộ, bạn cần GPU bộ nhớ lớn (khuyến nghị ≥48GB VRAM) hoặc triển khai lượng tử hóa, cùng với các framework như Transformers, vLLM hoặc Ollama.

Mistral Small 4 là gì?

Một mô hình cho nhiều tác vụ

Có thể hiểu Mistral Small 4 như một “tay toàn năng”: nó kết hợp điểm mạnh của các dòng mô hình hướng dẫn, lập luận và lập trình trước đây của Mistral vào một mô hình duy nhất. Theo ngôn ngữ phát hành của công ty, Small 4 là mô hình Mistral đầu tiên hợp nhất năng lực của Magistral cho lập luận, Pixtral cho tác vụ đa phương thức, và Devstral cho lập trình tác tử. Mô hình chấp nhận đầu vào văn bản và hình ảnh, xuất ra văn bản, và hướng đến chat, lập trình, quy trình tác tử, hiểu tài liệu, nghiên cứu và phân tích hình ảnh.

Vì sao lần phát hành này quan trọng

Ý nghĩa thực tiễn là Mistral Small 4 giảm chi phí chuyển đổi giữa các mô hình. Thay vì định tuyến một prompt đến mô hình instruct nhanh, prompt thứ hai đến mô hình lập luận, và prompt thứ ba đến mô hình thị giác, bạn có thể dùng một endpoint duy nhất và điều chỉnh thiết lập reasoning_effort theo nhu cầu. Mistral nêu rõ reasoning_effort="none" cho phản hồi nhanh, gọn, tương đương chat kiểu Small 3.2, trong khi reasoning_effort="high" tạo lập luận sâu hơn, dài hơn giống các mô hình Magistral trước đây.

Điểm chuẩn hiệu năng của Mistral Small 4

Điểm nổi bật về hiệu năng

Cách chạy Mistral Small 4 cục bộ

Metric	Mistral Small 4
Architecture	MoE
Context Window	256K
Latency	↓ lên đến 40%
Coding Benchmarks	Vượt GPT-OSS 120B
Output Efficiency	Ít token hơn 20%

👉 Điều này khiến nó trở nên lý tưởng cho các hệ thống AI cấp sản xuất.

Kiến trúc (Góc nhìn kỹ thuật chính)

Loại mô hình: Hỗn hợp chuyên gia (MoE)
Tổng tham số: ~119B
Tham số hoạt động mỗi token: ~6.5B
Số chuyên gia: ~128 (4 hoạt động mỗi lượt truyền thuận)

👉 Kiến trúc này cho phép trí tuệ mô hình lớn với chi phí mô hình nhỏ, lý tưởng cho triển khai cục bộ so với các mô hình đặc dày.

Yêu cầu triển khai nếu bạn dự định dùng Mistral Small 4

Hạ tầng tối thiểu và khuyến nghị chính thức

Mistral nêu rất rõ ràng ở đây. Hạ tầng tối thiểu: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200, hoặc 1x NVIDIA DGX B200. Thiết lập khuyến nghị để đạt hiệu năng tối ưu là 4x HGX H100, 4x HGX H200, hoặc 2x DGX B200. Đây là tín hiệu mạnh rằng con đường chính thức nhắm đến máy hạng trung tâm dữ liệu hơn là một GPU tiêu dùng đơn lẻ.

Ý nghĩa thực tiễn

Mistral Small 4 là mở trọng số và hiệu quả so với kích thước của nó, nhưng vẫn là hệ thống MoE 119B với cửa sổ ngữ cảnh 256k. Trong triển khai thực tế, kết hợp này khiến áp lực bộ nhớ tăng nhanh khi ngữ cảnh dài ra, và hiệu năng bền vững thường phụ thuộc vào song song hóa tensor đa GPU và phần mềm phục vụ hiệu quả. Vì vậy khuyến nghị dùng vLLM làm động cơ tự triển khai chính và phơi OpenAI-compatible serving patterns thay vì mặc định “cắm là chạy” trên một máy.

Cấu hình khuyến nghị (chuyên nghiệp)

Component	Recommendation
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 cores
RAM	128GB
Storage	NVMe SSD

Vì sao phần cứng quan trọng

Bởi vì:

Mô hình 119B tham số (dù là MoE)
Ngữ cảnh lớn (256K token)
Xử lý đa phương thức

👉 Không tối ưu, nó quá nặng đối với GPU phổ thông

Cách chạy Mistral Small 4 cục bộ (Từng bước)

Bước 1) Lấy trọng số và chấp nhận điều kiện truy cập

vLLM lấy trọng số từ Hugging Face theo mặc định, vì vậy bạn cần token truy cập Hugging Face với quyền READ và phải chấp nhận điều kiện trên thẻ mô hình. Với thiết lập cục bộ thực tiễn, hãy chuẩn bị máy Linux với trình điều khiển NVIDIA, runtime tương thích CUDA, Python, và đủ bộ nhớ GPU cho checkpoint đã chọn. Nếu bạn đã có artifact trên kho lưu trữ của mình, bạn có thể bỏ qua thiết lập Hugging Face và trỏ vLLM đến đường dẫn cục bộ.

Bước 2) Dùng stack máy chủ được khuyến nghị chính thức

Khuyến nghị tự triển khai qua vLLM, vốn được mô tả là framework phục vụ tối ưu hóa cao có thể phơi bày API tương thích OpenAI. Tài liệu tự triển khai cũng đề cập TensorRT-LLM và TGI như lựa chọn thay thế, nhưng vLLM là con đường khuyến nghị cho dòng mô hình này.

Bước 3) Kéo Docker image do Mistral khuyến nghị hoặc cài vLLM thủ công

Mistral Small 4 khuyến nghị dùng Docker image tùy biến với các bản vá cho tool-calling và parsing lập luận, hoặc cài một bản vLLM đã vá thủ công. Thẻ mô hình cung cấp image tùy biến và lưu ý Mistral đang làm việc với đội vLLM để upstream các thay đổi.

Một điểm bắt đầu thực tế là:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

Bước 4) Phục vụ mô hình

Lệnh máy chủ được Mistral khuyến nghị là:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

Lệnh đó là manh mối thực tiễn quan trọng nhất trong toàn bộ câu chuyện cục bộ: nó cho thấy mô hình được thiết kế để chạy với backend GPU nghiêm túc, cửa sổ ngữ cảnh dài, và bật các parser công cụ và lập luận riêng của Mistral.

Bước 5) Kết nối ứng dụng với endpoint cục bộ

Vì vLLM phơi bày REST API tương thích OpenAI, bạn thường có thể trỏ code SDK OpenAI hiện tại đến http://localhost:8000/v1 và giữ nguyên phần lớn logic ứng dụng. Ví dụ của Mistral dùng base_url="http://localhost:8000/v1" và API key rỗng, đây là mẫu thường gặp trong phát triển cục bộ.

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

Bước 6) Tinh chỉnh cho tốc độ hoặc chất lượng

Nếu bạn đang thử nghiệm mô hình cục bộ, gợi ý reasoning_effort="high" cho prompt phức tạp và temperature=0.7 ở chế độ đó, trong khi nhiệt độ thấp hơn phù hợp hơn khi tắt lập luận. Thẻ mô hình cũng tách checkpoint FP8 cho độ chính xác tốt nhất khỏi checkpoint NVFP4 cho thông lượng và bộ nhớ thấp hơn, nên cấu hình đúng phụ thuộc vào việc bạn tối ưu cho chất lượng, tốc độ hay footprint phần cứng.

Bước 7: Tùy chọn – Chạy qua Ollama (Đơn giản hóa)

ollama run mistral-small-4

👉 Phù hợp nhất cho:

Phát triển cục bộ
Thiết lập nhanh

Mistral Small 4 so với GPT-OSS và Qwen 3.5 (So sánh đầy đủ)

Mistral Small 4: MoE hiệu quả cực cao

119B tổng tham số
~6.5B hoạt động mỗi token
128 chuyên gia (4 hoạt động)
Đa phương thức (văn bản + hình ảnh)

👉 Ý chính: dung lượng rất lớn nhưng tính toán trên mỗi token thấp

Điều này mang lại:

Hiệu năng cao
Độ trễ thấp
Chi phí suy luận thấp hơn

GPT-OSS: MoE thực dụng cho triển khai

Phiên bản 120B: ~117B tổng / 5.1B hoạt động
Phiên bản 20B: ~21B tổng / 3.6B hoạt động
Chỉ văn bản

👉 Ý chính: đưa mô hình mạnh lên phần cứng tối thiểu

Có thể chạy trên một GPU H100
Hỗ trợ công cụ mạnh / đầu ra có cấu trúc

Qwen 3.5: mở rộng năng lực cao

Tối đa 122B tham số
Số tham số hoạt động cao hơn (~20B+)
Đa phương thức + đa ngôn ngữ mạnh

👉 Ý chính: tối đa hóa năng lực dù chi phí tính toán tăng

So sánh điểm chuẩn hiệu năng

Category	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Input / Output	Đầu vào Văn bản + Hình ảnh → Đầu ra Văn bảnNgữ cảnh: 256K token	Đầu vào Văn bản → Đầu ra Văn bảnNgữ cảnh: ~128K token	Văn bản + Hình ảnh + Video → Đầu ra Văn bảnNgữ cảnh: lên tới 1M token
Price (API)	$0.15 /M đầu vào$0.60 /M đầu ra	Không có bảng giá API chính thức (tự lưu trữ)→ Chi phí phụ thuộc hạ tầng	$0.40–0.50 /M đầu vào$2.40–3.00 /M đầu ra
Architecture	MoE (Hỗn hợp chuyên gia)119B tổng / 6.5B hoạt động128 chuyên gia (4 hoạt động)	MoE Transformer120B: 117B / 5.1B hoạt động20B: 21B / 3.6B hoạt động	MoE lai + các lớp nâng caoTối đa 397B tổng (A17B hoạt động)
Multimodal	✅ Hỗ trợ hình ảnh	❌ Chỉ văn bản	✅ Hình ảnh + Video
Reasoning Control	✅ (reasoning_effort)	✅ (chế độ thấp/trung/cao)	✅ Lập luận thích ứng
Context Efficiency	⭐⭐⭐⭐⭐ (đầu ra ngắn)	⭐⭐⭐⭐	⭐⭐⭐ (đầu ra dài)
Tool / Agent Support	✅ Công cụ bản địa, tác tử, đầu ra có cấu trúc	✅ Sử dụng công cụ mạnh, đầu ra có cấu trúc	✅ Hệ sinh thái tác tử tiên tiến
Coding Ability	⭐⭐⭐⭐⭐ (cấp Devstral)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Deployment	Nặng (khuyến nghị đa GPU)	Linh hoạt (có thể một GPU)	Nặng (ưu tiên quy mô đám mây)

Khi bật lập luận, Small 4 ngang bằng hoặc vượt GPT-OSS 120B trên LCR, LiveCodeBench và AIME 2025, đồng thời tạo đầu ra ngắn hơn. Mistral dẫn chứng một ví dụ nơi Small 4 đạt 0.72 trên AA LCR chỉ với 1.6K ký tự, trong khi kết quả Qwen tương đương cần 5.8K–6.1K ký tự, và cho biết Small 4 vượt GPT-OSS 120B trên LiveCodeBench đồng thời tạo ít hơn 20% đầu ra.

Cách chạy Mistral Small 4 cục bộ

Lựa chọn cục bộ nào tốt nhất?

Quan điểm của tôi: Mistral Small 4 là lựa chọn “một mô hình” tốt nhất nếu bạn muốn triển khai cục bộ hoặc riêng tư cân bằng với chat tổng quát mạnh, lập trình, công việc tác tử và hỗ trợ đa phương thức. GPT-OSS là lựa chọn rõ ràng nếu bạn muốn mô hình OpenAI mở với hướng dẫn phục vụ cục bộ rất cụ thể, đặc biệt là bản 20B nhỏ hơn. Qwen3.5 là gia đình rộng nhất, nên xem nếu bạn quan tâm nhất đến vùng phủ đa ngôn ngữ, nhiều kích cỡ và tùy chọn phục vụ cục bộ linh hoạt.

Nếu bạn muốn truy cập các mô hình mã nguồn mở hàng đầu này qua API và không muốn đổi nhà cung cấp, tôi khuyên dùng CometAPI, nơi cung cấp GPT-oss-120B và Qwen 3.5 plus API v.v.

Nói cách khác, bạn có thể sử dụng Small 4 như một mô hình được lưu trữ, hoặc kéo trọng số và tự lưu trữ trên hạ tầng của riêng bạn.

Kết luận

Small 4 rất phù hợp khi bạn cần một mô hình mở trọng số, đa phương thức, có khả năng lập luận có thể tự lưu trữ, tinh chỉnh và tích hợp vào các ngăn xếp ứng dụng kiểu OpenAI hiện có. Nó đặc biệt hấp dẫn đối với các đội quan tâm đến kiểm soát triển khai, nơi lưu trữ dữ liệu và chi phí token biên thấp hơn, đồng thời vẫn muốn một mô hình mục đích chung hiện đại.

Sẵn sàng truy cập Mistral Small 4? Hãy vào CometAPI!

Mistral Small 4 là gì?

Một mô hình cho nhiều tác vụ

Vì sao lần phát hành này quan trọng

Điểm chuẩn hiệu năng của Mistral Small 4

Điểm nổi bật về hiệu năng

Kiến trúc (Góc nhìn kỹ thuật chính)

Yêu cầu triển khai nếu bạn dự định dùng Mistral Small 4

Hạ tầng tối thiểu và khuyến nghị chính thức

Ý nghĩa thực tiễn

Cấu hình khuyến nghị (chuyên nghiệp)

Vì sao phần cứng quan trọng

Cách chạy Mistral Small 4 cục bộ (Từng bước)

Bước 1) Lấy trọng số và chấp nhận điều kiện truy cập

Bước 2) Dùng stack máy chủ được khuyến nghị chính thức

Bước 3) Kéo Docker image do Mistral khuyến nghị hoặc cài vLLM thủ công

Bước 4) Phục vụ mô hình

Bước 5) Kết nối ứng dụng với endpoint cục bộ

Bước 6) Tinh chỉnh cho tốc độ hoặc chất lượng

Bước 7: Tùy chọn – Chạy qua Ollama (Đơn giản hóa)

Mistral Small 4 so với GPT-OSS và Qwen 3.5 (So sánh đầy đủ)

Mistral Small 4: MoE hiệu quả cực cao

GPT-OSS: MoE thực dụng cho triển khai

Qwen 3.5: mở rộng năng lực cao

So sánh điểm chuẩn hiệu năng

Lựa chọn cục bộ nào tốt nhất?

Kết luận

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm