วิธีเรียกใช้ Mistral Small 4 บนเครื่อง локал

Mistral Small 4 คือโมเดล AI แบบหลายโมดัลรุ่นใหม่จาก Mistral AI (มีนาคม 2026) ที่รวมความสามารถด้าน การอนุมาน การใช้เหตุผล การเขียนโค้ด และมัลติโมดัล ไว้ในสถาปัตยกรรมเดียว โดยมี หน้าต่างบริบท 256K, การออกแบบแบบ Mixture-of-Experts (MoE) (~119B พารามิเตอร์ทั้งหมด, ~6.5B ที่ทำงานต่อโทเคน) และให้ การอนุมานที่เร็วขึ้น (ลดเวลาแฝงได้สูงสุด 40%) พร้อมทั้งทำผลงานเหนือกว่าโมเดลเปิดที่ใกล้เคียงกันอย่าง GPT-OSS 120B ในการทดสอบเบนช์มาร์ก

หากต้องการรันบนเครื่องของตนเอง คุณจะต้องมี GPU หน่วยความจำสูง (แนะนำ ≥48GB VRAM) หรือ การดีพลอยแบบควอนไทซ์ ร่วมกับเฟรมเวิร์กอย่าง Transformers, vLLM หรือ Ollama

Mistral Small 4 คืออะไร?

โมเดลเดียวสำหรับหลายงาน

Mistral Small 4 เข้าใจได้ดีที่สุดว่าเป็น “โมเดลสารพัดประโยชน์”: มันรวมจุดแข็งของตระกูลโมเดลก่อนหน้าของ Mistral สำหรับงาน instruction, reasoning และ coding ไว้ในโมเดลเดียว ตามถ้อยคำในการเปิดตัวของบริษัทเอง Small 4 เป็นโมเดล Mistral ตัวแรกที่รวมความสามารถของ Magistral สำหรับการใช้เหตุผล, Pixtral สำหรับงานมัลติโมดัล และ Devstral สำหรับการเขียนโค้ดเชิงเอเจนต์เข้าด้วยกัน รองรับ อินพุตข้อความและภาพ ส่งออกเป็นข้อความ และออกแบบมาสำหรับแชต การเขียนโค้ด เวิร์กโฟลว์แบบเอเจนต์ การทำความเข้าใจเอกสาร การวิจัย และการวิเคราะห์ภาพ

ทำไมการเปิดตัวนี้จึงสำคัญ

ความสำคัญในเชิงปฏิบัติคือ Mistral Small 4 ช่วยลดภาระจากการสลับโมเดล แทนที่จะต้องส่งพรอมป์หนึ่งไปยังโมเดล instruct ที่เร็ว พรอมป์ที่สองไปยังโมเดล reasoning และพรอมป์ที่สามไปยังโมเดล vision คุณสามารถใช้เอ็นด์พอยต์เดียวและปรับการตั้งค่า reasoning_effort ตามต้องการได้ Mistral ระบุอย่างชัดเจนว่า reasoning_effort="none" จะให้คำตอบที่รวดเร็วและเบา ใกล้เคียงกับแชตสไตล์ Small 3.2 ขณะที่ reasoning_effort="high" จะให้การใช้เหตุผลที่ลึกขึ้นและมีรายละเอียดมากขึ้น คล้ายกับโมเดล Magistral รุ่นก่อนหน้า

เบนช์มาร์กประสิทธิภาพของ Mistral Small 4

ไฮไลต์ประสิทธิภาพหลัก

วิธีเรียกใช้ Mistral Small 4 บนเครื่อง локал

Metric	Mistral Small 4
Architecture	MoE
Context Window	256K
Latency	↓ สูงสุด 40%
Coding Benchmarks	เหนือกว่า GPT-OSS 120B
Output Efficiency	ใช้โทเคนน้อยลง 20%

👉 ทำให้เหมาะอย่างยิ่งสำหรับ ระบบ AI ระดับพร้อมใช้งานจริงในโปรดักชัน

สถาปัตยกรรม (ข้อมูลเชิงเทคนิคสำคัญ)

ประเภทโมเดล: Mixture-of-Experts (MoE)
พารามิเตอร์ทั้งหมด: ~119B
พารามิเตอร์ที่ทำงานต่อโทเคน: ~6.5B
Experts: ~128 (ทำงาน 4 ตัวต่อหนึ่ง forward pass)

👉 สถาปัตยกรรมนี้ช่วยให้ได้ ความฉลาดระดับโมเดลใหญ่ในต้นทุนระดับโมเดลเล็ก จึงเหมาะสำหรับการดีพลอยบนเครื่องของตนเองมากกว่าโมเดลแบบ dense

ข้อกำหนดการดีพลอยที่ควรวางแผนสำหรับ Mistral Small 4

โครงสร้างพื้นฐานขั้นต่ำและที่แนะนำอย่างเป็นทางการ

Mistral ระบุเรื่องนี้ไว้อย่างชัดเจนผิดปกติ โดยโครงสร้างพื้นฐานขั้นต่ำคือ 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 หรือ 1x NVIDIA DGX B200 ส่วนชุดที่แนะนำเพื่อประสิทธิภาพสูงสุดคือ 4x HGX H100, 4x HGX H200 หรือ 2x DGX B200 นี่เป็นสัญญาณชัดเจนว่าแนวทางอย่างเป็นทางการเต็มรูปแบบนั้นมุ่งไปที่เครื่องระดับดาต้าเซ็นเตอร์มากกว่า GPU สำหรับผู้บริโภคเพียงตัวเดียว

สิ่งที่หมายถึงในทางปฏิบัติ

Mistral Small 4 เป็นโมเดล open-weight และมีประสิทธิภาพเมื่อเทียบกับขนาดของมัน แต่ก็ยังเป็นระบบ MoE ขนาด 119B พร้อมหน้าต่างบริบท 256k ในการดีพลอยจริง การผสมผสานนี้หมายความว่าแรงกดดันด้านหน่วยความจำจะเพิ่มขึ้นอย่างรวดเร็วเมื่อความยาวบริบทยาวขึ้น และประสิทธิภาพต่อเนื่องมักขึ้นอยู่กับ tensor parallelism แบบหลาย GPU และซอฟต์แวร์เสิร์ฟโมเดลที่มีประสิทธิภาพ นั่นจึงเป็นเหตุผลที่แนะนำให้ใช้ vLLM เป็นเอนจินหลักสำหรับการดีพลอยด้วยตนเอง และเปิดให้บริการในรูปแบบที่เข้ากันได้กับ OpenAI มากกว่าค่าตั้งต้นแบบ “รันเครื่องเดียวก็ใช้ได้ทันที”

ชุดติดตั้งที่แนะนำ (ระดับมืออาชีพ)

Component	Recommendation
GPU	48GB–80GB VRAM (A100 / H100)
CPU	16–32 คอร์
RAM	128GB
Storage	NVMe SSD

ทำไมฮาร์ดแวร์จึงสำคัญ

เพราะว่า:

โมเดลขนาด 119B พารามิเตอร์ (แม้จะเป็น MoE)
บริบทขนาดใหญ่ (256K โทเคน)
การประมวลผลแบบหลายโมดัล

👉 หากไม่มีการปรับแต่ง มัน หนักเกินไปสำหรับ GPU ระดับผู้บริโภค

วิธีรัน Mistral Small 4 บนเครื่องของคุณเอง (ทีละขั้นตอน)

ขั้นตอนที่ 1) รับ weights และยอมรับเงื่อนไขการเข้าถึง

โดยค่าเริ่มต้น vLLM จะดึง weights จาก Hugging Face ดังนั้นคุณต้องมี โทเคนเข้าถึง Hugging Face ที่มีสิทธิ์ READ และต้องยอมรับเงื่อนไขบนหน้าการ์ดของโมเดล สำหรับการติดตั้งใช้งานจริงบนเครื่องของตนเอง ควรเตรียมเครื่อง Linux พร้อมไดรเวอร์ NVIDIA การรองรับรันไทม์ที่เข้ากันได้กับ CUDA, Python และหน่วยความจำ GPU ที่เพียงพอสำหรับเช็กพอยต์ที่เลือก หากคุณมีไฟล์โมเดลอยู่ในสตอเรจของตนเองอยู่แล้ว คุณสามารถข้ามขั้นตอน Hugging Face และชี้ vLLM ไปยังพาธภายในเครื่องได้เลย

ขั้นตอนที่ 2) ใช้สแต็กเซิร์ฟเวอร์ที่แนะนำอย่างเป็นทางการ

แนะนำให้ดีพลอยด้วยตนเองผ่าน vLLM ซึ่งอธิบายว่าเป็นเฟรมเวิร์กสำหรับการเสิร์ฟโมเดลที่ปรับแต่งมาอย่างดีและสามารถเปิด API ที่เข้ากันได้กับ OpenAI ได้ เอกสารการดีพลอยด้วยตนเองยังกล่าวถึง TensorRT-LLM และ TGI เป็นทางเลือกด้วย แต่ vLLM คือเส้นทางที่แนะนำสำหรับตระกูลโมเดลนี้

ขั้นตอนที่ 3) ดึง Docker image ที่ Mistral แนะนำ หรือติดตั้ง vLLM ด้วยตนเอง

Mistral Small 4 แนะนำให้ใช้ Docker image แบบกำหนดเองที่มีการแก้ไขที่จำเป็นสำหรับการเรียกใช้ tools และการแยกวิเคราะห์ reasoning หรือให้ติดตั้ง vLLM รุ่นที่แพตช์แล้วด้วยตนเอง การ์ดของโมเดลให้ image แบบกำหนดเองไว้ และระบุว่า Mistral กำลังร่วมมือกับทีม vLLM เพื่อนำการเปลี่ยนแปลงเหล่านี้เข้าไปรวมในเวอร์ชันหลัก

จุดเริ่มต้นที่ใช้งานได้จริงคือ:

docker pull mistralllm/vllm-ms4:latestdocker run -it mistralllm/vllm-ms4:latest

ขั้นตอนที่ 4) เปิดให้บริการโมเดล

คำสั่งเซิร์ฟเวอร์ที่ Mistral แนะนำคือ:

vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \  --max-model-len 262144 \  --tensor-parallel-size 2 \  --attention-backend TRITON_MLA \  --tool-call-parser mistral \  --enable-auto-tool-choice \  --reasoning-parser mistral \  --max_num_batched_tokens 16384 \  --max_num_seqs 128 \  --gpu_memory_utilization 0.8

คำสั่งนี้เป็นเบาะแสเชิงปฏิบัติที่สำคัญที่สุดในเรื่องการรันบนเครื่องของตนเองทั้งหมด: มันบอกคุณว่าโมเดลนี้ตั้งใจให้รันด้วยแบ็กเอนด์ GPU ที่จริงจัง หน้าต่างบริบทยาว และเปิดใช้ตัวแยกวิเคราะห์เครื่องมือและ reasoning แบบเฉพาะของ Mistral

ขั้นตอนที่ 5) เชื่อมต่อแอปพลิเคชันของคุณกับเอ็นด์พอยต์ภายในเครื่อง

เนื่องจาก vLLM เปิดเผย REST API ที่เข้ากันได้กับ OpenAI คุณจึงมักสามารถชี้โค้ด OpenAI SDK เดิมของคุณไปที่ http://localhost:8000/v1 และคงลอจิกของแอปพลิเคชันส่วนใหญ่ไว้ได้โดยไม่ต้องเปลี่ยนแปลงมาก ตัวอย่างของ Mistral ใช้ base_url="http://localhost:8000/v1" และ API key ว่าง ซึ่งเป็นรูปแบบที่พบได้บ่อยในการพัฒนาแบบโลคัล

from openai import OpenAIclient = OpenAI(api_key="EMPTY", base_url="http://localhost:8000/v1")resp = client.chat.completions.create(    model="mistralai/Mistral-Small-4-119B-2603-NVFP4",    messages=[{"role": "user", "content": "Summarize the document in five bullets."}],    temperature=0.7,    reasoning_effort="none",)print(resp.choices[0].message.content)

ขั้นตอนที่ 6) ปรับแต่งเพื่อความเร็วหรือคุณภาพ

หากคุณกำลังทดสอบโมเดลนี้ในเครื่องของตนเอง เอกสารแนะนำ reasoning_effort="high" สำหรับพรอมป์ที่ซับซ้อน และ temperature=0.7 ในโหมดนั้น ขณะที่อุณหภูมิที่ต่ำกว่าจะเหมาะกว่าเมื่อปิดการใช้เหตุผล การ์ดเดียวกันนี้ยังแยกเช็กพอยต์ FP8 สำหรับความแม่นยำสูงสุด ออกจากเช็กพอยต์ NVFP4 สำหรับ throughput ที่สูงกว่าและการใช้หน่วยความจำที่ต่ำกว่า ดังนั้นการตั้งค่าที่เหมาะสมจึงขึ้นอยู่กับว่าคุณกำลังปรับให้เหมาะกับคุณภาพ ความเร็ว หรือขนาดการใช้ฮาร์ดแวร์

ขั้นตอนที่ 7: ทางเลือกเพิ่มเติม – รันผ่าน Ollama (แบบง่าย)

ollama run mistral-small-4

👉 เหมาะที่สุดสำหรับ:

การพัฒนาแบบโลคัล
การตั้งค่าอย่างรวดเร็ว

Mistral Small 4 เทียบกับ GPT-OSS และ Qwen 3.5 (เปรียบเทียบเต็มรูปแบบ)

Mistral Small 4: MoE ประสิทธิภาพสูงสุดแบบสุดขั้ว

119B พารามิเตอร์ทั้งหมด
~6.5B ที่ทำงานต่อโทเคน
128 experts (ทำงาน 4 ตัว)
มัลติโมดัล (ข้อความ + ภาพ)

👉 แนวคิดหลัก: ความจุสูงมาก แต่ใช้การคำนวณต่อโทเคนต่ำ

สิ่งนี้ให้:

ประสิทธิภาพสูง
เวลาแฝงต่ำ
ต้นทุนต่อการอนุมานต่ำลง

GPT-OSS: MoE ที่ใช้งานได้จริงสำหรับการดีพลอย

รุ่น 120B: ~117B ทั้งหมด / 5.1B ทำงานจริง
รุ่น 20B: ~21B ทั้งหมด / 3.6B ทำงานจริง
รองรับข้อความอย่างเดียว

👉 แนวคิดหลัก: ทำให้โมเดลทรงพลังสามารถรันบนฮาร์ดแวร์ขั้นต่ำได้

สามารถรันบน GPU H100 เพียงตัวเดียว
รองรับการใช้ tools / structured output ได้ดี

Qwen 3.5: การสเกลเพื่อความสามารถสูง

สูงสุดถึง 122B พารามิเตอร์
มี จำนวนพารามิเตอร์ที่ทำงานจริงสูงกว่า (~20B+)
มัลติโมดัล + รองรับหลายภาษาได้ดี

👉 แนวคิดหลัก: เพิ่มความสามารถให้สูงสุด แม้ต้นทุนการคำนวณจะเพิ่มขึ้น

การเปรียบเทียบเบนช์มาร์กประสิทธิภาพ

Category	Mistral Small 4	GPT-OSS (120B / 20B)	Qwen 3.5 (Plus / MoE)
Input / Output	อินพุตข้อความ + ภาพ → เอาต์พุตข้อความContext: 256K tokens	อินพุตข้อความ → เอาต์พุตข้อความContext: ~128K tokens	อินพุตข้อความ + ภาพ + วิดีโอ → เอาต์พุตข้อความContext: สูงสุด 1M tokens
Price (API)	$0.15 /M input$0.60 /M output	ไม่มีราคา API อย่างเป็นทางการ (โฮสต์เอง)→ ต้นทุนขึ้นกับโครงสร้างพื้นฐาน	$0.40–0.50 /M input$2.40–3.00 /M output
Architecture	MoE (Mixture-of-Experts)119B total / 6.5B active128 experts (4 active)	MoE Transformer120B: 117B / 5.1B active20B: 21B / 3.6B active	Hybrid MoE + advanced layersUp to 397B total (A17B active)
Multimodal	✅ รองรับภาพ	❌ ข้อความอย่างเดียว	✅ ภาพ + วิดีโอ
Reasoning Control	✅ (`reasoning_effort`)	✅ (โหมด low/med/high)	✅ การใช้เหตุผลแบบปรับได้
Context Efficiency	⭐⭐⭐⭐⭐ (เอาต์พุตสั้น)	⭐⭐⭐⭐	⭐⭐⭐ (เอาต์พุตยาว)
Tool / Agent Support	✅ เครื่องมือ, เอเจนต์, structured outputs แบบเนทีฟ	✅ รองรับการใช้ tools และ structured outputs ได้ดี	✅ ระบบนิเวศเอเจนต์ขั้นสูง
Coding Ability	⭐⭐⭐⭐⭐ (ระดับ Devstral)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Deployment	หนัก (แนะนำหลาย GPU)	ยืดหยุ่น (ใช้ GPU เดียวได้)	หนัก (เหมาะกับระดับคลาวด์)

เมื่อเปิดใช้ reasoning แล้ว Small 4 จะทำผลงานเทียบเท่าหรือเหนือกว่า GPT-OSS 120B บน LCR, LiveCodeBench และ AIME 2025 พร้อมสร้างเอาต์พุตที่สั้นกว่า Mistral ยกตัวอย่างหนึ่งว่าคะแนนของ Small 4 อยู่ที่ 0.72 บน AA LCR โดยใช้เพียง 1.6K ตัวอักษร ขณะที่ผลลัพธ์ของ Qwen ที่ใกล้เคียงกันต้องใช้ 5.8K–6.1K ตัวอักษร และยังระบุว่า Small 4 เหนือกว่า GPT-OSS 120B บน LiveCodeBench ขณะสร้างเอาต์พุตน้อยลง 20%

วิธีเรียกใช้ Mistral Small 4 บนเครื่อง локал

ตัวไหนคือตัวเลือกที่ดีที่สุดสำหรับการรันแบบโลคัล?

ความเห็นของผม: Mistral Small 4 เป็นตัวเลือก “โมเดลเดียวจบ” ที่ดีที่สุด หากคุณต้องการการดีพลอยแบบโลคัลหรือแบบส่วนตัวที่สมดุล ทั้งด้านแชตทั่วไป การเขียนโค้ด งานแบบเอเจนต์ และการรองรับมัลติโมดัล GPT-OSS เป็นตัวเลือกที่ชัดเจนที่สุด หากคุณต้องการโมเดล OpenAI แบบเปิดที่มีแนวทางการเสิร์ฟแบบโลคัลที่ชัดเจนมาก โดยเฉพาะรุ่น 20B ที่เล็กกว่า ส่วน Qwen3.5 เป็นตระกูลที่ครอบคลุมที่สุด และเป็นตัวเลือกที่ควรมองหาหากคุณให้ความสำคัญกับการรองรับหลายภาษา ขนาดโมเดลหลายระดับ และตัวเลือกการเสิร์ฟแบบโลคัลที่ยืดหยุ่น

หากคุณต้องการเข้าถึงโมเดลโอเพนซอร์สชั้นนำเหล่านี้ผ่าน API และไม่ต้องการสลับผู้ให้บริการ ผมขอแนะนำ CometAPI, ซึ่งให้บริการ GPT-oss-120B และ Qwen 3.5 plus API เป็นต้น

กล่าวอีกอย่างคือ คุณสามารถใช้งาน Small 4 แบบโฮสต์แล้ว หรือดึง weights ไปโฮสต์เองบนโครงสร้างพื้นฐานของคุณก็ได้

บทสรุป

Small 4 เหมาะอย่างยิ่งเมื่อคุณต้องการโมเดลที่เป็น open-weight, มัลติโมดัล, รองรับการใช้เหตุผล และสามารถ โฮสต์เองได้ ปรับจูนต่อได้ และผสานเข้ากับสแตกแอปพลิเคชันสไตล์ OpenAI ที่มีอยู่แล้วได้อย่างลงตัว มันน่าสนใจเป็นพิเศษสำหรับทีมที่ให้ความสำคัญกับการควบคุมการดีพลอย การกำกับดูแลที่อยู่ของข้อมูล และต้นทุนต่อโทเคนที่ต่ำลง ขณะเดียวกันก็ยังต้องการโมเดลอเนกประสงค์สมัยใหม่

พร้อมเข้าถึง Mistral Small 4 แล้วหรือยัง? ถ้าอย่างนั้นมาที่ CometAPI!

Mistral Small 4 คืออะไร?

โมเดลเดียวสำหรับหลายงาน

ทำไมการเปิดตัวนี้จึงสำคัญ

เบนช์มาร์กประสิทธิภาพของ Mistral Small 4

ไฮไลต์ประสิทธิภาพหลัก

สถาปัตยกรรม (ข้อมูลเชิงเทคนิคสำคัญ)

ข้อกำหนดการดีพลอยที่ควรวางแผนสำหรับ Mistral Small 4

โครงสร้างพื้นฐานขั้นต่ำและที่แนะนำอย่างเป็นทางการ

สิ่งที่หมายถึงในทางปฏิบัติ

ชุดติดตั้งที่แนะนำ (ระดับมืออาชีพ)

ทำไมฮาร์ดแวร์จึงสำคัญ

วิธีรัน Mistral Small 4 บนเครื่องของคุณเอง (ทีละขั้นตอน)

ขั้นตอนที่ 1) รับ weights และยอมรับเงื่อนไขการเข้าถึง

ขั้นตอนที่ 2) ใช้สแต็กเซิร์ฟเวอร์ที่แนะนำอย่างเป็นทางการ

ขั้นตอนที่ 3) ดึง Docker image ที่ Mistral แนะนำ หรือติดตั้ง vLLM ด้วยตนเอง

ขั้นตอนที่ 4) เปิดให้บริการโมเดล

ขั้นตอนที่ 5) เชื่อมต่อแอปพลิเคชันของคุณกับเอ็นด์พอยต์ภายในเครื่อง

ขั้นตอนที่ 6) ปรับแต่งเพื่อความเร็วหรือคุณภาพ

ขั้นตอนที่ 7: ทางเลือกเพิ่มเติม – รันผ่าน Ollama (แบบง่าย)

Mistral Small 4 เทียบกับ GPT-OSS และ Qwen 3.5 (เปรียบเทียบเต็มรูปแบบ)

Mistral Small 4: MoE ประสิทธิภาพสูงสุดแบบสุดขั้ว

GPT-OSS: MoE ที่ใช้งานได้จริงสำหรับการดีพลอย

Qwen 3.5: การสเกลเพื่อความสามารถสูง

การเปรียบเทียบเบนช์มาร์กประสิทธิภาพ

ตัวไหนคือตัวเลือกที่ดีที่สุดสำหรับการรันแบบโลคัล?

บทสรุป

เข้าถึงโมเดลชั้นนำ ด้วยต้นทุนต่ำ

อ่านเพิ่มเติม