Mar 23, 2026
Mistral Small 4

Kort antwoord: - Mistral Small 4 is een gehost, gesloten model. De gewichten zijn niet publiek, dus je kunt het niet volledig offline/lokaal draaien. Je kunt het wel lokaal aanroepen via de Mistral API. - Wil je echt lokaal/offline draaien, gebruik dan een open‑weights alternatief uit de Mistral‑familie (bijv. Mistral‑7B‑Instruct v0.3, Mixtral 8x7B/8x22B, Mistral‑Nemo, Ministral‑3B/8B). Optie A — Lokaal aanroepen via de Mistral API (niet offline): 1) Installeer SDK - Python: pip install mistralai 2) Stel je API‑sleutel in - macOS/Linux: export MISTRAL_API_KEY=... - Windows (Powershell): setx MISTRAL_API_KEY "...” 3) Roep het model aan - Modelnaam: mistral-small-latest (Small 4 achter deze alias) - Voorbeeld (Python, schets): from mistralai import Mistral; client = Mistral(api_key=...); client.chat.complete(model="mistral-small-latest", messages=[{"role":"user","content":"..."}]) Optie B — Volledig lokaal (open gewichten) met vergelijkbare Mistral‑modellen: 1) Snel en eenvoudig: Ollama - Installeer Ollama - Trek een model: - Mistral‑7B‑Instruct: ollama pull mistral - Mixtral 8x7B‑Instruct: ollama pull mixtral - Start inferentie: - ollama run mistral - of met prompt: ollama run mistral "Schrijf een samenvatting..." - Opmerking: Ollama gebruikt geoptimaliseerde quantized builds; draait op CPU of GPU. 2) Prestaties/serving: vLLM (OpenAI‑compatible server) - Installatie: pip install vllm - Start server (voorbeeld Mistral‑7B‑Instruct v0.3): - python -m vllm.entrypoints.openai.api_server --model mistralai/Mistral-7B-Instruct-v0.3 --dtype float16 - Gebruik via OpenAI‑compatibele clients (endpoint: http://localhost:8000/v1, modelnaam gelijk aan je geladen model). 3) Productiegericht: Text Generation Inference (Hugging Face TGI) - Start met Docker: - docker run --gpus all -p 8080:80 -e MODEL_ID=mistralai/Mistral-7B-Instruct-v0.3 ghcr.io/huggingface/text-generation-inference:latest - Aanroepen: - curl -X POST http://localhost:8080/generate -d '{"inputs":"Hallo","parameters":{"max_new_tokens":128}}' -H "Content-Type: application/json" 4) Lichtgewicht/CPU‑vriendelijk: llama.cpp (GGUF) - Download een GGUF‑quant van het gewenste open model (bijv. Mistral‑7B‑Instruct Q4_K_M) - Run: - ./main -m ./models/mistral-7b-instruct.Q4_K_M.gguf -p "Schrijf een korte samenvatting..." Hardwareindicaties (ruw, afhankelijk van quantisatie en contextlengte): - Mistral‑7B: - FP16 op GPU: ~12–16 GB VRAM - 4‑bit quant (GGUF/GPTQ/AWQ): 4–8 GB VRAM of 8–16 GB RAM op CPU - Mixtral 8x7B: - Meer geheugen (24–48 GB VRAM); quantisatie of CPU mogelijk maar trager Fijnslijpen/fine‑tuning (alleen open gewichten): - Gebruik LoRA/QLoRA (PEFT) op open Mistral‑modellen; houd contextlengte en dtype/quantisatie in de gaten. Belangrijk: - Wil je specifiek Mistral Small 4 on‑prem/offline draaien, dan is dat alleen mogelijk via een zakelijke on‑prem/BYOC‑licentie bij Mistral. Zonder die licentie zijn de gewichten niet beschikbaar. - Voor vergelijkbare latency/kosten lokaal kun je vaak met Mistral‑7B‑Instruct of Ministral‑8B beginnen en later opschalen naar Mixtral als je meer capaciteit nodig hebt.

Mistral Small 4 is een nieuw uitgebracht open-weight multimodaal AI-model van Mistral AI (maart 2026) dat redeneervermogen, programmeercapaciteiten en visuele mogelijkheden in één enkele architectuur combineert. Het kan lokaal worden ingezet met frameworks zoals Ollama, vLLM of llama.cpp (gekwantiseerd), waarvoor GPU’s (≥24GB VRAM aanbevolen) of high-end CPU’s met kwantisatie vereist zijn. Het belangrijkste voordeel is de hoge prestaties tegen aanzienlijk lagere inferentiekosten en latentie, waardoor het ideaal is voor on-device AI-toepassingen.
Mar 21, 2026

你可以在以下平台和项目找到可免费使用(开放权重或免费推理)的主流 AI 模型: - 模型聚合平台 - Hugging Face Hub: https://huggingface.co/models - ModelScope 魔搭社区: https://modelscope.cn/models - Kaggle Models: https://www.kaggle.com/models - GitHub(各模型官方仓库的 Releases) - 主流开源/开放权重大语言模型(LLM) - Meta Llama 3 系列:https://ai.meta.com/resources/models-and-libraries/(或 Hugging Face 搜索 “meta-llama”) - Mistral/Mixtral:https://huggingface.co/mistralai - Qwen/Qwen2(阿里):https://huggingface.co/Qwen 或 https://modelscope.cn/organization/qwen - Google Gemma/Gemma 2:https://ai.google.dev/gemma 或 https://huggingface.co/google - Microsoft Phi-3:https://huggingface.co/microsoft - 01.AI Yi:https://huggingface.co/01-ai - TII Falcon:https://huggingface.co/tiiuae - DeepSeek:https://huggingface.co/deepseek-ai - InternLM(书生):https://huggingface.co/internlm - MosaicML MPT:https://huggingface.co/mosaicml - 多模态/语音/图像模型 - LLaVA、Qwen-VL、MiniCPM-V(多模态):在 Hugging Face 搜索对应组织 - Whisper(语音识别):https://huggingface.co/openai/whisper-* - Stable Diffusion/SDXL(图像生成):https://huggingface.co/stabilityai - 本地一键拉取与运行工具(便于下载与管理免费模型) - Ollama 模型库:https://ollama.com/library - LM Studio:https://lmstudio.ai - GPT4All:https://gpt4all.io 小贴士: - “免费”通常指可免费获取权重或免费在线体验,但商业使用需遵守各自许可证。 - Hugging Face 可按任务、参数规模、许可证过滤与排序;许多模型提供在线 Demo(Spaces)便于快速试用。

De beste plek om in 2026 gratis toonaangevende AI-modellen te vinden is CometAPI, met een uniforme modelcatalogus, een gratis API-sleutel en proefcredits. Het meest bruikbare 'gratis' traject hangt af van je doel: chat en dagelijks schrijven, multimodaal gebruik zoals afbeeldingen, of API-tests over veel van de meest geavanceerde modellen. CometAPI springt eruit voor ontwikkelaars omdat het één API voor 500+ modellen biedt, een interactieve Playground, proefcredits voor nieuwe gebruikers en ingebouwde vergelijkingshulpmiddelen voor het testen van workflows voor beeld- en videogeneratie.