Kort svar:
GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server.
Slik gjør du det lokalt (anbefalte alternativer)
A) Transformers (Python, enkel lokal kjøring)
- Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg.
- Installer:
pip install torch transformers accelerate sentencepiece
- Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant):
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "THUDM/chatglm3-6b" # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
).eval()
prompt = "Forklar kvantisering kort."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True)
print(tokenizer.decode(out[0], skip_special_tokens=True))
- Lite VRAM? Bruk 4-bit kvantisering:
pip install bitsandbytes
from transformers import BitsAndBytesConfig
bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16)
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb,
device_map="auto", trust_remote_code=True).eval()
B) vLLM (lokal server, OpenAI-kompatibel API)
- Forutsetninger: GPU anbefales for høy gjennomstrømning.
- Installer:
pip install vllm transformers sentencepiece
- Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig):
vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000
- Kall lokalt API (chat/completions):
POST http://127.0.0.1:8000/v1/chat/completions
{
"model": "THUDM/chatglm3-6b",
"messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}],
"max_tokens": 256,
"temperature": 0.7
}
C) Ytelsestips for “Flash”-lignende hastighet
- Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler.
- Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet.
- Juster max_new_tokens, temperature og topp-p for raskere svar.
Maskinvare-estimat (tommelregel)
- 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB.
- 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon).
Viktig merknad
- GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten:
1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller
2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.
GLM-4.7-Flash er et lettvekts, høytytende 30B A3B MoE-medlem av GLM-4.7-familien, utviklet for å muliggjøre lokal og kostnadseffektiv utrulling for koding, agent-baserte arbeidsflyter og generell resonnering. Du kan kjøre den lokalt på tre praktiske måter: (1) via Ollama (enkelt, administrert lokalt kjøremiljø), (2) via Hugging Face / Transformers / vLLM / SGLang (GPU-først serverutrulling), eller (3) via GGUF + llama.cpp / llama-cpp-python (CPU/edge-vennlig).