GLM 4.7 Blogg

$Kort svar: GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server. Slik gjør du det lokalt (anbefalte alternativer) A) Transformers (Python, enkel lokal kjøring) - Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg. - Installer: pip install torch transformers accelerate sentencepiece - Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant): from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = "THUDM/chatglm3-6b" # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ).eval() prompt = "Forklar kvantisering kort." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True) print(tokenizer.decode(out[0], skip_special_tokens=True)) - Lite VRAM? Bruk 4-bit kvantisering: pip install bitsandbytes from transformers import BitsAndBytesConfig bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16) model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb, device_map="auto", trust_remote_code=True).eval() B) vLLM (lokal server, OpenAI-kompatibel API) - Forutsetninger: GPU anbefales for høy gjennomstrømning. - Installer: pip install vllm transformers sentencepiece - Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig): vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000 - Kall lokalt API (chat/completions): POST http://127.0.0.1:8000/v1/chat/completions { "model": "THUDM/chatglm3-6b", "messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}], "max_tokens": 256, "temperature": 0.7 } C) Ytelsestips for “Flash”-lignende hastighet - Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler. - Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet. - Juster max_new_tokens, temperature og topp-p for raskere svar. Maskinvare-estimat (tommelregel) - 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB. - 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon). Viktig merknad - GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten: 1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller 2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.$

Mar 19, 2026

Kort svar: GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server. Slik gjør du det lokalt (anbefalte alternativer) A) Transformers (Python, enkel lokal kjøring) - Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg. - Installer: pip install torch transformers accelerate sentencepiece - Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant): from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = "THUDM/chatglm3-6b" # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ).eval() prompt = "Forklar kvantisering kort." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True) print(tokenizer.decode(out[0], skip_special_tokens=True)) - Lite VRAM? Bruk 4-bit kvantisering: pip install bitsandbytes from transformers import BitsAndBytesConfig bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16) model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb, device_map="auto", trust_remote_code=True).eval() B) vLLM (lokal server, OpenAI-kompatibel API) - Forutsetninger: GPU anbefales for høy gjennomstrømning. - Installer: pip install vllm transformers sentencepiece - Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig): vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000 - Kall lokalt API (chat/completions): POST http://127.0.0.1:8000/v1/chat/completions { "model": "THUDM/chatglm3-6b", "messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}], "max_tokens": 256, "temperature": 0.7 } C) Ytelsestips for “Flash”-lignende hastighet - Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler. - Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet. - Juster max_new_tokens, temperature og topp-p for raskere svar. Maskinvare-estimat (tommelregel) - 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB. - 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon). Viktig merknad - GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten: 1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller 2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.

GLM-4.7-Flash er et lettvekts, høytytende 30B A3B MoE-medlem av GLM-4.7-familien, utviklet for å muliggjøre lokal og kostnadseffektiv utrulling for koding, agent-baserte arbeidsflyter og generell resonnering. Du kan kjøre den lokalt på tre praktiske måter: (1) via Ollama (enkelt, administrert lokalt kjøremiljø), (2) via Hugging Face / Transformers / vLLM / SGLang (GPU-først serverutrulling), eller (3) via GGUF + llama.cpp / llama-cpp-python (CPU/edge-vennlig).

GLM 4.7 Blogg

GLM-5 vs GLM-4.7: hva har endret seg, hva er viktig, og bør du oppgradere?

GLM-4.7 lansert: Hva betyr dette for KI-intelligens?