GLM 4.7 Blogg

Kort svar:
GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server.

Slik gjør du det lokalt (anbefalte alternativer)

A) Transformers (Python, enkel lokal kjøring)
- Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg.
- Installer:
  pip install torch transformers accelerate sentencepiece
- Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant):
  from transformers import AutoTokenizer, AutoModelForCausalLM
  import torch

  model_id = "THUDM/chatglm3-6b"  # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang
  tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
  model = AutoModelForCausalLM.from_pretrained(
      model_id,
      torch_dtype=torch.float16,
      device_map="auto",
      trust_remote_code=True
  ).eval()

  prompt = "Forklar kvantisering kort."
  inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
  out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True)
  print(tokenizer.decode(out[0], skip_special_tokens=True))

- Lite VRAM? Bruk 4-bit kvantisering:
  pip install bitsandbytes
  from transformers import BitsAndBytesConfig
  bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4",
                           bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16)
  model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb,
                                               device_map="auto", trust_remote_code=True).eval()

B) vLLM (lokal server, OpenAI-kompatibel API)
- Forutsetninger: GPU anbefales for høy gjennomstrømning.
- Installer:
  pip install vllm transformers sentencepiece
- Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig):
  vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000
- Kall lokalt API (chat/completions):
  POST http://127.0.0.1:8000/v1/chat/completions
  {
    "model": "THUDM/chatglm3-6b",
    "messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}],
    "max_tokens": 256,
    "temperature": 0.7
  }

C) Ytelsestips for “Flash”-lignende hastighet
- Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler.
- Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet.
- Juster max_new_tokens, temperature og topp-p for raskere svar.

Maskinvare-estimat (tommelregel)
- 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB.
- 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon).

Viktig merknad
- GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten:
  1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller
  2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.
Mar 19, 2026
GLM 4.7
GLM 4.7

Kort svar: GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server. Slik gjør du det lokalt (anbefalte alternativer) A) Transformers (Python, enkel lokal kjøring) - Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg. - Installer: pip install torch transformers accelerate sentencepiece - Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant): from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = "THUDM/chatglm3-6b" # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ).eval() prompt = "Forklar kvantisering kort." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True) print(tokenizer.decode(out[0], skip_special_tokens=True)) - Lite VRAM? Bruk 4-bit kvantisering: pip install bitsandbytes from transformers import BitsAndBytesConfig bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16) model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb, device_map="auto", trust_remote_code=True).eval() B) vLLM (lokal server, OpenAI-kompatibel API) - Forutsetninger: GPU anbefales for høy gjennomstrømning. - Installer: pip install vllm transformers sentencepiece - Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig): vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000 - Kall lokalt API (chat/completions): POST http://127.0.0.1:8000/v1/chat/completions { "model": "THUDM/chatglm3-6b", "messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}], "max_tokens": 256, "temperature": 0.7 } C) Ytelsestips for “Flash”-lignende hastighet - Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler. - Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet. - Juster max_new_tokens, temperature og topp-p for raskere svar. Maskinvare-estimat (tommelregel) - 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB. - 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon). Viktig merknad - GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten: 1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller 2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.

GLM-4.7-Flash er et lettvekts, høytytende 30B A3B MoE-medlem av GLM-4.7-familien, utviklet for å muliggjøre lokal og kostnadseffektiv utrulling for koding, agent-baserte arbeidsflyter og generell resonnering. Du kan kjøre den lokalt på tre praktiske måter: (1) via Ollama (enkelt, administrert lokalt kjøremiljø), (2) via Hugging Face / Transformers / vLLM / SGLang (GPU-først serverutrulling), eller (3) via GGUF + llama.cpp / llama-cpp-python (CPU/edge-vennlig).