Hva er GLM-4.7
GLM-4.7 er Z.ai / Zhipu AIs nyeste flaggskip blant open-foundation store språkmodeller (modellnavn glm-4.7). Den er posisjonert som en utviklerorientert “tenkende” modell med særskilte forbedringer innen koding/agentbasert oppgaveutførelse, flerstegsresonnering, verktøykall og arbeidsflyter med lang kontekst. Utgaven vektlegger håndtering av stor kontekst (opptil 200K kontekst), høy maksimal utdata (opptil 128K tokens) og spesialiserte “tenke”-moduser for agentiske pipleliner.
Hovedfunksjoner
- Agent-/verktøybruk-forbedringer: Innebygde tenkemoduser (“Interleaved Thinking”, “Preserved Thinking”, kontroll på rundenivå) gjør det mulig for modellen å “tenke før den handler”, beholde resonnement på tvers av runder og være mer stabil ved verktøykall eller utførelse av flerstegsoppgaver. Dette er rettet mot robuste agent-arbeidsflyter (terminaler, verktøykjeder, nettlesing).
- Koding og terminalkompetanse: Betydelige forbedringer på kodebenchmarker og terminalautomatiseringsoppgaver — leverandørbenchmarker viser klare gevinster mot GLM-4.6 på SWE-bench og Terminal Bench-metrikker. Dette gir bedre flerrunds kodegenerering, kommando-sekvensering og gjenoppretting i agentmiljøer.
- “Vibe coding” / frontend-utdatakvalitet: Forbedret standard UI-/layoutkvalitet for generert HTML, lysbilder og presentasjoner (renere layouter, størrelser, bedre visuelle standardvalg).
- Arbeidsflyter med lang kontekst: 200K tokens kontekstvindu og verktøy for kontekstbufring; praktisk for kodebaser med mange filer, lange dokumenter og flerrunds agentsesjoner.
Ytelse i benchmarktester
GLM-4.7s utgiver/vedlikeholdere og fellesskapets benchmarktabeller rapporterer betydelige gevinster mot GLM-4.6 og konkurransedyktige resultater mot andre samtidige modeller på koding, agentikk og verktøybruk. Utvalgte tall (kilde: offisielle tabeller publisert på Hugging Face / Z.AI):
- LiveCodeBench-v6 (benchmark for kodeagenter): 84.9 (oppgitt å være open-source SOTA).
- SWE-bench Verified (koding): 73.8% (opp fra 68.0% i GLM-4.6).
- SWE-bench Multilingual: 66.7% (+12.9% mot GLM-4.6).
- Terminal Bench 2.0 (agentbaserte terminalhandlinger): 41.0% (merkbar +16.5% forbedring over 4.6).
- HLE (komplekst resonnement med verktøy): 42.8% ved bruk med verktøy (stor forbedring rapportert mot tidligere versjoner).
- τ²-Bench (interaktivt verktøykall): 87.4 (rapportert open-source SOTA).
Typiske brukstilfeller og eksempelscenarier
- Agentiske kodeassistenter: Autonom eller semi-autonom kodegenerering, flerrunds kodefikser, terminalautomatisering og CI/CD-skripting.
- Verktøydrevne agenter: Nettlesing, API-orkestrering, flerstegs arbeidsflyter (støttet av bevart resonnement og funksjonskalling).
- Front-end og UI-generering: Automatisk nettstedoppsett, lysbildepakker, plakater med forbedret estetikk og layout.
- Forskning og oppgaver med lang kontekst: Dokumentsammendrag, litteratursyntese og gjenfinning-forsterket generering på tvers av lange dokumenter (200K token-vinduet er nyttig her).
- Interaktive læringsagenter / kodeveiledere: Flerrunds veiledning med bevart resonnement som husker tidligere resonnementblokker gjennom en økt.
Slik får du tilgang til og bruker GLM 4.7-API-et
Trinn 1: Registrer API-nøkkel
Logg inn på cometapi.com. Hvis du ikke er brukeren vår ennå, vennligst registrer deg først. Logg inn på din CometAPI-konsoll. Få tilgangslegitimasjonen API-nøkkel for grensesnittet. Klikk “Add Token” ved API-tokenet i personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.
Trinn 2: Send forespørsler til MiniMax M2.1-API
Velg “glm-4.7”-endepunktet for å sende API-forespørselen og sett forespørselens body. Forespørselsmetoden og forespørselsbodyen hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for din bekvemmelighet. Erstatt <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din. Hvor du kaller det: Chat-stil API-er.
Sett inn spørsmålet eller forespørselen din i content-feltet—det er dette modellen vil svare på. Prosesser API-responsen for å få den genererte responsen.
Trinn 3: Hent og verifiser resultater
Prosesser API-responsen for å få den genererte responsen. Etter prosessering svarer API-et med oppgavestatus og

![Kort svar:
GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server.
Slik gjør du det lokalt (anbefalte alternativer)
A) Transformers (Python, enkel lokal kjøring)
- Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg.
- Installer:
pip install torch transformers accelerate sentencepiece
- Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant):
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "THUDM/chatglm3-6b" # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
).eval()
prompt = "Forklar kvantisering kort."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True)
print(tokenizer.decode(out[0], skip_special_tokens=True))
- Lite VRAM? Bruk 4-bit kvantisering:
pip install bitsandbytes
from transformers import BitsAndBytesConfig
bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16)
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb,
device_map="auto", trust_remote_code=True).eval()
B) vLLM (lokal server, OpenAI-kompatibel API)
- Forutsetninger: GPU anbefales for høy gjennomstrømning.
- Installer:
pip install vllm transformers sentencepiece
- Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig):
vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000
- Kall lokalt API (chat/completions):
POST http://127.0.0.1:8000/v1/chat/completions
{
"model": "THUDM/chatglm3-6b",
"messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}],
"max_tokens": 256,
"temperature": 0.7
}
C) Ytelsestips for “Flash”-lignende hastighet
- Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler.
- Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet.
- Juster max_new_tokens, temperature og topp-p for raskere svar.
Maskinvare-estimat (tommelregel)
- 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB.
- 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon).
Viktig merknad
- GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten:
1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller
2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.](https://resource.cometapi.com/How to Use GLM-4.7-Flash Locally.webp)
