ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/Zhipu AI/GLM-4.7
Z

GLM-4.7

Inndata:$0.96/M
Utdata:$3.84/M
Kontekst:200K
Maks utdata:128K
GLM-4.7 er Z.AIs nyeste flaggskipmodell, med oppgraderinger på to nøkkelområder: forbedrede programmeringsevner og mer stabil flertrinnsresonnering/utførelse. Den viser betydelige forbedringer i utførelsen av komplekse agentoppgaver, samtidig som den leverer mer naturlige samtaleopplevelser og overlegen front-end-estetikk.
Ny
Kommersiell bruk
Playground
Oversikt
Funksjoner
Priser
API

Hva er GLM-4.7

GLM-4.7 er Z.ai / Zhipu AIs nyeste flaggskip blant open-foundation store språkmodeller (modellnavn glm-4.7). Den er posisjonert som en utviklerorientert “tenkende” modell med særskilte forbedringer innen koding/agentbasert oppgaveutførelse, flerstegsresonnering, verktøykall og arbeidsflyter med lang kontekst. Utgaven vektlegger håndtering av stor kontekst (opptil 200K kontekst), høy maksimal utdata (opptil 128K tokens) og spesialiserte “tenke”-moduser for agentiske pipleliner.

Hovedfunksjoner

  • Agent-/verktøybruk-forbedringer: Innebygde tenkemoduser (“Interleaved Thinking”, “Preserved Thinking”, kontroll på rundenivå) gjør det mulig for modellen å “tenke før den handler”, beholde resonnement på tvers av runder og være mer stabil ved verktøykall eller utførelse av flerstegsoppgaver. Dette er rettet mot robuste agent-arbeidsflyter (terminaler, verktøykjeder, nettlesing).
  • Koding og terminalkompetanse: Betydelige forbedringer på kodebenchmarker og terminalautomatiseringsoppgaver — leverandørbenchmarker viser klare gevinster mot GLM-4.6 på SWE-bench og Terminal Bench-metrikker. Dette gir bedre flerrunds kodegenerering, kommando-sekvensering og gjenoppretting i agentmiljøer.
  • “Vibe coding” / frontend-utdatakvalitet: Forbedret standard UI-/layoutkvalitet for generert HTML, lysbilder og presentasjoner (renere layouter, størrelser, bedre visuelle standardvalg).
  • Arbeidsflyter med lang kontekst: 200K tokens kontekstvindu og verktøy for kontekstbufring; praktisk for kodebaser med mange filer, lange dokumenter og flerrunds agentsesjoner.

Ytelse i benchmarktester

GLM-4.7s utgiver/vedlikeholdere og fellesskapets benchmarktabeller rapporterer betydelige gevinster mot GLM-4.6 og konkurransedyktige resultater mot andre samtidige modeller på koding, agentikk og verktøybruk. Utvalgte tall (kilde: offisielle tabeller publisert på Hugging Face / Z.AI):

  • LiveCodeBench-v6 (benchmark for kodeagenter): 84.9 (oppgitt å være open-source SOTA).
  • SWE-bench Verified (koding): 73.8% (opp fra 68.0% i GLM-4.6).
  • SWE-bench Multilingual: 66.7% (+12.9% mot GLM-4.6).
  • Terminal Bench 2.0 (agentbaserte terminalhandlinger): 41.0% (merkbar +16.5% forbedring over 4.6).
  • HLE (komplekst resonnement med verktøy): 42.8% ved bruk med verktøy (stor forbedring rapportert mot tidligere versjoner).
  • τ²-Bench (interaktivt verktøykall): 87.4 (rapportert open-source SOTA).

Typiske brukstilfeller og eksempelscenarier

  • Agentiske kodeassistenter: Autonom eller semi-autonom kodegenerering, flerrunds kodefikser, terminalautomatisering og CI/CD-skripting.
  • Verktøydrevne agenter: Nettlesing, API-orkestrering, flerstegs arbeidsflyter (støttet av bevart resonnement og funksjonskalling).
  • Front-end og UI-generering: Automatisk nettstedoppsett, lysbildepakker, plakater med forbedret estetikk og layout.
  • Forskning og oppgaver med lang kontekst: Dokumentsammendrag, litteratursyntese og gjenfinning-forsterket generering på tvers av lange dokumenter (200K token-vinduet er nyttig her).
  • Interaktive læringsagenter / kodeveiledere: Flerrunds veiledning med bevart resonnement som husker tidligere resonnementblokker gjennom en økt.

Slik får du tilgang til og bruker GLM 4.7-API-et

Trinn 1: Registrer API-nøkkel

Logg inn på cometapi.com. Hvis du ikke er brukeren vår ennå, vennligst registrer deg først. Logg inn på din CometAPI-konsoll. Få tilgangslegitimasjonen API-nøkkel for grensesnittet. Klikk “Add Token” ved API-tokenet i personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.

Trinn 2: Send forespørsler til MiniMax M2.1-API

Velg “glm-4.7”-endepunktet for å sende API-forespørselen og sett forespørselens body. Forespørselsmetoden og forespørselsbodyen hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for din bekvemmelighet. Erstatt <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din. Hvor du kaller det: Chat-stil API-er.

Sett inn spørsmålet eller forespørselen din i content-feltet—det er dette modellen vil svare på. Prosesser API-responsen for å få den genererte responsen.

Trinn 3: Hent og verifiser resultater

Prosesser API-responsen for å få den genererte responsen. Etter prosessering svarer API-et med oppgavestatus og

Funksjoner for GLM-4.7

Utforsk nøkkelfunksjonene til GLM-4.7, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for GLM-4.7

Utforsk konkurransedyktige priser for GLM-4.7, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan GLM-4.7 kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$0.96/M
Utdata:$3.84/M
Inndata:$1.2/M
Utdata:$4.8/M
-20%

Eksempelkode og API for GLM-4.7

Få tilgang til omfattende eksempelkode og API-ressurser for GLM-4.7 for å effektivisere integreringsprosessen din. Vår detaljerte dokumentasjon gir trinn-for-trinn-veiledning som hjelper deg med å utnytte det fulle potensialet til GLM-4.7 i prosjektene dine.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
completion = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello! Tell me a short joke."}
    ]
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
completion = client.chat.completions.create(
    model="glm-4.7",
    messages=[
        {"role": "user", "content": "Hello! Tell me a short joke."}
    ]
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token
const COMETAPI_KEY = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const BASE_URL = "https://api.cometapi.com/v1";

const client = new OpenAI({
  apiKey: COMETAPI_KEY,
  baseURL: BASE_URL,
});

// glm-4.7: Zhipu GLM-4.7 model via chat/completions
async function main() {
  const completion = await client.chat.completions.create({
    model: "glm-4.7",
    messages: [{ role: "user", content: "Hello! Tell me a short joke." }],
  });

  console.log(completion.choices[0].message.content);
}

main().catch(console.error);

Curl Code Example

#!/bin/bash

# Get your CometAPI key from https://api.cometapi.com/console/token
COMETAPI_KEY="${COMETAPI_KEY:-<YOUR_COMETAPI_KEY>}"

# glm-4.7: Zhipu GLM-4.7 model via chat/completions
curl -s https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "glm-4.7",
    "messages": [
      {
        "role": "user",
        "content": "Hello! Tell me a short joke."
      }
    ]
  }'

Flere modeller

A

Claude Opus 4.6

Inndata:$4/M
Utdata:$20/M
Claude Opus 4.6 er en stor språkmodell i «Opus»-klassen fra Anthropic, lansert i februar 2026. Den er posisjonert som en arbeidshest for arbeidsflyter innen kunnskapsarbeid og forskning — med forbedringer i resonnering over lange kontekster, flertrinns planlegging, verktøybruk (inkludert agentbaserte programvarearbeidsflyter) og oppgaver på datamaskin, som automatisk generering av lysbilder og regneark.
A

Claude Sonnet 4.6

Inndata:$2.4/M
Utdata:$12/M
Claude Sonnet 4.6 er vår mest kapable Sonnet-modell hittil. Det er en fullstendig oppgradering av modellens ferdigheter innen koding, bruk av datamaskin, resonnering over lange kontekster, agentplanlegging, kunnskapsarbeid og design. Sonnet 4.6 har også et kontekstvindu på 1M token i beta.
O

GPT-5.4 nano

Inndata:$0.16/M
Utdata:$1/M
GPT-5.4 nano er utviklet for oppgaver der hastighet og kostnader er viktigst, som klassifisering, datauttrekk, rangering og underagenter.
O

GPT-5.4 mini

Inndata:$0.6/M
Utdata:$3.6/M
GPT-5.4 mini bringer styrkene fra GPT-5.4 til en raskere, mer effektiv modell, designet for arbeidslaster i stor skala.
A

Claude Mythos Preview

A

Claude Mythos Preview

Kommer snart
Inndata:$60/M
Utdata:$240/M
Claude Mythos Preview er vår mest kapable frontier-modell til dags dato, og viser et markant sprang i resultater på mange evalueringsbenchmarker sammenlignet med vår forrige frontier-modell, Claude Opus 4.6.
X

mimo-v2-pro

Inndata:$0.8/M
Utdata:$2.4/M
MiMo-V2-Pro er Xiaomis flaggskip-grunnmodell, med over 1T totale parametere og en kontekstlengde på 1M, dypt optimalisert for agentiske scenarier. Den er svært tilpasningsdyktig til generelle agentrammeverk som OpenClaw. Den rangerer blant den globale toppklassen i standardbenchmarkene PinchBench og ClawBench, med opplevd ytelse som nærmer seg Opus 4.6. MiMo-V2-Pro er utformet for å fungere som hjernen i agentsystemer, orkestrere komplekse arbeidsflyter, drive produksjonsnære ingeniøroppgaver og levere resultater pålitelig.

Relaterte blogger

GLM-5 vs GLM-4.7: hva har endret seg, hva er viktig, og bør du oppgradere?
Feb 26, 2026
glm-5
glm-4-7

GLM-5 vs GLM-4.7: hva har endret seg, hva er viktig, og bør du oppgradere?

GLM-5, lansert 11. februar 2026 av Zhipu AI (Z.ai), representerer et stort arkitektonisk sprang fra GLM-4.7: større MoE-skala (≈744B vs ~355B totale parametere), høyere aktiv parameterkapasitet, lavere målt hallusinasjon og klare gevinster på agent- og programmeringsbenchmarktester — med kostnader i inferenskompleksitet og (noen ganger) latens.
Kort svar:
GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server.

Slik gjør du det lokalt (anbefalte alternativer)

A) Transformers (Python, enkel lokal kjøring)
- Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg.
- Installer:
  pip install torch transformers accelerate sentencepiece
- Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant):
  from transformers import AutoTokenizer, AutoModelForCausalLM
  import torch

  model_id = "THUDM/chatglm3-6b"  # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang
  tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
  model = AutoModelForCausalLM.from_pretrained(
      model_id,
      torch_dtype=torch.float16,
      device_map="auto",
      trust_remote_code=True
  ).eval()

  prompt = "Forklar kvantisering kort."
  inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
  out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True)
  print(tokenizer.decode(out[0], skip_special_tokens=True))

- Lite VRAM? Bruk 4-bit kvantisering:
  pip install bitsandbytes
  from transformers import BitsAndBytesConfig
  bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4",
                           bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16)
  model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb,
                                               device_map="auto", trust_remote_code=True).eval()

B) vLLM (lokal server, OpenAI-kompatibel API)
- Forutsetninger: GPU anbefales for høy gjennomstrømning.
- Installer:
  pip install vllm transformers sentencepiece
- Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig):
  vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000
- Kall lokalt API (chat/completions):
  POST http://127.0.0.1:8000/v1/chat/completions
  {
    "model": "THUDM/chatglm3-6b",
    "messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}],
    "max_tokens": 256,
    "temperature": 0.7
  }

C) Ytelsestips for “Flash”-lignende hastighet
- Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler.
- Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet.
- Juster max_new_tokens, temperature og topp-p for raskere svar.

Maskinvare-estimat (tommelregel)
- 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB.
- 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon).

Viktig merknad
- GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten:
  1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller
  2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.
Jan 21, 2026
glm-4-7
glm-4-7

Kort svar: GLM-4.7-Flash er en sky-/API-variant hos ZhipuAI. Uten tilgang til de faktiske vektfilene kan den ikke kjøres lokalt. For lokal kjøring bruk en åpen GLM-variant (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat) hvis du har lisens/tilgang til vektene), eller tjen modellen via en lokal OpenAI-kompatibel server. Slik gjør du det lokalt (anbefalte alternativer) A) Transformers (Python, enkel lokal kjøring) - Forutsetninger: NVIDIA-GPU anbefales; CPU fungerer men er treg. - Installer: pip install torch transformers accelerate sentencepiece - Eksempel (bytt ut model_id med vektene du har tilgang til, f.eks. "THUDM/chatglm3-6b" eller en GLM-4-9B-chat-variant): from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = "THUDM/chatglm3-6b" # ev. "THUDM/glm-4-9b-chat" hvis du har tilgang tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ).eval() prompt = "Forklar kvantisering kort." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=256, temperature=0.7, do_sample=True) print(tokenizer.decode(out[0], skip_special_tokens=True)) - Lite VRAM? Bruk 4-bit kvantisering: pip install bitsandbytes from transformers import BitsAndBytesConfig bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.float16) model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb, device_map="auto", trust_remote_code=True).eval() B) vLLM (lokal server, OpenAI-kompatibel API) - Forutsetninger: GPU anbefales for høy gjennomstrømning. - Installer: pip install vllm transformers sentencepiece - Start server (eksempel med ChatGLM3-6B; erstatt med din GLM-4-x-modell hvis tilgjengelig): vllm serve THUDM/chatglm3-6b --trust-remote-code --port 8000 - Kall lokalt API (chat/completions): POST http://127.0.0.1:8000/v1/chat/completions { "model": "THUDM/chatglm3-6b", "messages": [{"role": "user", "content": "Hvordan bruke modellen lokalt?"}], "max_tokens": 256, "temperature": 0.7 } C) Ytelsestips for “Flash”-lignende hastighet - Bruk FP16 på GPU, aktiver paged attention (vLLM), og øk batch/throughput hvis du server flere forespørsler. - Kvantiser til 4-bit for å passe på mindre VRAM, på bekostning av noe kvalitet. - Juster max_new_tokens, temperature og topp-p for raskere svar. Maskinvare-estimat (tommelregel) - 6B-klasse (ChatGLM3-6B): ~12 GB VRAM i FP16; 4-bit kan passe i 6–8 GB. - 9B-klasse (GLM-4-9B): ~18 GB VRAM i FP16; 4-bit typisk 6–10 GB (avhengig av implementasjon). Viktig merknad - GLM-4.7-Flash i seg selv er normalt ikke tilgjengelig som nedlastbare vekter. For lokal bruk må du enten: 1) Ha lisens/aksess til de spesifikke GLM-4.7-Flash-vektene, eller 2) Bruke åpne/tilgjengelige GLM-varianter (f.eks. ChatGLM3-6B eller GLM-4-9B(-Chat)) og kjøre dem som vist over.

GLM-4.7-Flash er et lettvekts, høytytende 30B A3B MoE-medlem av GLM-4.7-familien, utviklet for å muliggjøre lokal og kostnadseffektiv utrulling for koding, agent-baserte arbeidsflyter og generell resonnering. Du kan kjøre den lokalt på tre praktiske måter: (1) via Ollama (enkelt, administrert lokalt kjøremiljø), (2) via Hugging Face / Transformers / vLLM / SGLang (GPU-først serverutrulling), eller (3) via GGUF + llama.cpp / llama-cpp-python (CPU/edge-vennlig).
GLM-4.7 lansert: Hva betyr dette for KI-intelligens?
Dec 23, 2025
glm-4-7

GLM-4.7 lansert: Hva betyr dette for KI-intelligens?

22. desember 2025 lanserte Zhipu AI (Z.ai) offisielt GLM-4.7, den nyeste iterasjonen i sin General Language Model (GLM)-familie — noe som vakte global oppmerksomhet i miljøet for KI-modeller med åpen kildekode. Denne modellen forbedrer ikke bare evnene innen koding og resonnering, men utfordrer også dominansen til proprietære modeller som GPT-5.2 og Claude Sonnet 4.5 på viktige referansetester.