ModellerStøtteBedriftBlogg
500+ AI-modell API, Alt I Én API. Bare I CometAPI
Modeller API
Utvikler
HurtigstartDokumentasjonAPI Dashbord
Ressurser
AI-modellerBloggBedriftEndringsloggOm oss
2025 CometAPI. Alle rettigheter reservert.PersonvernerklæringTjenestevilkår
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Inndata:$0.96/M
Utdata:$3.84/M
Kontekst:200,000
Maks utdata:128,000
Zhipus nyeste flaggskipsmodell GLM-4.6 lansert: totalt antall parametere 355B, aktive parametere 32B. De samlede kjerneevene overgår GLM-4.5. Koding: På nivå med Claude Sonnet 4, best i Kina. Kontekst: Utvidet til 200K (opprinnelig 128K). Inferens: Forbedret, støtter verktøykall. Søk: Optimalisert verktøy- og agentrammeverk. Skriving: Mer i tråd med menneskelige preferanser, skrivestil og rollespill. Flerspråklig: Forbedret oversettelseskvalitet.
Ny
Kommersiell bruk
Playground
Oversikt
Funksjoner
Priser
API

GLM-4.6 er den siste større utgivelsen i Z.ai’s (tidligere Zhipu AI) GLM-familie: en fjerdegenerasjons, storspråkmodell MoE (Mixture-of-Experts) tunet for agentbaserte arbeidsflyter, langkontekst-resonnering og koding i virkeligheten. Utgivelsen vektlegger praktisk agent-/verktøyintegrasjon, et svært stort kontekstvindu, og åpenvekt-tilgjengelighet for lokal utrulling.

Nøkkelfunksjoner

  • Lang kontekst — innebygd 200K tokens kontekstvindu (utvidet fra 128K). (docs.z.ai)
  • Koding og agentkapabilitet — markedsførte forbedringer på oppgaver for koding i virkeligheten og bedre verktøykalling for agenter.
  • Effektivitet — rapportert ~30% lavere tokenforbruk vs GLM-4.5 på Z.ai’s tester.
  • Utrulling og kvantisering — først annonsert FP8- og Int4-integrasjon for Cambricon-brikker; native FP8-støtte på Moore Threads via vLLM.
  • Modellstørrelse og tensortype — publiserte artefakter indikerer en ~357B-parametermodell (BF16 / F32-tensorer) på Hugging Face.

Tekniske detaljer

Modaliteter og formater. GLM-4.6 er en ren tekst LLM (input- og outputmodaliteter: tekst). Kontekstlengde = 200K tokens; maks utdata = 128K tokens.

Kvantisering og maskinvarestøtte. Teamet rapporterer FP8/Int4-kvantisering på Cambricon-brikker og native FP8-kjøring på Moore Threads GPU-er ved bruk av vLLM for inferens — viktig for å redusere inferenskostnad og muliggjøre on-prem og nasjonale skydistribusjoner.

Verktøy og integrasjoner. GLM-4.6 distribueres gjennom Z.ai’s API, tredjeparts leverandørnettverk (f.eks., CometAPI), og integreres i kodeagenter (Claude Code, Cline, Roo Code, Kilo Code).

Tekniske detaljer

Modaliteter og formater. GLM-4.6 er en ren tekst LLM (input- og outputmodaliteter: tekst). Kontekstlengde = 200K tokens; maks utdata = 128K tokens.

Kvantisering og maskinvarestøtte. Teamet rapporterer FP8/Int4-kvantisering på Cambricon-brikker og native FP8-kjøring på Moore Threads GPU-er ved bruk av vLLM for inferens — viktig for å redusere inferenskostnad og muliggjøre on-prem og nasjonale skydistribusjoner.

Verktøy og integrasjoner. GLM-4.6 distribueres gjennom Z.ai’s API, tredjeparts leverandørnettverk (f.eks., CometAPI), og integreres i kodeagenter (Claude Code, Cline, Roo Code, Kilo Code).

Benchmark-ytelse

  • Publiserte evalueringer: GLM-4.6 ble testet på åtte offentlige benchmarks som dekker agenter, resonnering og koding og viser klare gevinster over GLM-4.5. På menneskeevaluerte, virkelige kodingstester (utvidet CC-Bench) bruker GLM-4.6 ~15% færre tokens vs GLM-4.5 og oppnår en ~48.6% seiersrate vs Anthropic’s Claude Sonnet 4 (nær paritet på mange topplister).
  • Posisjonering: resultater hevder at GLM-4.6 er konkurransedyktig med ledende innenlandske og internasjonale modeller (eksempler som nevnes inkluderer DeepSeek-V3.1 og Claude Sonnet 4).

bilde

Begrensninger og risiko

  • Hallusinasjoner og feil: som alle nåværende LLM-er kan og vil GLM-4.6 gjøre faktiske feil — Z.ai’s dokumentasjon advarer eksplisitt om at utdata kan inneholde feil. Brukere bør anvende verifisering og retrieval/RAG for kritisk innhold.
  • Modellkompleksitet og driftskostnad: 200K kontekst og svært store utdata øker minne- og latenserkrav betraktelig og kan heve inferenskostnader; kvantisering/inferens-ingeniørarbeid kreves for drift i skala.
  • Domenegap: selv om GLM-4.6 rapporterer sterk agent-/kodeytelse, påpeker noen offentlige rapporter at den fortsatt ligger etter visse versjoner av konkurrerende modeller i spesifikke mikrobenchmarks (f.eks., noen kodingmetrikker vs Sonnet 4.5). Vurder per oppgave før du erstatter produksjonsmodeller.
  • Sikkerhet og policy: åpne vekter øker tilgjengeligheten men reiser også spørsmål om forvaltning (mitigations, guardrails og red-teaming er fortsatt brukerens ansvar).

Bruksområder

  • Agentbaserte systemer og verktøyorkestrering: lange agent-traces, planlegging med flere verktøy, dynamisk verktøykalling; modellens agentiske tuning er et sentralt salgsargument.
  • Kodeassistenter for virkelige scenarier: flerskritt kodegenerering, kodereview og interaktive IDE-assistenter (integrert i Claude Code, Cline, Roo Code—per Z.ai). Forbedringer i token-effektivitet gjør den attraktiv for utviklerplaner med høy bruk.
  • Langdokument-arbeidsflyter: oppsummering, syntese av flere dokumenter, lange juridiske/tekniske gjennomganger på grunn av 200K-vinduet.
  • Innholdsskaping og virtuelle karakterer: utvidede dialoger, konsistent persona-vedlikehold i scenarier med mange omganger.

Hvordan GLM-4.6 sammenlignes med andre modeller

  • GLM-4.5 → GLM-4.6: trinnvis endring i kontekststørrelse (128K → 200K) og token-effektivitet (~15% færre tokens på CC-Bench); forbedret agent-/verktøybruk.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai rapporterer nær paritet på flere topplister og en ~48.6% seiersrate på CC-Benchs oppgaver for koding i virkeligheten (dvs. tett konkurranse, med noen mikrobenchmarks der Sonnet fortsatt leder). For mange ingeniørteam posisjoneres GLM-4.6 som et kostnadseffektivt alternativ.
  • GLM-4.6 vs andre langkontekstmodeller (DeepSeek, Gemini-varianter, GPT-4-familien): GLM-4.6 vektlegger stort kontekst og agentiske koding-arbeidsflyter; relative styrker avhenger av metrikk (token-effektivitet/agent-integrasjon vs rå nøyaktighet i kodingsyntese eller sikkerhetspipelines). Empirisk utvalg bør være oppgavedrevet.

Zhipu AI’s nyeste flaggskipsmodell GLM-4.6 lansert: 355B totale params, 32B aktive. Overgår GLM-4.5 i alle kjernekapabiliteter.

  • Koding: På linje med Claude Sonnet 4, best i Kina.
  • Kontekst: Utvidet til 200K (fra 128K).
  • Resonnering: Forbedret, støtter verktøykalling under inferens.
  • Søk: Forbedret verktøykalling og agentytelse.
  • Skriving: Bedre samsvar med menneskelige preferanser i stil, lesbarhet og rollespill.
  • Flerspråklig: Forbedret oversettelse på tvers av språk.

FAQ

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Funksjoner for GLM 4.6

Utforsk nøkkelfunksjonene til GLM 4.6, designet for å forbedre ytelse og brukervennlighet. Oppdag hvordan disse mulighetene kan være til nytte for prosjektene dine og forbedre brukeropplevelsen.

Priser for GLM 4.6

Utforsk konkurransedyktige priser for GLM 4.6, designet for å passe ulike budsjetter og bruksbehov. Våre fleksible planer sikrer at du bare betaler for det du bruker, noe som gjør det enkelt å skalere etter hvert som kravene dine vokser. Oppdag hvordan GLM 4.6 kan forbedre prosjektene dine samtidig som kostnadene holdes håndterbare.
Komet-pris (USD / M Tokens)Offisiell pris (USD / M Tokens)Rabatt
Inndata:$0.96/M
Utdata:$3.84/M
Inndata:$1.2/M
Utdata:$4.8/M
-20%

Eksempelkode og API for GLM 4.6

GLM-4.6 er den nyeste hovedutgivelsen i GLM-familien til Z.ai (tidligere Zhipu AI): en storspråkmodell av fjerde generasjon av typen MoE (Mixture-of-Experts), tilpasset agentbaserte arbeidsflyter, langkontekstuell resonnering og koding i den virkelige verden. Utgivelsen legger vekt på praktisk agent-/verktøyintegrasjon, et svært stort kontekstvindu og åpne vekter tilgjengelig for lokal utrulling.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

Flere modeller

A

Claude Opus 4.6

Inndata:$4/M
Utdata:$20/M
Claude Opus 4.6 er en stor språkmodell i «Opus»-klassen fra Anthropic, lansert i februar 2026. Den er posisjonert som en arbeidshest for arbeidsflyter innen kunnskapsarbeid og forskning — med forbedringer i resonnering over lange kontekster, flertrinns planlegging, verktøybruk (inkludert agentbaserte programvarearbeidsflyter) og oppgaver på datamaskin, som automatisk generering av lysbilder og regneark.
A

Claude Sonnet 4.6

Inndata:$2.4/M
Utdata:$12/M
Claude Sonnet 4.6 er vår mest kapable Sonnet-modell hittil. Det er en fullstendig oppgradering av modellens ferdigheter innen koding, bruk av datamaskin, resonnering over lange kontekster, agentplanlegging, kunnskapsarbeid og design. Sonnet 4.6 har også et kontekstvindu på 1M token i beta.
O

GPT-5.4 nano

Inndata:$0.16/M
Utdata:$1/M
GPT-5.4 nano er utviklet for oppgaver der hastighet og kostnader er viktigst, som klassifisering, datauttrekk, rangering og underagenter.
O

GPT-5.4 mini

Inndata:$0.6/M
Utdata:$3.6/M
GPT-5.4 mini bringer styrkene fra GPT-5.4 til en raskere, mer effektiv modell, designet for arbeidslaster i stor skala.
A

Claude Mythos Preview

A

Claude Mythos Preview

Kommer snart
Inndata:$60/M
Utdata:$240/M
Claude Mythos Preview er vår mest kapable frontier-modell til dags dato, og viser et markant sprang i resultater på mange evalueringsbenchmarker sammenlignet med vår forrige frontier-modell, Claude Opus 4.6.
X

mimo-v2-pro

Inndata:$0.8/M
Utdata:$2.4/M
MiMo-V2-Pro er Xiaomis flaggskip-grunnmodell, med over 1T totale parametere og en kontekstlengde på 1M, dypt optimalisert for agentiske scenarier. Den er svært tilpasningsdyktig til generelle agentrammeverk som OpenClaw. Den rangerer blant den globale toppklassen i standardbenchmarkene PinchBench og ClawBench, med opplevd ytelse som nærmer seg Opus 4.6. MiMo-V2-Pro er utformet for å fungere som hjernen i agentsystemer, orkestrere komplekse arbeidsflyter, drive produksjonsnære ingeniøroppgaver og levere resultater pålitelig.

Relaterte blogger

GLM-4.7 lansert: Hva betyr dette for KI-intelligens?
Dec 23, 2025
glm-4-7

GLM-4.7 lansert: Hva betyr dette for KI-intelligens?

22. desember 2025 lanserte Zhipu AI (Z.ai) offisielt GLM-4.7, den nyeste iterasjonen i sin General Language Model (GLM)-familie — noe som vakte global oppmerksomhet i miljøet for KI-modeller med åpen kildekode. Denne modellen forbedrer ikke bare evnene innen koding og resonnering, men utfordrer også dominansen til proprietære modeller som GPT-5.2 og Claude Sonnet 4.5 på viktige referansetester.