ModelleSupportUnternehmenBlog
500+ KI-Modell-APIs, Alles in einer API. Nur bei CometAPI
Modelle-API
Entwickler
SchnellstartDokumentationAPI Dashboard
Ressourcen
KI-ModelleBlogUnternehmenÄnderungsprotokollÜber uns
2025 CometAPI. Alle Rechte vorbehalten.DatenschutzrichtlinieNutzungsbedingungen
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Eingabe:$0.96/M
Ausgabe:$3.84/M
Kontext:200,000
Maximale Ausgabe:128,000
Zhipus neuestes Flaggschiffmodell GLM-4.6 veröffentlicht: Gesamtparameter 355B, aktive Parameter 32B. Die Kernfähigkeiten insgesamt übertreffen GLM-4.5. Programmierung: Gleichauf mit Claude Sonnet 4, bestes in China. Kontext: Auf 200K erweitert (ursprünglich 128K). Inferenz: Verbessert, unterstützt Tool-Aufrufe. Suche: Optimiertes Tool- und Agenten-Framework. Schreiben: Stärker an menschlichen Präferenzen, Schreibstil und Rollenspiel ausgerichtet. Mehrsprachigkeit: Verbesserte Übersetzungsleistung.
Neu
Kommerzielle Nutzung
Playground
Überblick
Funktionen
Preisgestaltung
API

GLM-4.6 ist das neueste Major-Release in Z.ai’s (früher Zhipu AI) GLM-Familie: ein großsprachiges MoE (Mixture-of-Experts-Modell) der 4. Generation, abgestimmt auf agentenbasierte Workflows, Langkontext-Schlussfolgern und praxisnahe Programmierung. Das Release betont praktische Agent-/Tool-Integration, ein sehr großes Kontextfenster sowie Open-Weights-Verfügbarkeit für lokale Bereitstellung.

Wichtige Funktionen

  • Langer Kontext — natives 200K Token Kontextfenster (erweitert von 128K). (docs.z.ai)
  • Coding & agentische Fähigkeiten — beworbene Verbesserungen bei praxisnahen Coding-Aufgaben und bessere Tool-Aufrufe für Agenten.
  • Effizienz — laut Z.ai-Tests ~30% geringerer Token-Verbrauch gegenüber GLM-4.5.
  • Bereitstellung & Quantisierung — erstmals angekündigte FP8- und Int4-Integration für Cambricon-Chips; native FP8-Unterstützung auf Moore Threads via vLLM.
  • Modellgröße & Tensortyp — veröffentlichte Artefakte deuten auf ein ~357B-Parameter-Modell (BF16-/F32-Tensoren) auf Hugging Face hin.

Technische Details

Modalitäten & Formate. GLM-4.6 ist ein rein textbasiertes LLM (Eingabe- und Ausgabemodalitäten: Text). Kontextlänge = 200K Token; max. Ausgabe = 128K Token.

Quantisierung & Hardware-Unterstützung. Das Team meldet FP8/Int4-Quantisierung auf Cambricon-Chips und native FP8-Ausführung auf Moore Threads GPUs mit vLLM für Inferenz — wichtig zur Senkung der Inferenzkosten und für On-Premises- sowie inländische Cloud-Bereitstellungen.

Tooling & Integrationen. GLM-4.6 wird über die Z.ai-API, Netzwerke von Drittanbietern (z. B. CometAPI) bereitgestellt und ist in Coding-Agenten integriert (Claude Code, Cline, Roo Code, Kilo Code).

Technische Details

Modalitäten & Formate. GLM-4.6 ist ein rein textbasiertes LLM (Eingabe- und Ausgabemodalitäten: Text). Kontextlänge = 200K Token; max. Ausgabe = 128K Token.

Quantisierung & Hardware-Unterstützung. Das Team meldet FP8/Int4-Quantisierung auf Cambricon-Chips und native FP8-Ausführung auf Moore Threads GPUs mit vLLM für Inferenz — wichtig zur Senkung der Inferenzkosten und für On-Premises- sowie inländische Cloud-Bereitstellungen.

Tooling & Integrationen. GLM-4.6 wird über die Z.ai-API, Netzwerke von Drittanbietern (z. B. CometAPI) bereitgestellt und ist in Coding-Agenten integriert (Claude Code, Cline, Roo Code, Kilo Code).

Benchmark-Leistung

  • Veröffentlichte Auswertungen: GLM-4.6 wurde auf acht öffentlichen Benchmarks zu Agenten, Reasoning und Coding getestet und zeigt klare Zugewinne gegenüber GLM-4.5. In menschlich bewerteten, praxisnahen Coding-Tests (erweiterter CC-Bench) verwendet GLM-4.6 ~15% weniger Token als GLM-4.5 und erzielt eine ~48.6% Win-Rate gegenüber Anthropic’s Claude Sonnet 4 (nahezu Gleichstand auf vielen Ranglisten).
  • Positionierung: Die Ergebnisse behaupten, GLM-4.6 sei wettbewerbsfähig mit führenden inländischen und internationalen Modellen (genannte Beispiele: DeepSeek-V3.1 und Claude Sonnet 4).

Bild

Einschränkungen & Risiken

  • Halluzinationen & Fehler: Wie alle aktuellen LLMs kann GLM-4.6 faktische Fehler machen — die Z.ai-Dokumentation warnt explizit, dass Ausgaben Fehler enthalten können. Nutzer sollten für kritische Inhalte Verifikation & Retrieval/RAG anwenden.
  • Modellkomplexität & Betriebskosten: 200K Kontext und sehr große Ausgaben erhöhen Speicher- und Latenzanforderungen deutlich und können die Inferenzkosten steigern; Quantisierung/Inferenz-Engineering ist erforderlich für den Betrieb im großen Maßstab.
  • Domänenlücken: Obwohl GLM-4.6 starke Agent-/Coding-Leistung meldet, weisen einige öffentliche Berichte darauf hin, dass es in bestimmten Mikrobenchmarks noch hinter einigen Versionen konkurrierender Modelle liegt (z. B. einige Coding-Metriken vs Sonnet 4.5). Aufgabenbezogen evaluieren, bevor Produktivmodelle ersetzt werden.
  • Sicherheit & Richtlinien: Offene Gewichte erhöhen die Zugänglichkeit, werfen aber auch Fragen der Verantwortlichkeit auf (Gegenmaßnahmen, Leitplanken und Red-Teaming liegen in der Verantwortung der Nutzer).

Anwendungsfälle

  • Agentische Systeme & Tool-Orchestrierung: lange Agenten-Traces, Multi-Tool-Planung, dynamische Tool-Aufrufe; das agentische Tuning des Modells ist ein zentrales Verkaufsargument.
  • Praxisnahe Coding-Assistenten: mehrstufige Codegenerierung, Code-Review und interaktive IDE-Assistenten (integriert in Claude Code, Cline, Roo Code — laut Z.ai). Verbesserungen der Token-Effizienz machen es attraktiv für Entwicklerpläne mit hoher Nutzung.
  • Workflows für lange Dokumente: Zusammenfassung, Synthese über mehrere Dokumente, lange rechtliche/technische Reviews dank des 200K-Fensters.
  • Content-Erstellung & virtuelle Charaktere: ausgedehnte Dialoge, konsistente Pflege einer Persona in mehrstufigen Szenarien.

Vergleich von GLM-4.6 mit anderen Modellen

  • GLM-4.5 → GLM-4.6: Sprung bei Kontextgröße (128K → 200K) und Token-Effizienz (~15% weniger Token auf CC-Bench); verbesserte Agent-/Tool-Nutzung.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai berichtet nahezu Gleichstand auf mehreren Leaderboards und eine ~48.6% Win-Rate bei den CC-Bench-Coding-Aufgaben (also enge Konkurrenz, mit einigen Mikrobenchmarks, in denen Sonnet noch führt). Für viele Engineering-Teams ist GLM-4.6 als kosteneffiziente Alternative positioniert.
  • GLM-4.6 vs andere Langkontext-Modelle (DeepSeek, Gemini-Varianten, GPT-4-Familie): GLM-4.6 betont großen Kontext & agentische Coding-Workflows; relative Stärken hängen von der Metrik ab (Token-Effizienz/Agent-Integration vs reine Code-Synthese-Genauigkeit oder Sicherheits-Pipelines). Die Auswahl sollte empirisch und aufgabengetrieben erfolgen.

Zhipu AI’s neuestes Flaggschiffmodell GLM-4.6 veröffentlicht: 355B Gesamtparameter, 32B aktiv. Übertrifft GLM-4.5 in allen Kernfähigkeiten.

  • Coding: Auf Augenhöhe mit Claude Sonnet 4, bestes in China.
  • Kontext: Erweitert auf 200K (von 128K).
  • Reasoning: Verbessert, unterstützt Tool-Aufrufe während der Inferenz.
  • Suche: Verbesserte Tool-Aufrufe und Agentenleistung.
  • Schreiben: Bessere Ausrichtung an menschlichen Präferenzen bei Stil, Lesbarkeit und Rollenspiel.
  • Mehrsprachig: Gestärkte Übersetzungen über Sprachgrenzen hinweg.

FAQ

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Funktionen für GLM 4.6

Entdecken Sie die wichtigsten Funktionen von GLM 4.6, die darauf ausgelegt sind, Leistung und Benutzerfreundlichkeit zu verbessern. Erfahren Sie, wie diese Fähigkeiten Ihren Projekten zugutekommen und die Benutzererfahrung verbessern können.

Preise für GLM 4.6

Entdecken Sie wettbewerbsfähige Preise für GLM 4.6, die für verschiedene Budgets und Nutzungsanforderungen konzipiert sind. Unsere flexiblen Tarife stellen sicher, dass Sie nur für das bezahlen, was Sie nutzen, und erleichtern die Skalierung entsprechend Ihren wachsenden Anforderungen. Erfahren Sie, wie GLM 4.6 Ihre Projekte verbessern kann, während die Kosten überschaubar bleiben.
Comet-Preis (USD / M Tokens)Offizieller Preis (USD / M Tokens)Rabatt
Eingabe:$0.96/M
Ausgabe:$3.84/M
Eingabe:$1.2/M
Ausgabe:$4.8/M
-20%

Beispielcode und API für GLM 4.6

GLM-4.6 ist die neueste Hauptversion in der GLM-Familie von Z.ai (ehemals Zhipu AI): ein großsprachliches MoE (Mixture-of-Experts) Modell der 4. Generation, optimiert für agentenbasierte Workflows, Schlussfolgern mit langen Kontexten und praxisnahe Programmierung. Das Release legt den Schwerpunkt auf die praktische Integration von Agenten und Tools, ein sehr großes Kontextfenster sowie die Verfügbarkeit offener Gewichte für die lokale Bereitstellung.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

Weitere Modelle

A

Claude Opus 4.6

Eingabe:$4/M
Ausgabe:$20/M
Claude Opus 4.6 ist das Großsprachmodell der „Opus“-Klasse von Anthropic, veröffentlicht im Februar 2026. Es ist als Arbeitstier für Wissensarbeit und Forschungs-Workflows positioniert — mit Verbesserungen beim langkontextuellen Denken, bei der mehrstufigen Planung, bei der Tool-Nutzung (einschließlich agentenbasierter Software-Workflows) sowie bei computerbezogenen Aufgaben wie der automatisierten Erstellung von Folien und Tabellen.
A

Claude Sonnet 4.6

Eingabe:$2.4/M
Ausgabe:$12/M
Claude Sonnet 4.6 ist unser bisher leistungsfähigstes Sonnet-Modell. Es ist ein umfassendes Upgrade der Fähigkeiten des Modells in den Bereichen Programmierung, Computernutzung, Schlussfolgern mit langem Kontext, Agentenplanung, Wissensarbeit und Design. Sonnet 4.6 bietet außerdem ein 1M-Token-Kontextfenster in Beta.
O

GPT-5.4 nano

Eingabe:$0.16/M
Ausgabe:$1/M
GPT-5.4 nano ist für Aufgaben konzipiert, bei denen Geschwindigkeit und Kosten am wichtigsten sind, wie Klassifizierung, Datenextraktion, Ranking und Sub-Agenten.
O

GPT-5.4 mini

Eingabe:$0.6/M
Ausgabe:$3.6/M
GPT-5.4 mini bringt die Stärken von GPT-5.4 in ein schnelleres, effizienteres Modell, das für hochvolumige Workloads konzipiert ist.
A

Claude Mythos Preview

A

Claude Mythos Preview

Demnächst verfügbar
Eingabe:$60/M
Ausgabe:$240/M
Claude Mythos Preview ist unser bisher leistungsfähigstes Frontier-Modell und zeigt einen bemerkenswerten Sprung bei den Ergebnissen in vielen Evaluations-Benchmarks im Vergleich zu unserem vorherigen Frontier-Modell, Claude Opus 4.6.
X

mimo-v2-pro

Eingabe:$0.8/M
Ausgabe:$2.4/M
MiMo-V2-Pro ist Xiaomis Flaggschiff unter den Foundation-Modellen und verfügt über insgesamt mehr als 1T Parameter sowie eine Kontextlänge von 1M. Es ist umfassend für agentische Szenarien optimiert. Es ist in hohem Maße an allgemeine Agent-Frameworks wie OpenClaw anpassbar. In den Standard-Benchmarks PinchBench und ClawBench zählt es weltweit zur Spitzengruppe, wobei die wahrgenommene Leistung an die von Opus 4.6 heranreicht. MiMo-V2-Pro wurde als Gehirn von Agentensystemen konzipiert, um komplexe Workflows zu orchestrieren, produktionsnahe Engineering-Aufgaben voranzutreiben und zuverlässig Ergebnisse zu liefern.

Verwandte Blogs

GLM-4.7 veröffentlicht: Was bedeutet das für die KI  Intelligenz?
Dec 23, 2025
glm-4-7

GLM-4.7 veröffentlicht: Was bedeutet das für die KI Intelligenz?

Am 22. Dezember 2025 veröffentlichte Zhipu AI (Z.ai) offiziell GLM-4.7, die neueste Iteration seiner General Language Model (GLM)-Familie — und zog in der Welt der Open-Source-KI-Modelle weltweit Aufmerksamkeit auf sich. Dieses Modell verbessert nicht nur die Fähigkeiten bei Programmier- und Reasoning-Aufgaben, sondern fordert in wichtigen Benchmarks auch die Dominanz proprietärer Modelle wie GPT-5.2 und Claude Sonnet 4.5 heraus.