GLM-5, veröffentlicht am 11. Februar 2026 von Zhipu AI (Z.ai), stellt einen großen architektonischen Sprung gegenüber GLM-4.7 dar: größeres MoE-Scale (≈744B vs ~355B Gesamtparameter), höhere aktive Parameterkapazität, geringere gemessene Halluzinationen und klare Zuwächse bei agentischen und Coding-Benchmarks — zum Preis einer höheren Inferenzkomplexität und (manchmal) Latenz.
Was ist GLM-5 und warum ist seine Veröffentlichung wichtig?
Was für ein Modell ist GLM-5?
GLM-5 ist das neueste Frontier-Open-Weights-Sprachmodell von Zhipu AI (Z.ai), veröffentlicht am 11. Februar 2026. Es ist ein Mixture-of-Experts-(MoE)-Transformer, der die GLM-Familie auf ~744 Milliarden Gesamtparameter skaliert und dabei pro Inferenz ungefähr 40 Milliarden aktive Parameter nutzt (d. h. das MoE-Routing hält den aktiven Rechenaufwand deutlich kleiner als die Gesamtparameterzahl). Das Modell wird unter der MIT-Lizenz angeboten und ist für agentische Workloads optimiert — lang laufende, mehrstufige Aufgaben wie das Orchestrieren von Tools, Schreiben und Verfeinern von Code, Dokumenten-Engineering und komplexe Wissensarbeit.
Was sind die wichtigsten Verbesserungen gegenüber früheren GLM-Varianten?
Kurzliste der wichtigsten Änderungen:
- Parameter-Skalierung: GLM-5 ≈ 744B total (40B aktiv) vs GLM-4.7 mit ~355B total / 32B aktiv — etwa eine 2×-Steigerung der Modellgröße.
- Benchmarks & Faktentreue: Deutlicher Sprung bei unabhängigen Benchmarks (Artificial Analysis Intelligence Index: GLM-5 = 50 vs GLM-4.7 = 42) sowie eine starke Reduktion von Halluzinationen auf der AA-Omniscience-Metrik (gemeldet: 56 Prozentpunkte weniger gegenüber GLM-4.7).
- Agentische Fähigkeit: Verbesserte Zuverlässigkeit bei Tool-Aufrufen, Planzerlegung und Ausführung über lange Horizonte (Z.ai positioniert GLM-5 für „agentisches Engineering“).
- Bereitstellung & Chips: Entwickelt und gebenchmarkt für den Betrieb auf inländischer chinesischer Inferenz-Hardware (Huawei Ascend und andere), was Z.ai’s Ausrichtung auf unterschiedliche Chip-Stacks widerspiegelt.
Warum das wichtig ist: GLM-5 verkleinert die Lücke zwischen Open-Weights- und proprietären Frontier-Modellen bei agentischen und wissensintensiven Aufgaben — und macht hochfähige, Open-Source-Modelle zu einer realistischen Option für Unternehmen, die kontrollierbare Deployments und Lizenzflexibilität benötigen.
Was ist neu in GLM-5 (im Detail)
Positionierung: „Agentisches Engineering“ in großem Maßstab
GLM-5 wird von Z.ai ausdrücklich als Modell für „agentisches Engineering“ positioniert: eine Klasse von Anwendungsfällen, bei denen das Modell plant, Tool-Aufrufe absetzt, Ergebnisse inspiziert und über viele Schritte hinweg autonom iteriert (z. B. CI-Pipeline aufbauen, fehlschlagende Test-Suites triagieren und beheben oder Microservices zusammenfügen). Das ist ein strategischer Wechsel weg von reinem Single-Turn-Code-Generieren hin zu Modellen, die über Ausführungsspuren und Tool-Ausgaben hinweg arbeiten und schlussfolgern.
Denkmodi, bewahrtes/verschachteltes Denken
GLM-5 führt verfeinerte „Denk“-Modi ein (in den Docs teils als interleaved thinking, preserved thinking bezeichnet). Das bedeutet, das Modell kann interne Denkspuren ausgeben — und diese in späteren Turns und Tool-Aufrufen wiederverwenden. Praktisch reduziert das Re-Derivationskosten in langen Workflows und verbessert die Konsistenz, wenn ein Agent seinen Planstatus über Tool-Ergebnisse hinweg aufrechterhalten muss. GLM-4.7 führte frühere Denkvarianten und toolbewusstes Verhalten ein; GLM-5 verfeinert Mechanik und Trainingsrezepte, um diese Spuren zuverlässiger und wiederverwendbarer zu machen.
Langkontext-Engineering und Systemstabilität
Das Training und Finetuning von GLM-5 testen die Generierung explizit mit sehr langen Kontexten (202,752 Token während SFT-/Evaluationsläufen). Das ist ein praktischer Zuwachs, der relevant wird, sobald das Modell mehrere Repositories, Test-Logs und Orchestrierungs-Ausgaben in einem Prompt sehen muss. Evaluations-Setups treiben die Generationslängen für einige Reasoning-Workloads auf 131,072 Token. Dies ist eine bemerkenswerte Ingenieursleistung, um die üblichen Instabilitäten beim Konditionieren auf riesige Kontexte abzufedern.
Architektur und Skalierung (MoE)
Öffentliche Berichte deuten darauf hin, dass GLM-5 eine große MoE-Architektur (Mixture-of-Experts) mit mehreren hundert Milliarden Gesamtparametern nutzt (öffentliche Zählungen nennen ~744–745B). GLM-4.7 besitzt MoE- und Flash-Varianten, die auf verschiedene Deployment-Trade-offs abgestimmt sind (z. B. „Flash“-Varianten mit kleineren aktiven Parameterzahlen für lokale oder kostengünstige Inferenz). Das MoE-Design hilft GLM-5, Spitzenfähigkeit zu erreichen und zugleich Konfigurationswahlmöglichkeiten zu bieten (geringere aktive Parameterzahlen für günstigere Inferenz). Je nach gewählter Variante sind unterschiedliche Inferenzprofile (Latenz, VRAM) zu erwarten.
Wie hat Z.ai GLM-5 im Vergleich zu GLM-4.7 skaliert und trainiert?
Zentrale architektonische Unterschiede
| Feature | GLM-5 | GLM-4.7 |
|---|---|---|
| Release Date | Feb 2026 (flagship) | Dec 2025 |
| Model Family | Latest generation | Previous generation |
| Total Parameters | ~744B | ~355B |
| Active Parameters (MoE) | ~40B (per forward pass) | ~32B (per forward pass) |
| Architecture | Mixture-of-Experts plus sparse attention | MoE with thinking modes |
| Context Window | ~200K tokens (same base size) | ~200K tokens |
Fazit: GLM-5 verdoppelt die Gesamtkapazität gegenüber GLM-4.7 nahezu und erhöht die aktiven Parameter. Das trägt zu besseren Fähigkeiten in Reasoning und Synthese bei, insbesondere für umfangreiche technische Inhalte, verlängerte Reasoning-Pipelines und komplexe Code-Engineering-Aufgaben.
Architektur: Was hat sich geändert?
GLM-4.7 ist in seinen größeren Varianten ein Mixture-of-Experts-(MoE)-Design (dokumentiert mit ~355B Gesamtparametern und einer deutlich kleineren aktiven Menge pro Token). GLM-5 behält MoE-artige Sparsity-Ideen bei, ergänzt jedoch einen neuen Mechanismus für spärliche Aufmerksamkeit — der Bericht nennt ihn DeepSeek Sparse Attention (DSA) —, der Aufmerksamkeitsressourcen dynamisch auf wichtige Token verteilt. Die Behauptung lautet, dass DSA die Inferenz-/Trainingskosten reduziert und zugleich das Langkontext-Reasoning des Modells erhält (oder verbessert), sodass das Modell deutlich längere Kontexte als ältere Checkpoints verarbeiten kann, ohne den Compute ausufern zu lassen.
Skalierung: Parameter und Daten
- GLM-4.7: dokumentiert mit ungefähr 355 Milliarden Gesamtparametern für die Haupt-MoE-Version (mit einer deutlich kleineren aktiven Parameterzahl pro Forward-Pass zur Effizienzsteigerung).
- GLM-5: gemeldet mit ~744 Milliarden Parametern und trainiert mit ~28,5 Billionen Token im Vortrainingsbudget, mit einem Trainingsfokus auf Code und agentische Sequenzen. Diese Kombination soll die Code-Synthese und das nachhaltige agentische Planen verbessern.
Der Paramatersprung, zusammen mit einem größeren Token-Budget und architektonischen Updates, ist der primäre Input-seitige Grund, warum GLM-5 auf Code- und agentischen Leaderboards bessere numerische Ergebnisse zeigt.
Trainingsstrategie und Post-Training (RL)
Wo GLM-4.7 „interleaved“ bzw. beibehaltene Denkmodi einführte, um mehrschrittiges Reasoning und Tool-Nutzung zu verbessern, formalisiert GLM-5 diese Pipeline durch:
- Erweiterung der Kontextlänge über einen Mid-Training-Plan (das Team berichtet über eine progressive Kontextverlängerung auf bis zu 200K Token).
- Implementierung einer sequenziellen RL-Post-Training-Pipeline (Reasoning-RL → Agentic-RL → General-RL) zusammen mit On-Policy-stufenübergreifender Distillation, um katastrophales Vergessen zu vermeiden.
- Hinzufügen von asynchronem RL und entkoppelten Rollout-Engines, um Agenten-Trajektorien während des RL ohne Synchronisations-Engpässe zu skalieren.
Diese Methoden zielen speziell auf Langhorizont-Agentenverhalten — etwa die stabile Beibehaltung interner Zustände über lange Sitzungen, in denen das Modell mehrere abhängige Tool-Aufrufe und Code-Edits ausführt.
Wie schneiden GLM-5 und GLM-4.7 in Leistung und Fähigkeiten ab?
Benchmarks & Intelligenzmetriken
| Evaluation Area | GLM-5 | GLM-4.7 |
|---|---|---|
| Coding (SWE-bench) | ~77.8% (open model SOTA) | ~73.8% on SWE-bench Verified |
| Tool & CLI Tasks | ~56% on Terminal Bench 2.0 | ~41% on Terminal Bench 2.0 |
| Reasoning (HLE & extended) | Scoring ~30.5 → ~~50 with tools (internal benchmark) | ~24.8 → ~42.8 on HLE with tools |
| Agentic & multi-step tasks | Significantly stronger (longer chains) | Strong (thinking mode) but less deep than GLM-5 |
Interpretation:
- GLM-5 übertrifft GLM-4.7 in breiter Front bei zentralen Coding- und Reasoning-Benchmarks um messbare Margen. Das zeigt sich besonders deutlich bei mehrstufiger Automatisierung, Problemzerlegung und tieflogischen Aufgaben.
- Die Verbesserungen sind nicht trivial: z. B. steigt die Terminal-Bench-Fähigkeit von ~41% auf 56% — ein großer relativer Gewinn in der Zuverlässigkeit agentischer Automatisierung.
- In Reasoning-Tests (wie internen HLE-Metriken) zeigt GLM-5 stärkere rohe und Tool-unterstützte Reasoning-Ergebnisse.
- Messbare Gewinne bei praxisnahen agentischen Tests: In der CC-Bench-V2-Frontend-HTML-ISR-Metrik verzeichnete GLM-5 38.9% vs 35.4% von GLM-4.7 auf einem Subset von Frontend-Aufgaben. (Das ist eine der automatisch ausgewerteten Metriken, die praktische Frontend-Entwicklungskompetenz belegen.)
Kontextgröße & Langform-Aufgaben
- Beide Modelle unterstützen große Kontexte (~200k Token) — d. h. sie können längere Dokumente, Codebasen oder Dialoge aufnehmen und darüber schlussfolgern.
- Praxisberichte deuten darauf hin, dass GLM-5-Deployments gelegentlich Kontextverwaltungsprobleme auf einigen Plattformen gezeigt haben — dies spiegelt jedoch möglicherweise host-spezifische Grenzen wider und nicht das Modelldesign selbst.
Tool- und Funktionsaufrufe
Beide unterstützen strukturierte Funktions-/Tool-Aufrufe; GLM-5 führt komplexere Skriptlogik mit höherer Treue aus, insbesondere über verzweigte, längere Operationsfolgen hinweg.
Beispiele: Wie sich Aufgaben in der Ausgabequalität unterscheiden
Coding-Beispiel (konzeptionell)
- GLM-4.7: Erzeugt kompetente Skripte für einzelne Dateien mit korrekter Syntax und lesbarer Logik.
- GLM-5: Überzeugt bei mehrdateiiger Codegenerierung, tiefgehenden Debugging-Vorschlägen und langen Feedback-Schleifen mit minimaler Kontextkürzung.
Reasoning & Planung
- GLM-4.7: Gutes mehrschrittiges Reasoning, bleibt aber bei sehr tiefen Ketten gelegentlich stecken.
- GLM-5: Besser im Chunking von Reasoning, beim Abrufen früherer Schritte und beim Navigieren langer Ketten — hilfreich für Datensynthese und multidomäne Strategien.
Wie verändern sich Latenz und Kosten, wenn wir von GLM-4.7 auf GLM-5 wechseln?
Latenz-Kompromisse und wo GLM-4.7 noch gewinnt
Kurze Nachrichten & reaktionsschnelle UIs: Benchmarks aus der Praxis zeigen, dass GLM-5 bei kurzen Antworten einen kleinen festen Overhead (Routing- und Expert-Selection-Buchführung) hinzufügen kann, der sich als etwas höhere Latenz bei sehr kleinen Nutzlasten äußert. Für ultrageringe Latenz bei Kleinstnachrichten bleiben GLM-4.7 oder Flash-Varianten attraktiv.
GLM-5 im Vergleich zu GLM-4.7:
- GLM-4.7: Eingabe $0.60/1M tokens, Ausgabe $2.20/1M tokens.
- GLM-5: Eingabe $1.00/1M tokens, Ausgabe $3.20/1M tokens.
Kosten vs. menschlicher Bearbeitungsaufwand
Ein höherer Modellpreis ist gerechtfertigt, wenn GLM-5 die nachgelagerte menschliche Zeit spürbar reduziert (z. B. Bearbeiten von Merge-Requests, Triagieren automatischer Fixes oder Vermeiden wiederholter Modellaufrufe). Eine einfache Entscheidungsregel:
Wenn GLM-5 die manuelle Bearbeitungszeit um > X% reduziert (X hängt von den Arbeitskosten und der Anzahl der Token pro Workflow ab), kann es trotz höherer Kosten pro Token kosteneffizient sein. Mehrere Blog-Analysen haben solche Break-even-Bedingungen modelliert und festgestellt, dass GLM-5 sich häufig für schwere, repetitive agentische Workflows lohnt (z. B. automatisierte Code-Reparatur im großen Maßstab).
Latenz & Hardware
Inferenz-VRAM & Latenz hängen von der Variante ab (Flash, FlashX, volles MoE). Community-Guides zeigen, dass GLM-4.7 FlashX und 30B-Flash-Varianten auf 24GB-GPUs deploybar sind; volle MoE-Varianten erfordern große Multi-GPU-Setups. Die Vollkonfigurationen von GLM-5 werden für denselben Durchsatz materiell höhere Ressourcen benötigen, auch wenn MoE-Sparsity den aktiven Compute pro Token reduziert. Rechnen Sie mit Engineering-Aufwand für Quantisierung, Memory-Mapping und Streaming in der Produktion.
Wann sollten Sie von GLM-4.7 auf GLM-5 upgraden?
Upgraden, wenn:
- Sie besseres mehrdateiiges Codereasoning, Langkontext-Orchestrierung von Agenten oder höhere End-to-End-Agentenerfolgsraten benötigen.
- Ihre Aufgaben sind hochwerthaltig und rechtfertigen höhere Infrastruktorkomplexität und -kosten pro Anfrage.
Bei GLM-4.7 bleiben, wenn:
- Ihr Workload aus hohem Volumen, kurzen Prompts besteht (Klassifikation, Tagging), bei dem Kosten- & Latenzvorhersagbarkeit wichtiger sind als marginale Qualitätsgewinne.
- Anwendungsfälle, die das Verbleiben bei GLM-4.7 begünstigen
- High-Throughput, kleine Nutzlasten: Chatbots, Autovervollständigung, winzige Paraphrasier-Jobs — GLM-4.7 (insbesondere Flash-Varianten) ist oft günstiger und latenzärmer.
- Begrenzte Budgets und Volumentasks: Für Tagging, Klassifikation oder Mikroaufgaben im großen Stil sind Effizienz und niedrigere Kosten pro Token von GLM-4.7 überzeugend.
- Ihnen fehlen die Infrastruktur oder das Budget für MoE-Sharding/komplexes Autoscaling.
Wie wähle ich das Modell in meinen API-Aufrufen? (Beispiele)
cURL — Modell-ID wechseln (CometAPI/OpenAI-kompatibles Beispiel):
# GLM-4.7
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
-d '{"model":"glm-4.7","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":800}'
# GLM-5
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
-d '{"model":"glm-5","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":1200}'
Python (requests): Ändern Sie das Feld model, um auf GLM-4.7 oder GLM-5 zu routen — der Rest des Client-Codes kann gleich bleiben.
Abschließende Einschätzung:
GLM-5 wirkt evolutionär mit wichtigen Kipppunkten:
- Evolutionär, weil es das MoE- und Reasoning-first-Design der GLM-Familie fortführt und das Muster iterativer Verbesserungen (4.5 → 4.6 → 4.7 → 5) weiterverfolgt.
- Kipppunkt, weil es die Skalierung materiell erhöht, DSA einführt und sich zu einem RL-Curriculum bekennt, das speziell auf langhorizontige agentische Aufgaben zugeschnitten ist — was alles zu spürbaren, messbaren Verbesserungen über eine Reihe praktischer Benchmarks führt.
Wer ausschließlich nach Leaderboards bewertet, sieht, dass GLM-5 in mehreren Metriken Open-Weights-Führerschaft beansprucht und die Lücke zu Top-Proprietärsystemen bei agentischen und Coding-Aufgaben schließt. Wer nach Developer Experience und latenzsensitiver Nutzung bewertet, sieht, dass praktische Vor- und Nachteile in größeren Deployments und über die Zeit hinweg noch zu belegen sind. Das bedeutet: GLM-5 ist dort überzeugend, wo der Use Case nachhaltige agentische Kompetenz verlangt; GLM-4.7 bleibt für viele aktuelle Produktionsbedürfnisse eine gereifte, schnellere und kostengünstigere Wahl.
Entwickler können auf GLM-5 und GLM-4.7 über CometAPI zugreifen. Beginnen Sie damit, die Fähigkeiten des Modells im Playground zu erkunden, und konsultieren Sie den API guide für detaillierte Anweisungen. Bevor Sie zugreifen, stellen Sie bitte sicher, dass Sie sich bei CometAPI angemeldet und den API-Schlüssel erhalten haben. CometAPI bietet einen deutlich niedrigeren Preis als der offizielle, um Ihnen die Integration zu erleichtern.
Bereit? → Melde dich noch heute für GLM-5 an !
Wenn Sie mehr Tipps, Guides und News zu KI möchten, folgen Sie uns auf VK, X und Discord!
