GLM-5.2 est le dernier modèle phare Mixture-of-Experts de Z.ai (744B paramètres au total, ~40B actifs) publié le 13 juin 2026. Il offre une fenêtre de contexte utilisable de 1 million de jetons, des modes de raisonnement doubles (High/Max), des capacités agentiques avancées pour le codage sur long horizon, et des poids ouverts MIT à venir. Il s’appuie sur GLM-5.1 avec des gains massifs de contexte pour des tâches à l’échelle d’un dépôt.
Dans le monde en rapide évolution des assistants de codage IA, Z.ai (anciennement Zhipu AI) continue de repousser les limites par des itérations rapides. Quelques mois seulement après que GLM-5.1 a dominé SWE-Bench Pro, GLM-5.2 arrive comme une mise à niveau spécialisée axée sur l’ingénierie logicielle pratique, les agents autonomes et la gestion d’énormes bases de code dans un seul contexte.
Qu’est-ce que GLM-5.2 ?
GLM-5.2 est la toute dernière itération de la famille GLM (General Language Model) de Zhipu AI, spécialement réglée comme un modèle de codage et agentique de pointe. Il hérite de l’architecture MoE à 744 milliards de paramètres de GLM-5 (avec ~40B de paramètres actifs par jeton) et se concentre sur les tâches de long horizon, l’usage d’outils et une ingénierie autonome durable.
Spécifications clés :
- Fenêtre de contexte : jusqu’à 1,000,000 de jetons (variante glm-5.2[1m]) – l’une des plus grandes fenêtres utilisables parmi les modèles open source ou accessibles.
- Jetons de sortie max : 131,072.
- Modes de raisonnement : High (plus rapide, pour les tâches courantes) et Max (plus profond pour le codage/l’architecture complexes).
- Architecture : MoE avec routage efficace, prenant en charge l’appel d’outils natif et des workflows d’agents.
- Licence : MIT (poids ouverts attendus peu après la sortie).
- Points forts : analyse de dépôts en long contexte, planification d’agent en plusieurs étapes, codage, débogage et exécution sur long horizon.
Contrairement aux modèles de chat généralistes, GLM-5.2 est conçu pour l’ingénierie agentique – des scénarios où l’IA planifie, exécute, itère, teste et refactore au fil de sessions prolongées, impliquant souvent des projets entiers. Il s’intègre nativement à plus de 20 outils pour développeurs comme Claude Code, Cline, Cursor, OpenClaw, et autres.
Cela en fait une alternative solide et plus abordable aux modèles premium comme les variantes Claude Opus ou la série GPT-5.x pour des charges de travail fortement orientées codage, notamment dans le contexte des discussions sur les restrictions à l’exportation et l’accessibilité.

Points techniques essentiels
- 1M de contexte utilisable : pas seulement théorique – conçu pour charger de manière pratique des dépôts de taille moyenne à grande, une documentation complète, des journaux et l’historique de conversation sans lourde synthèse ni découpage.
- Modes de réflexion : bascule entre vitesse et profondeur. Le mode Max est recommandé pour les tâches complexes nécessitant une chaîne de raisonnement et une coordination multi-fichiers.
- Focalisation agentique : prise en charge robuste de l’appel d’outils, de l’exécution de fonctions, de l’orchestration de workflows et de performances soutenues sur des centaines voire des milliers d’étapes.
Z.ai met l’accent sur la démocratisation de l’intelligence de pointe, en rendant des capacités avancées disponibles sous une licence permissive.
Quoi de neuf dans GLM-5.2 par rapport à GLM-5.1 (et versions antérieures)
GLM-5.2 illustre une itération rapide. GLM-5 a été lancé en février 2026 comme une étape majeure de mise à l’échelle (depuis GLM-4.5), suivi par GLM-5.1 en avril avec des gains notables en codage. GLM-5.2, sorti à la mi-juin, donne la priorité à l’échelle du contexte et à l’utilisabilité.
Améliorations clés
- Explosion de la fenêtre de contexte : GLM-5.1 ~200K jetons → GLM-5.2 1M jetons (augmentation x5). Cela permet des opérations sur un dépôt entier en une seule session.
- Modes de raisonnement : nouveaux basculements High/Max pour mieux contrôler latence vs qualité.
- Performances sur long horizon : améliorées pour des tâches agentiques soutenues, en s’appuyant sur les atouts de GLM-5.1 en exécution multi-étapes.
- Vitesse et efficacité : des rapports indiquent une inférence plus rapide dans certains tests (par ex., 3x plus rapide dans certains retours utilisateurs par rapport aux versions précédentes).
- Intégration d’outils : prise en charge native élargie des IDE de codage et agents dès le premier jour.
- Ouverture : poids open source complets sous MIT à venir, poursuivant l’accessibilité de la famille.
Tableau de comparaison : GLM-5.2 vs GLM-5.1 vs GLM-5
| Caractéristique | GLM-5 (février 2026) | GLM-5.1 (avril 2026) | GLM-5.2 (juin 2026) |
|---|---|---|---|
| Fenêtre de contexte | ~200K (estim.) | ~200K | 1M (utilisable) |
| Jetons de sortie max | Non spécifié | Non divulgué | 131,072 |
| Modes de raisonnement | Unique | Unique | High + Max |
| Focus codage (p. ex., SWE-Bench Pro) | Base solide (~55%) | 58.4% (SOTA à l’époque) | Gains supplémentaires attendus (benchmarks indépendants en attente) |
| Architecture | 744B MoE, 40B actifs | Même + post-formation | Même lignée, optimisée |
| Licence | MIT | MIT | MIT (poids bientôt) |
| Usage principal | Ingénierie agentique | Codage sur long horizon | Contexte ultra long + agents |
| Disponibilité | Coding Plan + API | Coding Plan, API, poids | Coding Plan maintenant ; API/poids bientôt |
Contexte des benchmarks (GLM-5.1 comme proxy) : GLM-5.1 a atteint 58.4% sur SWE-Bench Pro (surpassant certains modèles de pointe à sa sortie), de fortes progressions sur NL2Repo (+6.8%), Terminal-Bench et CyberGym. GLM-5.2 est positionné comme supérieur sur les tâches à longue portée, bien que des benchmarks indépendants complets n’aient pas été publiés au lancement. Les premières démos utilisateurs montrent des résultats impressionnants sur des builds de jeux complexes, des refactorings et des prototypes d’OS d’agent.
GLM-5.2 maintient son leadership sur les benchmarks de codage domestiques (chinois) et les tâches en long contexte tout en élargissant l’attrait pour les développeurs à l’échelle mondiale.
Tarification et disponibilité de GLM-5.2
GLM Coding Plans (par abonnement, idéal pour un usage intensif de codage) :
- Inclut l’accès à des outils comme Vision, Web Search et des intégrations MCP.
- Paliers : Lite, Pro, Max, Team — à partir de ~$18/mois.
- Tous les paliers prennent désormais en charge GLM-5.2 (y compris la variante 1M de contexte).
- Basé sur des quotas (multiplicateurs plus élevés pour les modèles phares aux heures de pointe ; promotions en heures creuses).
Comment intégrer GLM-5.2 : exemples de code
Via CometAPI (recommandé pour la flexibilité multi-modèles)
CometAPI fournit un point de terminaison unique compatible OpenAI pour 500+ modèles, y compris la série GLM de Z.ai. Basculez entre GLM-5.2, les GPT, Claude, etc., sans verrouillage fournisseur ni clés multiples. Parfait pour les tests, la production et l’optimisation des coûts.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("COMETAPI_KEY"), # Your free signup key
base_url="https://api.cometapi.com/v1",
)
response = client.chat.completions.create(
model="glm-5.2", # Or "glm-5.2[1m]" if supported via routing
messages=[
{"role": "system", "content": "You are an expert Python software engineer."},
{"role": "user", "content": "Refactor this large module for better modularity... [paste extensive code/docs]"}
],
max_tokens=8192,
temperature=0.7,
# reasoning_effort or custom params as supported
)
print(response.choices[0].message.content)
Intégration agent (p. ex., Cline/Claude Code) : définissez l’URL de base sur l’endpoint Z.ai, le modèle sur glm-5.2, le contexte sur 1M, et utilisez /effort max. Des exemples de configuration sont disponibles dans la documentation Z.ai.
Ces extraits démontrent une configuration simple pour du RAG sur des dépôts, des boucles d’agents ou des outils personnalisés.
Cas d’usage réels
- Analyse/refactoring d’un dépôt entier : chargez 500K+ jetons de code + tests. Les agents peuvent raisonner à travers des fichiers sans perte.
- Développement autonome : exécutions de plusieurs heures avec des cycles de planification, codage, tests. Les prédécesseurs de la famille ont tenu plus de 8 heures ; 5.2 prolonge cela.
- Création de jeux/prototypes : des démos montrent la création rapide de simulations 3D, de jeux HTML5, de systèmes de particules.
- Workflows d’entreprise : longs documents, journaux, bases de code multilingues.
Pourquoi utiliser CometAPI avec GLM-5.2 ?
CometAPI élimine les tracas d’intégration :
- Une seule clé, un seul endpoint pour GLM-5.2 + concurrents.
- Tarification compétitive, crédits gratuits à l’inscription.
- Aucun verrouillage — routez le trafic dynamiquement pour la meilleure performance/le meilleur coût.
- Infrastructure fiable pour des agents en production.
Recommandation : commencez avec CometAPI pour l’expérimentation, puis montez en charge avec un GLM Coding Plan dédié pour un travail agentique à grand volume. Cette approche hybride maximise la flexibilité et minimise les coûts.
Perspectives et recommandations
GLM-5.2 signale une accélération des progrès vers une IA de pointe ouverte et accessible, en particulier pour les développeurs. Avec des poids ouverts et l’extension de l’API, on peut s’attendre à une adoption rapide dans les IDE, les agents autonomes et les outils d’entreprise.
Recommandations actionnables :
- Abonnez-vous à GLM Coding Plan pour un accès immédiat.
- Préparez des configurations pour vos agents de codage préférés.
- Surveillez CometAPI pour une API GLM-5.2 unifiée – parfaite pour les applications multi-modèles.
- Expérimentez l’auto-hébergement après la publication des poids.
- Testez sur des projets réels : commencez par l’analyse de dépôt ou la création de prototypes.
GLM-5.2 n’est pas qu’une autre sortie de modèle – c’est une étape vers des outils de codage IA puissants et démocratisés qui donnent du pouvoir aux bâtisseurs du monde entier.
