ModèlesSupportEntrepriseBlog
500+ API de modèles IA, toutes en une seule API. Simplement avec CometAPI
API des modèles
Développeur
Démarrage rapideDocumentationTableau de bord API
Ressources
Modèles d'IABlogEntrepriseJournal des modificationsÀ propos
2025 CometAPI. Tous droits réservés.Politique de confidentialitéConditions d'utilisation
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Entrée:$0.96/M
Sortie:$3.84/M
Contexte:200,000
Sortie maximale:128,000
Le dernier modèle phare de Zhipu, GLM-4.6, est lancé : paramètres totaux 355B, paramètres actifs 32B. Les capacités fondamentales globales dépassent celles de GLM-4.5. Codage : s’aligne sur Claude Sonnet 4, meilleur en Chine. Contexte : étendu à 200K (initialement 128K). Inférence : améliorée, prend en charge les appels d’outils. Recherche : outils et framework d’agents optimisés. Rédaction : davantage alignée sur les préférences humaines, le style d’écriture et le jeu de rôle. Multilingue : qualité de traduction améliorée.
Nouveau
Usage commercial
Playground
Aperçu
Fonctionnalités
Tarification
API

GLM-4.6 est la dernière version majeure de la famille GLM de Z.ai (anciennement Zhipu AI) : un modèle MoE (Mélange d’experts) de 4e génération, modèle de langage de grande taille, optimisé pour les workflows agentiques, le raisonnement sur long contexte et le codage en conditions réelles. Cette version met l’accent sur l’intégration pratique agents/outils, une très grande fenêtre de contexte, et la disponibilité de poids ouverts pour un déploiement local.

Fonctionnalités clés

  • Contexte long — fenêtre de contexte native de 200K tokens (étendue depuis 128K). (docs.z.ai)
  • Capacités de codage et agentiques — améliorations annoncées sur les tâches de codage en conditions réelles et meilleure invocation d’outils par les agents.
  • Efficacité — ~30% de consommation de tokens en moins rapportés vs GLM-4.5 dans les tests de Z.ai.
  • Déploiement et quantification — première intégration annoncée en FP8 et Int4 pour les puces Cambricon ; prise en charge FP8 native sur Moore Threads via vLLM.
  • Taille du modèle et type de tenseur — les artefacts publiés indiquent un modèle à ~357B paramètres (tenseurs BF16 / F32) sur Hugging Face.

Détails techniques

Modalités et formats. GLM-4.6 est un LLM uniquement texte (modalités d’entrée et de sortie : texte). Longueur de contexte = 200K tokens ; sortie maximale = 128K tokens.

Quantification et prise en charge matérielle. L’équipe indique une quantification FP8/Int4 sur les puces Cambricon et une exécution FP8 native sur les GPU Moore Threads utilisant vLLM pour l’inférence — important pour réduire le coût d’inférence et permettre des déploiements sur site et sur des clouds domestiques.

Outils et intégrations. GLM-4.6 est distribué via l’API de Z.ai, des réseaux de fournisseurs tiers (par ex. CometAPI), et intégré dans des agents de codage (Claude Code, Cline, Roo Code, Kilo Code).

Détails techniques

Modalités et formats. GLM-4.6 est un LLM uniquement texte (modalités d’entrée et de sortie : texte). Longueur de contexte = 200K tokens ; sortie maximale = 128K tokens.

Quantification et prise en charge matérielle. L’équipe indique une quantification FP8/Int4 sur les puces Cambricon et une exécution FP8 native sur les GPU Moore Threads utilisant vLLM pour l’inférence — important pour réduire le coût d’inférence et permettre des déploiements sur site et sur des clouds domestiques.

Outils et intégrations. GLM-4.6 est distribué via l’API de Z.ai, des réseaux de fournisseurs tiers (par ex. CometAPI), et intégré dans des agents de codage (Claude Code, Cline, Roo Code, Kilo Code).

Performances de référence

  • Évaluations publiées : GLM-4.6 a été testé sur huit benchmarks publics couvrant les agents, le raisonnement et le codage et montre des gains nets par rapport à GLM-4.5. Sur des tests de codage en conditions réelles évalués par des humains (CC-Bench étendu), GLM-4.6 utilise ~15% de tokens en moins vs GLM-4.5 et affiche un taux de victoire de ~48.6% vs Claude Sonnet 4 d’Anthropic (quasi-parité sur de nombreux classements).
  • Positionnement : les résultats affirment que GLM-4.6 est compétitif face aux principaux modèles domestiques et internationaux (exemples cités : DeepSeek-V3.1 et Claude Sonnet 4).

image

Limites et risques

  • Hallucinations et erreurs : comme tous les LLM actuels, GLM-4.6 peut commettre des erreurs factuelles — la documentation de Z.ai avertit explicitement que les sorties peuvent contenir des erreurs. Les utilisateurs doivent appliquer des vérifications et du retrieval/RAG pour les contenus critiques.
  • Complexité du modèle et coût de service : un contexte de 200K et des sorties très grandes augmentent fortement les exigences de mémoire et de latence et peuvent accroître les coûts d’inférence ; une quantification/ingénierie d’inférence est nécessaire pour fonctionner à l’échelle.
  • Écarts selon les domaines : bien que GLM-4.6 rapporte de solides performances agent/codage, certains rapports publics signalent qu’il reste derrière certaines versions de modèles concurrents sur des microbenchmarks spécifiques (par ex., certaines métriques de codage vs Sonnet 4.5). Évaluer par tâche avant de remplacer des modèles en production.
  • Sécurité et politique : des poids ouverts augmentent l’accessibilité mais soulèvent aussi des questions de gouvernance (les mitigations, garde-fous et red-teaming restent à la charge de l’utilisateur).

Cas d’usage

  • Systèmes agentiques et orchestration d’outils : longues traces d’agent, planification multi-outils, invocation dynamique d’outils ; l’optimisation agentique du modèle est un argument clé.
  • Assistants de codage en conditions réelles : génération de code multi-tours, revue de code et assistants IDE interactifs (intégrés dans Claude Code, Cline, Roo Code — selon Z.ai). Les améliorations d’efficacité en tokens le rendent attractif pour des plans développeur à usage intensif.
  • Workflows de documents longs : résumé, synthèse multi-documents, longues revues juridiques/techniques grâce à la fenêtre de 200K.
  • Création de contenu et personnages virtuels : dialogues prolongés, maintien cohérent de persona dans des scénarios multi-tours.

Comparaison de GLM-4.6 avec d’autres modèles

  • GLM-4.5 → GLM-4.6 : changement d’échelle de la taille de contexte (128K → 200K) et de l’efficacité en tokens (~15% de tokens en moins sur CC-Bench) ; meilleure utilisation des agents/outils.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5 : Z.ai rapporte une quasi-parité sur plusieurs classements et un taux de victoire de ~48.6% sur les tâches de codage réelles de CC-Bench (concurrence serrée, avec certains microbenchmarks où Sonnet reste en tête). Pour de nombreuses équipes d’ingénierie, GLM-4.6 est positionné comme une alternative rentable.
  • GLM-4.6 vs autres modèles à long contexte (DeepSeek, variantes Gemini, famille GPT-4) : GLM-4.6 met l’accent sur le grand contexte et les workflows de codage agentiques ; les forces relatives dépendent des métriques (efficacité en tokens/intégration des agents vs précision de synthèse de code brute ou pipelines de sécurité). La sélection empirique doit être guidée par la tâche.

Zhipu AI’s dernier modèle phare GLM-4.6 publié : 355B de paramètres au total, 32B actifs. Surpasse GLM-4.5 dans toutes les capacités clés.

  • Codage : S’aligne avec Claude Sonnet 4, meilleur en Chine.
  • Contexte : Étendu à 200K (depuis 128K).
  • Raisonnement : Amélioré, prend en charge l’appel d’outils pendant l’inférence.
  • Recherche : Appel d’outils et performances des agents améliorés.
  • Rédaction : Mieux aligné sur les préférences humaines en matière de style, lisibilité et jeu de rôle.
  • Multilingue : Traduction entre langues améliorée.

FAQ

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Fonctionnalités pour GLM 4.6

Découvrez les fonctionnalités clés de GLM 4.6, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour GLM 4.6

Découvrez des tarifs compétitifs pour GLM 4.6, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment GLM 4.6 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$0.96/M
Sortie:$3.84/M
Entrée:$1.2/M
Sortie:$4.8/M
-20%

Exemple de code et API pour GLM 4.6

GLM-4.6 est la dernière version majeure de la famille GLM de Z.ai (anciennement Zhipu AI) : un grand modèle de langage de type MoE (mélange d’experts) optimisé pour des flux de travail à base d’agents, le raisonnement en contexte long et la programmation en conditions réelles. Cette version met l’accent sur l’intégration pratique des agents et des outils, une fenêtre de contexte très large, et la disponibilité de poids ouverts pour un déploiement local.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

Plus de modèles

A

Claude Opus 4.6

Entrée:$4/M
Sortie:$20/M
Claude Opus 4.6 est le grand modèle de langage de classe « Opus » d’Anthropic, publié en février 2026. Il est positionné comme un outil polyvalent pour le travail cognitif et les flux de travail de recherche — améliorant le raisonnement en contexte long, la planification à plusieurs étapes, l’utilisation d’outils (y compris des flux de travail logiciels basés sur des agents) et l’exécution de tâches informatiques telles que la génération automatisée de diapositives et de feuilles de calcul.
A

Claude Sonnet 4.6

Entrée:$2.4/M
Sortie:$12/M
Claude Sonnet 4.6 est notre modèle Sonnet le plus performant à ce jour. Il s’agit d’une mise à niveau complète des capacités du modèle dans la programmation, l’usage de l’ordinateur, le raisonnement sur des contextes étendus, la planification d’agents, le travail intellectuel et la conception. Sonnet 4.6 propose également une fenêtre de contexte de 1M de jetons en bêta.
O

GPT-5.4 nano

Entrée:$0.16/M
Sortie:$1/M
GPT-5.4 nano est conçu pour des tâches où la vitesse et le coût comptent le plus, comme la classification, l’extraction de données, le classement et les sous-agents.
O

GPT-5.4 mini

Entrée:$0.6/M
Sortie:$3.6/M
GPT-5.4 mini apporte les atouts de GPT-5.4 dans un modèle plus rapide et plus efficace, conçu pour des charges de travail à grande échelle.
A

Claude Mythos Preview

A

Claude Mythos Preview

Bientôt disponible
Entrée:$60/M
Sortie:$240/M
Claude Mythos Preview est à ce jour notre modèle de pointe le plus performant et affiche un bond spectaculaire des scores sur de nombreux benchmarks d’évaluation, par rapport à notre précédent modèle de pointe, Claude Opus 4.6.
X

mimo-v2-pro

Entrée:$0.8/M
Sortie:$2.4/M
MiMo-V2-Pro est le modèle fondationnel phare de Xiaomi, doté de plus de 1T de paramètres au total et d’une longueur de contexte de 1M, profondément optimisé pour des scénarios agentiques. Il est hautement adaptable aux frameworks d’agents généraux comme OpenClaw. Il se classe parmi l’élite mondiale sur les benchmarks standard PinchBench et ClawBench, avec des performances perçues proches de celles d’Opus 4.6. MiMo-V2-Pro est conçu pour servir de cerveau des systèmes d’agents, orchestrer des workflows complexes, piloter des tâches d’ingénierie de production et livrer des résultats de manière fiable.

Blogs connexes

GLM-4.7 publié : qu’est-ce que cela signifie pour l’intelligence artificielle ?
Dec 23, 2025
glm-4-7

GLM-4.7 publié : qu’est-ce que cela signifie pour l’intelligence artificielle ?

Le 22 décembre 2025, Zhipu AI (Z.ai) a officiellement lancé GLM-4.7, la toute dernière itération de sa famille de modèles de langage général (GLM) — attirant l’attention mondiale dans le monde des modèles d’IA open source. Ce modèle améliore non seulement les capacités en programmation et en raisonnement, mais remet également en cause la domination de modèles propriétaires tels que GPT-5.2 et Claude Sonnet 4.5 dans les principaux benchmarks.