ModelosSuporteEmpresarialBlog
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Recursos
Modelos de IABlogEmpresarialRegistro de AlteraçõesSobre
2025 CometAPI. Todos os direitos reservados.Política de PrivacidadeTermos de Serviço
Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Entrada:$0.96/M
Saída:$3.84/M
Contexto:200,000
Saída Máxima:128,000
Lançado o mais recente modelo carro-chefe da Zhipu, GLM-4.6: parâmetros totais 355B, parâmetros ativos 32B. As capacidades centrais gerais superam as do GLM-4.5. Programação: equipara-se ao Claude Sonnet 4, o melhor da China. Contexto: ampliado para 200K (originalmente 128K). Inferência: aprimorada, com suporte a chamadas de ferramentas. Pesquisa: framework de ferramentas e agentes otimizado. Escrita: mais alinhada às preferências humanas, ao estilo de escrita e à interpretação de papéis. Multilíngue: capacidade de tradução aprimorada.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

GLM-4.6 é o último grande lançamento da família GLM da Z.ai (anteriormente Zhipu AI): um modelo MoE (Mistura de Especialistas) de 4ª geração, de grande linguagem, ajustado para fluxos de trabalho agentivos, raciocínio de longo contexto e codificação do mundo real. O lançamento enfatiza integração prática de agentes/ferramentas, uma janela de contexto muito grande e disponibilidade de pesos abertos para implantação local.

Key features

  • Contexto longo — janela de contexto nativa de 200K tokens (expandida de 128K). (docs.z.ai)
  • Capacidade de codificação e agentiva — melhorias divulgadas em tarefas de codificação do mundo real e melhor invocação de ferramentas por agentes.
  • Eficiência — consumo de tokens ~30% menor vs GLM-4.5 nos testes da Z.ai.
  • Implantação e quantização — primeira integração anunciada de FP8 e Int4 para chips Cambricon; suporte nativo a FP8 em Moore Threads via vLLM.
  • Tamanho do modelo e tipo de tensor — artefatos publicados indicam um modelo de ~357B parâmetros (tensores BF16 / F32) no Hugging Face.

Detalhes técnicos

Modalidades e formatos. O GLM-4.6 é um LLM apenas de texto (modalidades de entrada e saída: texto). Comprimento de contexto = 200K tokens; saída máxima = 128K tokens.

Quantização e suporte a hardware. A equipe relata quantização FP8/Int4 em chips Cambricon e execução nativa em FP8 em GPUs Moore Threads usando vLLM para inferência — importante para reduzir o custo de inferência e permitir implantações on-prem e em nuvens domésticas.

Ferramentas e integrações. O GLM-4.6 é distribuído pela API da Z.ai, redes de provedores de terceiros (por exemplo, CometAPI), e integrado em agentes de codificação (Claude Code, Cline, Roo Code, Kilo Code).

Detalhes técnicos

Modalidades e formatos. O GLM-4.6 é um LLM apenas de texto (modalidades de entrada e saída: texto). Comprimento de contexto = 200K tokens; saída máxima = 128K tokens.

Quantização e suporte a hardware. A equipe relata quantização FP8/Int4 em chips Cambricon e execução nativa em FP8 em GPUs Moore Threads usando vLLM para inferência — importante para reduzir o custo de inferência e permitir implantações on-prem e em nuvens domésticas.

Ferramentas e integrações. O GLM-4.6 é distribuído pela API da Z.ai, redes de provedores de terceiros (por exemplo, CometAPI), e integrado em agentes de codificação (Claude Code, Cline, Roo Code, Kilo Code).

Desempenho em benchmarks

  • Avaliações publicadas: o GLM-4.6 foi testado em oito benchmarks públicos cobrindo agentes, raciocínio e codificação e mostra ganhos claros em relação ao GLM-4.5. Em testes de codificação do mundo real avaliados por humanos (CC-Bench estendido), o GLM-4.6 usa ~15% menos tokens vs GLM-4.5 e registra uma taxa de vitória de ~48.6% vs Claude Sonnet 4 da Anthropic (quase paridade em muitos rankings).
  • Posicionamento: os resultados afirmam que o GLM-4.6 é competitivo com modelos líderes domésticos e internacionais (exemplos citados incluem DeepSeek-V3.1 e Claude Sonnet 4).

imagem

Limitações e riscos

  • Alucinações e erros: como todos os LLMs atuais, o GLM-4.6 pode e de fato comete erros factuais — a documentação da Z.ai alerta explicitamente que as saídas podem conter erros. Os usuários devem aplicar verificação e recuperação/RAG para conteúdo crítico.
  • Complexidade do modelo e custo de serving: o contexto de 200K e saídas muito grandes aumentam drasticamente as demandas de memória e latência e podem elevar os custos de inferência; são necessárias quantização/engenharia de inferência para operar em escala.
  • Lacunas de domínio: embora o GLM-4.6 relate desempenho forte em agentes/codificação, alguns relatos públicos observam que ele ainda fica atrás de certas versões de modelos concorrentes em microbenchmarks específicos (por exemplo, algumas métricas de codificação vs Sonnet 4.5). Avalie por tarefa antes de substituir modelos de produção.
  • Segurança e políticas: pesos abertos aumentam a acessibilidade, mas também levantam questões de responsabilização (mitigações, guardrails e red-teaming continuam sendo responsabilidade do usuário).

Casos de uso

  • Sistemas agentivos e orquestração de ferramentas: rastros longos de agentes, planejamento com múltiplas ferramentas, invocação dinâmica de ferramentas; o ajuste agentivo do modelo é um ponto de venda chave.
  • Assistentes de codificação do mundo real: geração de código multi-turn, revisão de código e assistentes de IDE interativos (integrados no Claude Code, Cline, Roo Code — segundo a Z.ai). As melhorias de eficiência de tokens o tornam atraente para planos de desenvolvedores de uso intenso.
  • Fluxos de trabalho com documentos longos: sumarização, síntese multidocumento, revisões jurídicas/técnicas extensas devido à janela de 200K.
  • Criação de conteúdo e personagens virtuais: diálogos prolongados, manutenção consistente de persona em cenários multi-turn.

Como o GLM-4.6 se compara a outros modelos

  • GLM-4.5 → GLM-4.6: mudança de nível em tamanho de contexto (128K → 200K) e eficiência de tokens (~15% menos tokens no CC-Bench); uso aprimorado de agentes/ferramentas.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: a Z.ai reporta quase paridade em vários rankings e uma taxa de vitória de ~48.6% nas tarefas de codificação do mundo real do CC-Bench (ou seja, competição próxima, com alguns microbenchmarks onde o Sonnet ainda lidera). Para muitas equipes de engenharia, o GLM-4.6 é posicionado como uma alternativa de custo eficiente.
  • GLM-4.6 vs outros modelos de longo contexto (DeepSeek, variantes do Gemini, família GPT-4): o GLM-4.6 enfatiza contexto amplo e fluxos de trabalho de codificação agentiva; os pontos fortes relativos dependem da métrica (eficiência de tokens/integração de agentes vs precisão de síntese de código bruto ou pipelines de segurança). A seleção empírica deve ser orientada por tarefa.

Último modelo carro-chefe da Zhipu AI, GLM-4.6, lançado: 355B de parâmetros totais, 32B ativos. Supera o GLM-4.5 em todas as capacidades centrais.

  • Codificação: Alinha-se ao Claude Sonnet 4, melhor na China.
  • Contexto: Expandido para 200K (de 128K).
  • Raciocínio: Melhorado, suporta chamadas de ferramentas durante a inferência.
  • Busca: Chamadas de ferramentas e desempenho de agentes aprimorados.
  • Redação: Melhor alinhamento às preferências humanas em estilo, legibilidade e interpretação de papéis.
  • Multilíngue: Tradução entre idiomas aprimorada.

FAQ

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Recursos para GLM 4.6

Explore os principais recursos do GLM 4.6, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para GLM 4.6

Explore preços competitivos para GLM 4.6, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como GLM 4.6 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.96/M
Saída:$3.84/M
Entrada:$1.2/M
Saída:$4.8/M
-20%

Código de exemplo e API para GLM 4.6

GLM-4.6 é o mais recente lançamento importante na família GLM da Z.ai (anteriormente Zhipu AI): um modelo MoE (Mixture-of-Experts) de linguagem de grande porte de quarta geração, ajustado para fluxos de trabalho orientados a agentes, raciocínio com contexto longo e programação no mundo real. O lançamento enfatiza a integração prática de agentes e ferramentas, uma janela de contexto muito ampla e a disponibilidade de pesos abertos para implantação local.
POST
/v1/chat/completions
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "glm-4.6",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Hello!" },
  ],
});

console.log(completion.choices[0].message.content);

Curl Code Example

curl https://api.cometapi.com/v1/chat/completions \
     --header "Authorization: Bearer $COMETAPI_KEY" \
     --header "content-type: application/json" \
     --data \
'{
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
}'

Mais modelos

A

Claude Opus 4.6

Entrada:$4/M
Saída:$20/M
Claude Opus 4.6 é o modelo de linguagem de grande porte da classe “Opus” da Anthropic, lançado em fevereiro de 2026. É posicionado como um cavalo de batalha para o trabalho do conhecimento e fluxos de trabalho de pesquisa — aprimorando o raciocínio em contextos longos, o planejamento em múltiplas etapas, o uso de ferramentas (incluindo fluxos de trabalho de software agente) e tarefas de uso do computador, como a geração automatizada de slides e planilhas.
A

Claude Sonnet 4.6

Entrada:$2.4/M
Saída:$12/M
Claude Sonnet 4.6 é o nosso modelo Sonnet mais capaz até agora. É uma atualização completa das capacidades do modelo em programação, uso do computador, raciocínio de longo contexto, planejamento de agentes, trabalho de conhecimento e design. Sonnet 4.6 também apresenta uma janela de contexto de 1M tokens em beta.
O

GPT-5.4 nano

Entrada:$0.16/M
Saída:$1/M
O GPT-5.4 nano foi projetado para tarefas em que a velocidade e o custo são os que mais importam, como classificação, extração de dados, ranqueamento e subagentes.
O

GPT-5.4 mini

Entrada:$0.6/M
Saída:$3.6/M
GPT-5.4 mini traz os pontos fortes do GPT-5.4 para um modelo mais rápido e mais eficiente, projetado para cargas de trabalho de alto volume.
A

Claude Mythos Preview

A

Claude Mythos Preview

Em breve
Entrada:$60/M
Saída:$240/M
Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.
X

mimo-v2-pro

Entrada:$0.8/M
Saída:$2.4/M
MiMo-V2-Pro é o modelo fundacional carro-chefe da Xiaomi, com mais de 1T de parâmetros no total e um comprimento de contexto de 1M, profundamente otimizado para cenários agentivos. Ele é altamente adaptável a frameworks de agentes gerais como o OpenClaw. Ele figura entre a elite global nos benchmarks padrão PinchBench e ClawBench, com desempenho percebido que se aproxima ao de Opus 4.6. MiMo-V2-Pro foi projetado para servir como o cérebro de sistemas de agentes, orquestrando fluxos de trabalho complexos, impulsionando tarefas de engenharia em produção e entregando resultados de forma confiável.

Blogs relacionados

GLM-4.7 lançado: o que isso significa para a inteligência artificial?
Dec 23, 2025
glm-4-7

GLM-4.7 lançado: o que isso significa para a inteligência artificial?

Em 22 de dezembro de 2025, Zhipu AI (Z.ai) lançou oficialmente o GLM-4.7, a versão mais recente de sua família de Modelos de Linguagem Geral (GLM) — atraindo a atenção global no mundo dos modelos de IA de código aberto. Este modelo não apenas aprimora as capacidades em tarefas de programação e raciocínio, como também desafia o domínio de modelos proprietários como GPT-5.2 e Claude Sonnet 4.5 nos principais benchmarks.