Home/Models/Zhipu AI/GLM 4.6
Z

GLM 4.6

Entrada:$0.96/M
Salida:$3.84/M
Contexto:200,000
Salida Máxima:128,000
Lanzamiento del último modelo insignia de Zhipu, GLM-4.6: parámetros totales 355B, parámetros activos 32B. En conjunto, las capacidades centrales superan a GLM-4.5. Programación: A la par de Claude Sonnet 4, la mejor de China. Contexto: Ampliado a 200K (originalmente 128K). Inferencia: Mejorada, admite llamadas a Tool. Búsqueda: Optimizados Tool y el marco de agentes. Redacción: Más alineada con las preferencias humanas, el estilo de escritura y la asunción de roles. Multilingüe: Traducción mejorada.
Nuevo
Uso comercial
Playground
Resumen
Características
Precios
API

GLM-4.6 es el último lanzamiento mayor en la familia GLM de Z.ai (antes Zhipu AI): un modelo MoE (Mezcla de expertos) de cuarta generación, de gran tamaño, ajustado para flujos de trabajo agentivos, razonamiento de contexto largo y codificación en el mundo real. La versión enfatiza la integración práctica de agentes/herramientas, una ventana de contexto muy grande y la disponibilidad de pesos abiertos para despliegue local.

Características clave

  • Contexto largo — ventana de contexto nativa de 200K tokens (ampliada desde 128K). (docs.z.ai)
  • Codificación y capacidad agentiva — mejoras anunciadas en tareas de codificación del mundo real y mejor invocación de herramientas para agentes.
  • Eficiencia — se informa de ~30% menos consumo de tokens frente a GLM-4.5 en las pruebas de Z.ai.
  • Despliegue y cuantización — primera integración anunciada de FP8 e Int4 para chips Cambricon; compatibilidad nativa con FP8 en Moore Threads mediante vLLM.
  • Tamaño del modelo y tipo de tensor — los artefactos publicados indican un modelo de ~357B parámetros (tensores BF16 / F32) en Hugging Face.

Detalles técnicos

Modalidades y formatos. GLM-4.6 es un LLM solo de texto (modalidades de entrada y salida: texto). Longitud de contexto = 200K tokens; salida máxima = 128K tokens.

Cuantización y compatibilidad con hardware. El equipo informa cuantización FP8/Int4 en chips Cambricon y ejecución FP8 nativa en GPUs Moore Threads usando vLLM para inferencia — importante para reducir el coste de inferencia y permitir despliegues on-prem y en nubes domésticas.

Herramientas e integraciones. GLM-4.6 se distribuye a través de la API de Z.ai, redes de proveedores de terceros (p. ej., CometAPI), e integrado en agentes de codificación (Claude Code, Cline, Roo Code, Kilo Code).

Detalles técnicos

Modalidades y formatos. GLM-4.6 es un LLM solo de texto (modalidades de entrada y salida: texto). Longitud de contexto = 200K tokens; salida máxima = 128K tokens.

Cuantización y compatibilidad con hardware. El equipo informa cuantización FP8/Int4 en chips Cambricon y ejecución FP8 nativa en GPUs Moore Threads usando vLLM para inferencia — importante para reducir el coste de inferencia y permitir despliegues on-prem y en nubes domésticas.

Herramientas e integraciones. GLM-4.6 se distribuye a través de la API de Z.ai, redes de proveedores de terceros (p. ej., CometAPI), e integrado en agentes de codificación (Claude Code, Cline, Roo Code, Kilo Code).

Rendimiento en benchmarks

  • Evaluaciones publicadas: GLM-4.6 se probó en ocho benchmarks públicos que abarcan agentes, razonamiento y codificación y muestra mejoras claras frente a GLM-4.5. En pruebas de codificación del mundo real evaluadas por humanos (CC-Bench ampliado), GLM-4.6 utiliza ~15% menos tokens frente a GLM-4.5 y registra una tasa de victoria de ~48.6% frente a Claude Sonnet 4 de Anthropic (casi paridad en muchas tablas de clasificación).
  • Posicionamiento: los resultados afirman que GLM-4.6 es competitivo con modelos líderes nacionales e internacionales (los ejemplos citados incluyen DeepSeek-V3.1 y Claude Sonnet 4).

img

Limitaciones y riesgos

  • Alucinaciones y errores: como todos los LLM actuales, GLM-4.6 puede y de hecho comete errores fácticos — la documentación de Z.ai advierte explícitamente que las salidas pueden contener errores. Los usuarios deben aplicar verificación y recuperación/RAG para contenido crítico.
  • Complejidad del modelo y coste de servicio: el contexto de 200K y salidas muy grandes aumentan drásticamente las exigencias de memoria y latencia y pueden elevar los costes de inferencia; se requiere ingeniería de cuantización/inferencia para operar a escala.
  • Brechas de dominio: aunque GLM-4.6 informa de un sólido rendimiento en agentes/codificación, algunos informes públicos señalan que aún queda rezagado respecto a ciertas versiones de modelos competidores en microbenchmarks específicos (p. ej., algunas métricas de codificación frente a Sonnet 4.5). Evalúe por tarea antes de sustituir modelos en producción.
  • Seguridad y políticas: los pesos abiertos aumentan la accesibilidad pero también plantean cuestiones de gobernanza (las mitigaciones, barreras de seguridad y red-teaming siguen siendo responsabilidad del usuario).

Casos de uso

  • Sistemas agentivos y orquestación de herramientas: trazas largas de agentes, planificación con múltiples herramientas, invocación dinámica de herramientas; el ajuste agentivo del modelo es un punto de venta clave.
  • Asistentes de codificación del mundo real: generación de código multi-turno, revisión de código y asistentes interactivos de IDE (integrados en Claude Code, Cline, Roo Code—según Z.ai). Las mejoras en eficiencia de tokens lo hacen atractivo para planes de desarrolladores de uso intensivo.
  • Flujos de documentos largos: resumen, síntesis multidocumento, revisiones legales/técnicas extensas gracias a la ventana de 200K.
  • Creación de contenido y personajes virtuales: diálogos prolongados, mantenimiento consistente de la persona en escenarios multi-turno.

Cómo se compara GLM-4.6 con otros modelos

  • GLM-4.5 → GLM-4.6: cambio de nivel en tamaño de contexto (128K → 200K) y eficiencia de tokens (~15% menos tokens en CC-Bench); mejor uso de agentes/herramientas.
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.ai informa de casi paridad en varias tablas de clasificación y una tasa de victoria de ~48.6% en las tareas de codificación del mundo real de CC-Bench (es decir, competencia cercana, con algunos microbenchmarks donde Sonnet aún lidera). Para muchos equipos de ingeniería, GLM-4.6 se posiciona como una alternativa rentable.
  • GLM-4.6 vs otros modelos de largo contexto (DeepSeek, variantes de Gemini, familia GPT-4): GLM-4.6 enfatiza el gran contexto y los flujos de codificación agentivos; las fortalezas relativas dependen de la métrica (eficiencia de tokens/integración de agentes vs precisión de la síntesis de código en bruto o canalizaciones de seguridad). La selección empírica debe estar guiada por la tarea.

Zhipu AI’s latest flagship model GLM-4.6 released: 355B total params, 32B active. Surpasses GLM-4.5 in all core capabilities.

  • Codificación: se alinea con Claude Sonnet 4, el mejor en China.
  • Contexto: ampliado a 200K (desde 128K).
  • Razonamiento: mejorado, admite llamadas a herramientas durante la inferencia.
  • Búsqueda: llamadas a herramientas mejoradas y mejor rendimiento de agentes.
  • Redacción: se alinea mejor con las preferencias humanas en estilo, legibilidad y juego de roles.
  • Multilingüe: traducción entre idiomas mejorada.

Preguntas Frecuentes

What are the context window and output limits for GLM-4-6?

GLM-4-6 supports a 200,000 token context window (extended from 128K in GLM-4.5) with up to 128,000 output tokens, enabling extensive document analysis and long-form generation.

How does GLM-4-6 compare to Claude Sonnet 4 in coding?

According to Zhipu, GLM-4-6's coding capabilities align with Claude Sonnet 4, making it the best coding model among Chinese domestic models.

Does GLM-4-6 support tool calling and agent workflows?

Yes, GLM-4-6 features improved inference capabilities with enhanced Tool calls support and an optimized agent framework for complex multi-step task automation.

What is the architecture of GLM-4-6?

GLM-4-6 is a Mixture-of-Experts model with 355B total parameters and 32B active parameters, balancing capability with efficiency.

What makes GLM-4-6 different from GLM-4.5?

GLM-4-6 offers extended context (200K vs 128K), improved reasoning and tool calling, enhanced writing aligned with human preferences, better multilingual translation, and optimized role-playing.

Is GLM-4-6 suitable for enterprise Chinese language applications?

Yes, GLM-4-6 is particularly strong for Chinese language tasks including translation, content writing, and conversational AI, with enhanced multilingual capabilities.

When should I choose GLM-4-6 over GPT-5.2 or Claude?

Choose GLM-4-6 for Chinese-first applications, cost-effective 200K context needs, or when you need a strong domestic AI alternative with coding capabilities comparable to frontier models.

Características para GLM 4.6

Explora las características clave de GLM 4.6, diseñado para mejorar el rendimiento y la usabilidad. Descubre cómo estas capacidades pueden beneficiar tus proyectos y mejorar la experiencia del usuario.

Precios para GLM 4.6

Explora precios competitivos para GLM 4.6, diseñado para adaptarse a diversos presupuestos y necesidades de uso. Nuestros planes flexibles garantizan que solo pagues por lo que uses, facilitando el escalado a medida que crecen tus requisitos. Descubre cómo GLM 4.6 puede mejorar tus proyectos mientras mantienes los costos manejables.
Precio de Comet (USD / M Tokens)Precio Oficial (USD / M Tokens)Descuento
Entrada:$0.96/M
Salida:$3.84/M
Entrada:$1.2/M
Salida:$4.8/M
-20%

Código de ejemplo y API para GLM 4.6

GLM-4.6 es la última versión mayor de la familia GLM de Z.ai (antes Zhipu AI): un modelo MoE (Mezcla de expertos) de lenguaje grande de cuarta generación, ajustado para flujos de trabajo basados en agentes, razonamiento de contexto largo y programación del mundo real. La versión enfatiza la integración práctica entre agentes y herramientas, una ventana de contexto muy grande y la disponibilidad de pesos abiertos para la implementación local.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Más modelos