GLM-5, dirilis pada 11 Februari 2026 oleh Zhipu AI (Z.ai), merepresentasikan lompatan arsitektur besar dari GLM-4.7: skala MoE yang lebih besar (≈744B vs ~355B total parameter), kapasitas parameter aktif lebih tinggi, halusinasi terukur lebih rendah, dan peningkatan jelas pada tolok ukur agentic dan pemrograman — dengan biaya kompleksitas inferensi dan (kadang) latensi.
Apa itu GLM-5 dan mengapa rilisnya penting?
Model seperti apa GLM-5?
GLM-5 adalah model bahasa besar open-weights frontier terbaru dari Zhipu AI (Z.ai), dirilis pada 11 Februari 2026. Ini adalah transformer Mixture-of-Experts (MoE) yang menskalakan keluarga GLM hingga ~744 miliar total parameter, sementara mengaktifkan sekitar 40 miliar parameter per inferensi (artinya routing MoE model menjaga komputasi aktif jauh lebih kecil daripada jumlah total parameter). Model ini ditawarkan dengan lisensi MIT dan dioptimalkan untuk beban kerja agentic — tugas panjang, multi-langkah seperti mengorkestrasi alat, menulis dan menyempurnakan kode, rekayasa dokumen, dan pekerjaan pengetahuan yang kompleks.
Apa peningkatan utama dibandingkan varian GLM sebelumnya?
Daftar singkat perubahan paling berdampak:
- Penskalaan parameter: GLM-5 ≈ 744B total (40B aktif) vs GLM-4.7 ~355B total / 32B aktif — kira-kira lompatan skala model 2×.
- Tolok ukur & faktualitas: Kenaikan besar pada tolok ukur independen (Artificial Analysis Intelligence Index: GLM-5 = 50 vs GLM-4.7 = 42), dan pengurangan besar dalam halusinasi pada metrik AA Omniscience (dilaporkan penurunan 56 poin persentase relatif terhadap GLM-4.7).
- Kapabilitas agentik: Reliabilitas yang ditingkatkan untuk pemanggilan alat, dekomposisi rencana, dan eksekusi horizon panjang (Z.ai memosisikan GLM-5 untuk “rekayasa agentik”).
- Penerapan & chip: Dibangun dan dibenchmark untuk berjalan di perangkat keras inferensi domestik Tiongkok (Huawei Ascend dan lainnya), mencerminkan langkah Z.ai menuju tumpukan chip yang beragam.
Mengapa penting: GLM-5 memperkecil jarak antara model open-weights dan model proprietary frontier pada tugas agentik dan pengetahuan — menjadikan model open-source berkinerja tinggi sebagai opsi realistis bagi perusahaan yang membutuhkan penerapan yang dapat dikendalikan dan fleksibilitas lisensi.
Apa yang baru di GLM-5 (rinci)
Pemosisian: “rekayasa agentik” berskala
GLM-5 secara eksplisit diposisikan oleh Z.ai sebagai model untuk “rekayasa agentik”: kelas use case di mana model merencanakan, mengeluarkan panggilan alat, memeriksa hasil, dan beriterasi secara otonom melintasi banyak langkah (misalnya, membangun pipeline CI, memilah dan memperbaiki suite uji yang gagal, atau menyatukan microservices). Ini adalah pergeseran strategis dari generasi kode satu putaran murni ke model yang dirancang untuk berjalan dan bernalar melintasi jejak eksekusi dan keluaran alat.
Mode berpikir, penalaran yang dipertahankan/terselang
GLM-5 memperkenalkan mode “berpikir” yang disempurnakan (kadang diberi merek dalam dokumen sebagai interleaved thinking, preserved thinking), artinya model dapat memancarkan — dan kemudian menggunakan kembali — jejak penalaran internal pada putaran berikutnya dan panggilan alat. Secara praktis, ini mengurangi biaya re-derivasi dalam alur kerja panjang dan meningkatkan konsistensi saat sebuah agen harus mempertahankan keadaan rencana melintasi hasil alat. GLM-4.7 memperkenalkan varian berpikir dan perilaku sadar alat lebih awal; GLM-5 menyempurnakan mekanisme dan resep pelatihan untuk membuat jejak tersebut lebih andal dan dapat digunakan kembali.
Rekayasa konteks panjang dan stabilitas sistem
Pelatihan dan fine-tuning GLM-5 secara eksplisit menguji generasi dengan konteks yang sangat panjang (202.752 token selama run SFT/evaluasi). Itu adalah peningkatan praktis yang penting begitu Anda perlu model melihat beberapa repositori, log uji, dan keluaran orkestrasi dalam satu prompt. Setup evaluasi mendorong panjang generasi hingga 131.072 token untuk sebagian beban kerja penalaran. Ini merupakan upaya rekayasa yang patut dicatat untuk mengurangi ketidakstabilan yang biasa saat pengkondisian pada konteks besar.
Arsitektur dan penskalaan (MoE)
Laporan publik menunjukkan GLM-5 menggunakan arsitektur MoE (mixture-of-experts) besar dengan beberapa ratus miliar parameter secara total (perhitungan publik mencantumkan ~744–745B). GLM-4.7 memiliki varian MoE dan Flash yang disetel untuk trade-off penerapan berbeda (misalnya, varian “Flash” dengan jumlah parameter aktif lebih kecil untuk inferensi lokal atau berbiaya rendah). Desain MoE membantu GLM-5 mendorong kapabilitas puncak sambil memungkinkan pilihan konfigurasi (jumlah parameter aktif lebih rendah untuk inferensi lebih murah). Harapkan profil inferensi yang berbeda (latensi, VRAM) bergantung pada varian yang Anda terapkan.
Bagaimana Z.ai menskalakan dan melatih GLM-5 dibandingkan GLM-4.7?
Perbedaan arsitektur inti
| Fitur | GLM-5 | GLM-4.7 |
|---|---|---|
| Tanggal Rilis | Feb 2026 (unggulan) | Des 2025 |
| Keluarga Model | Generasi terbaru | Generasi sebelumnya |
| Total Parameter | ~744B | ~355B |
| Parameter Aktif (MoE) | ~40B (per forward pass) | ~32B (per forward pass) |
| Arsitektur | Mixture-of-Experts plus perhatian jarang | MoE dengan mode berpikir |
| Jendela konteks | ~200K token (ukuran basis yang sama) | ~200K token |
Takeaway: GLM-5 hampir menggandakan kapasitas total dibandingkan GLM-4.7 dan meningkatkan parameter aktif, yang berkontribusi pada kemampuan penalaran dan sintesis yang lebih baik, terutama untuk konten teknis bentuk panjang, pipeline penalaran yang diperluas, dan tugas rekayasa kode yang kompleks.
Arsitektur: apa yang berubah?
GLM-4.7 adalah desain mixture-of-experts (MoE) dalam varian yang lebih besar (terdokumentasi ~355B total parameter dengan himpunan aktif per token yang lebih kecil). GLM-5 mempertahankan ide sparsitas gaya MoE tetapi melapisi mekanisme perhatian jarang baru — laporan menyebutnya DeepSeek Sparse Attention (DSA) — yang secara dinamis mengalokasikan sumber daya perhatian ke token yang dianggap penting. Klaimnya adalah DSA mengurangi biaya inferensi/pelatihan sambil mempertahankan (atau meningkatkan) penalaran konteks panjang model, memungkinkan model menangani konteks jauh lebih panjang daripada checkpoint lama sambil menjaga komputasi tetap terkelola.
Skala: parameter dan data
- GLM-4.7: terdokumentasi sekitar 355 miliar total parameter untuk versi MoE utama (dengan himpunan parameter aktif yang jauh lebih kecil per forward pass demi efisiensi).
- GLM-5: dilaporkan pada ~744 miliar parameter dan dilatih dengan ~28,5 triliun token dalam anggaran pretraining-nya, dengan penekanan pelatihan pada kode dan sekuens agentik. Kombinasi itu dimaksudkan untuk meningkatkan sintesis kode dan perencanaan agentik berkelanjutan.
Lompatan parameter, bersama ekspansi anggaran token dan pembaruan arsitektur, adalah alasan sisi input utama GLM-5 menunjukkan hasil numerik lebih baik pada leaderboard kode dan agentik.
Strategi pelatihan dan pasca-pelatihan (RL)
Di mana GLM-4.7 memperkenalkan mode berpikir “interleaved” atau yang dipertahankan untuk meningkatkan penalaran multi-langkah dan penggunaan alat, GLM-5 memformalkan pipeline tersebut dengan:
- Memperluas panjang konteks melalui jadwal pertengahan pelatihan (tim melaporkan ekstensi konteks progresif hingga 200K token).
- Menerapkan pipeline pasca-pelatihan RL berurutan (Reasoning RL → Agentic RL → General RL) bersama distilasi lintas-tahap on-policy untuk menghindari lupa yang katastrofik.
- Menambahkan RL asinkron dan mesin rollout terlepas untuk menskalakan trajektori agen selama RL tanpa bottleneck sinkronisasi.
Metode ini secara khusus ditujukan untuk meningkatkan perilaku agentik horizon panjang — misalnya, menjaga keadaan internal stabil selama sesi panjang di mana model melakukan beberapa panggilan alat dan edit kode yang saling bergantung.
Bagaimana perbandingan GLM-5 dan GLM-4.7 dalam kinerja dan kapabilitas?
Tolok ukur & Ukuran Kecerdasan
| Area evaluasi | GLM-5 | GLM-4.7 |
|---|---|---|
| Pemrograman (SWE-bench) | ~77.8% (SOTA model terbuka) | ~73.8% pada SWE-bench Verified |
| Tugas alat & CLI | ~56% pada Terminal Bench 2.0 | ~41% pada Terminal Bench 2.0 |
| Penalaran (HLE & diperluas) | Skor ~30.5 → ~~50 dengan alat (tolok ukur internal) | ~24.8 → ~42.8 pada HLE dengan alat |
| Tugas agentik & multi-langkah | Jauh lebih kuat (rantai lebih panjang) | Kuat (mode berpikir) tetapi kurang dalam dari GLM-5 |
Interpretasi:
- GLM-5 melampaui GLM-4.7 secara luas pada tolok ukur inti pemrograman dan penalaran dengan margin terukur. Ini sangat terlihat pada otomasi multi-langkah, dekomposisi masalah, dan tugas logika mendalam.
- Peningkatan tidak sepele: misalnya, kapabilitas Terminal Bench melonjak dari ~41% ke 56%, kenaikan relatif besar dalam reliabilitas otomasi agentik.
- Pada uji penalaran (seperti metrik HLE internal), GLM-5 menunjukkan keluaran penalaran mentah dan yang ditingkatkan alat lebih kuat.
- Menunjukkan kenaikan terukur pada uji agentik dunia nyata: dalam metrik CC-Bench-V2 frontend HTML ISR GLM-5 mencatat 38.9% vs 35.4% milik GLM-4.7 pada subset tugas frontend. (Ini adalah salah satu metrik yang dievaluasi otomatis untuk menunjukkan kompetensi pengembangan front-end praktis.)
Ukuran konteks & tugas bentuk panjang
- Kedua model mendukung konteks besar (~200k token) — artinya keduanya dapat mengonsumsi dan bernalar atas dokumen, basis kode, atau dialog yang lebih panjang.
- Laporan anekdot dunia nyata menyarankan penerapan GLM-5 kadang menunjukkan masalah manajemen konteks yang dirasakan di beberapa platform — tetapi ini mungkin mencerminkan batasan spesifik host daripada desain model itu sendiri.
Pemanggilan alat dan fungsi
Keduanya mendukung pemanggilan fungsi/alat terstruktur; GLM-5 hanya mengeksekusi logika skrip yang lebih kompleks dengan fidelitas lebih tinggi, terutama di seluruh cabang operasi yang diperpanjang.
Contoh: Bagaimana tugas berbeda dalam kualitas output
Contoh Pemrograman (konseptual)
- GLM-4.7: Menghasilkan skrip satu berkas yang kompeten dengan sintaks benar dan logika terbaca.
- GLM-5: Unggul dalam generasi kode multi-berkas, saran debug mendalam, dan loop umpan balik panjang dengan minim pemotongan konteks.
Penalaran & Perencanaan
- GLM-4.7: Penalaran multi-langkah baik tetapi kadang macet pada rantai penalaran yang sangat dalam.
- GLM-5: Lebih baik dalam memecah penalaran, mengingat langkah sebelumnya, dan menavigasi rantai panjang — berguna untuk sintesis data dan strategi multi-domain.
Bagaimana latensi dan biaya berubah jika beralih dari GLM-4.7 ke GLM-5?
Kompromi latensi dan di mana GLM-4.7 masih unggul
Pesan pendek & UI gesit: Tolok ukur dari praktisi menunjukkan GLM-5 dapat menambah overhead tetap kecil pada respons pendek (pembukuan routing dan pemilihan pakar) yang dapat muncul sebagai latensi sedikit lebih tinggi untuk payload sangat kecil. Untuk UI pesan kecil berlatensi sangat rendah, GLM-4.7 atau varian Flash tetap menarik.
GLM-5 dibandingkan dengan GLM-4.7:
- GLM-4.7: input $0.60/1M tokens, output $2.20/1M tokens.
- GLM-5: input $1.00/1M tokens, output $3.20/1M tokens.
Kompromi biaya vs. pengeditan manusia
Harga model yang lebih tinggi dapat dibenarkan ketika GLM-5 secara bermakna mengurangi waktu manusia di hilir (misalnya, mengedit merge request, memilah perbaikan otomatis, atau menghindari panggilan model berulang). Aturan keputusan sederhana:
Jika GLM-5 mengurangi waktu pengeditan manual > X% (X bergantung pada tarif tenaga kerja manusia dan jumlah token per alur kerja), maka bisa hemat biaya meski biaya per token lebih tinggi. Beberapa analisis blog memodelkan kondisi titik impas seperti itu dan menemukan GLM-5 sering menghasilkan ROI untuk alur kerja agentik berat dan repetitif (misalnya, perbaikan kode otomatis dalam skala besar).
Latensi & perangkat keras
VRAM inferensi & latensi bergantung pada varian (Flash, FlashX, MoE penuh). Panduan komunitas menunjukkan GLM-4.7 FlashX dan varian Flash 30B dapat diterapkan pada GPU 24GB; varian MoE penuh memerlukan setup multi-GPU besar. Konfigurasi penuh GLM-5 akan mengharapkan kebutuhan sumber daya secara materi lebih tinggi untuk throughput yang sama, meski sparsitas MoE membantu mengurangi komputasi aktif per token. Harapkan investasi rekayasa untuk menyetel kuantisasi, pemetaan memori, dan streaming untuk produksi.
Kapan Anda harus meningkatkan dari GLM-4.7 ke GLM-5?
Tingkatkan jika:
- Anda membutuhkan penalaran kode multi-berkas yang lebih baik, orkestrasi agen konteks panjang, atau tingkat keberhasilan agen end-to-end yang lebih tinggi.
- Tugas Anda bernilai tinggi dan membenarkan kompleksitas dan biaya infrastruktur per permintaan yang lebih tinggi.
Tetap dengan GLM-4.7 jika:
- Beban kerja Anda volume tinggi, prompt pendek (klasifikasi, penandaan), di mana prediktabilitas biaya & latensi lebih penting daripada kenaikan kualitas marginal.
- Use case yang mendukung tetap dengan GLM-4.7
- Throughput tinggi, payload pendek: Chatbot, autosuggest, pekerjaan parafrase kecil — GLM-4.7 (terutama varian Flash) sering kali lebih murah dan berlatensi lebih rendah.
- Anggaran terbatas dan tugas volume: Untuk penandaan, klasifikasi, atau mikro-tugas yang dieksekusi dalam skala besar, efisiensi GLM-4.7 dan harga per token yang lebih rendah sangat menarik.
- Anda kekurangan infrastruktur atau anggaran untuk menangani sharding MoE / autoscaling kompleks.
Bagaimana cara memilih model dalam panggilan API saya? (contoh)
cURL — ganti ID model (contoh CometAPI / kompatibel OpenAI):
# GLM-4.7
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
-d '{"model":"glm-4.7","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":800}'
# GLM-5
curl -X POST "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
-d '{"model":"glm-5","messages":[{"role":"user","content":"Summarize this repo..."}],"max_tokens":1200}'
Python (requests): ubah field model untuk merutekan ke GLM-4.7 atau GLM-5 — kode klien lainnya dapat tetap sama.
Penilaian akhir:
GLM-5 tampak evolusioner dengan titik belok penting:
- Evolusioner karena membawa desain MoE dan pendekatan reasoning-first keluarga GLM dan melanjutkan pola peningkatan iteratif (4.5 → 4.6 → 4.7 → 5).
- Titik belok karena secara material meningkatkan skala, memperkenalkan DSA, dan berkomitmen pada kurikulum RL yang secara khusus disesuaikan untuk tugas agentik horizon panjang — yang semuanya menghasilkan peningkatan yang berarti dan terukur di berbagai tolok ukur praktis.
Jika Anda mengevaluasi hanya dari penempatan leaderboard, GLM-5 mengklaim kepemimpinan open-weights pada beberapa metrik dan memperkecil jarak dengan sistem proprietary teratas dalam tugas agentik dan pemrograman. Jika Anda mengevaluasi dari pengalaman pengembang dan penggunaan sensitif latensi, pro dan kontra praktis masih perlu ditunjukkan dalam penerapan lebih besar dan dari waktu ke waktu. Itu berarti GLM-5 menarik di mana use case menuntut kompetensi agentik berkelanjutan; GLM-4.7 tetap menjadi pilihan matang, lebih cepat, dan lebih hemat biaya untuk banyak kebutuhan produksi saat ini.
Developer dapat mengakses GLM-5 dan GLM-4.7 melalui CometAPI sekarang. Untuk memulai, jelajahi kapabilitas model di Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh API key. CometAPI menawarkan harga jauh lebih rendah daripada harga resmi untuk membantu Anda integrasi.
Siap mulai?→ Daftar untuk GLM-5 hari ini !
Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita seputar AI, ikuti kami di VK, X dan Discord!
