GLM-4.6 API

CometAPI
AnnaOct 16, 2025
GLM-4.6 API

GLM-4.6 Z.ai(旧Zhipu AI)のGLMファミリーの最新メジャーリリースです。第4世代の大規模言語 MoE(専門家混合)モデル 調整済み エージェントワークフロー、長​​期文脈推論、現実世界のコーディングこのリリースでは、実用的なエージェント/ツールの統合、非常に大規模な コンテキストウィンドウ、およびローカル展開用のオープンウェイトの可用性。

主な特徴

  • 長いコンテキスト — ネイティブ 200Kトークン コンテキストウィンドウ(128Kから拡張)。()
  • コーディングとエージェント能力 — 実際のコーディングタスクの改善とエージェント向けのツール呼び出しの改善をマーケティングしました。
  • 効率化 — 報告 トークン消費量が約30%減少 Z.ai のテストにおける GLM-4.5 と比較。
  • 展開と量子化 — Cambricon チップ向けの FP8 と Int4 の統合を初めて発表しました。vLLM を介して Moore Threads でネイティブ FP8 をサポートします。
  • モデルサイズとテンソルタイプ — 公開された資料は、 ~357Bパラメータ Hugging Face のモデル (BF16 / F32 テンソル)。

技術的な詳細

モダリティとフォーマット。 GLM-4.6は テキストのみ LLM(入力および出力形式:テキスト)。 コンテキストの長さ = 200万トークン; 最大出力 = 128Kトークン.

量子化とハードウェア サポート。 チームの報告 FP8/Int4量子化 カンブリコンチップと ネイティブFP8 推論に vLLM を使用してムーア スレッド GPU で実行します。これは、推論コストを削減し、オンプレミスおよび国内のクラウド展開を可能にするために重要です。

ツールと統合。 GLM-4.6 は、Z.ai の API、サードパーティ プロバイダー ネットワーク (CometAPI など) を通じて配布され、コーディング エージェント (Claude Code、Cline、Roo Code、Kilo Code) に統合されます。

技術的な詳細

モダリティとフォーマット。 GLM-4.6は テキストのみ LLM(入力および出力形式:テキスト)。 コンテキストの長さ = 200万トークン; 最大出力 = 128Kトークン.

量子化とハードウェア サポート。 チームの報告 FP8/Int4量子化 カンブリコンチップと ネイティブFP8 推論に vLLM を使用してムーア スレッド GPU で実行します。これは、推論コストを削減し、オンプレミスおよび国内のクラウド展開を可能にするために重要です。

ツールと統合。 GLM-4.6 は、Z.ai の API、サードパーティ プロバイダー ネットワーク (CometAPI など) を通じて配布され、コーディング エージェント (Claude Code、Cline、Roo Code、Kilo Code) に統合されます。

ベンチマークパフォーマンス

  • 公開された評価: GLM-4.6は、エージェント、推論、コーディングをカバーする8つの公開ベンチマークでテストされ、 GLM-4.5を明らかに上回る人間が評価した実際のコーディングテスト(拡張CC-Bench)では、GLM-4.6は トークンが約15%減少 GLM-4.5と比較して、 勝率約48.6% アントロピック対 クロード・ソネット 4 (多くのリーダーボードでほぼ同等)。
  • ポジショニング: 結果によれば、GLM-4.6 は主要な国内および海外のモデルと競争力がある (例として DeepSeek-V3.1 および Claude Sonnet 4 が挙げられる)。

GLM-4.6 API

制限とリスク

  • 幻覚と間違い: 現行のすべてのLLMと同様に、GLM-4.6にも事実誤認が生じる可能性があり、実際に発生しています。Z.aiのドキュメントでは、出力に誤りが含まれる可能性があることを明示的に警告しています。ユーザーは重要なコンテンツに対して検証と検索/RAGを適用する必要があります。
  • モデルの複雑さとサービスコスト: 200 万のコンテキストと非常に大きな出力により、メモリとレイテンシの要求が大幅に増加し、推論コストが上昇する可能性があります。大規模に実行するには、量子化/推論エンジニアリングが必要です。
  • ドメインギャップ: GLM-4.6は強力なエージェント/コーディングパフォーマンスを報告しているが、一部の公開レポートでは、 特定のバージョンに遅れ 特定のマイクロベンチマークにおける競合モデルの比較(例:Sonnet 4.5と比較したコーディングメトリクスなど)。実稼働モデルを置き換える前に、タスクごとに評価を実施してください。
  • 安全性とポリシー: オープンウェイトはアクセシビリティを向上させますが、管理に関する問題も生じます (軽減策、ガードレール、およびレッドチームはユーザーの責任のままです)。

ユースケース

  • エージェントシステムとツールオーケストレーション: 長いエージェント トレース、複数のツールの計画、動的なツールの呼び出しなど、モデルのエージェント チューニングが重要なセールス ポイントです。
  • 現実世界のコーディングアシスタント: マルチターン コード生成、コード レビュー、インタラクティブ IDE アシスタント (Claude Code、Cline、Roo Code に統合 - Z.ai による)。 トークン効率の改善 頻繁に利用する開発者向けプランにとって魅力的なものになります。
  • 長いドキュメントのワークフロー: 要約、複数文書の統合、200K ウィンドウによる長い法的/技術的レビュー。
  • コンテンツ作成と仮想キャラクター: 拡張されたダイアログ、複数ターンのシナリオでの一貫したペルソナの維持。

GLM-4.6と他のモデルの比較

  • GLM-4.5 → GLM-4.6: 段階的な変化 コンテキストサイズ(128K → 200K) および トークン効率(CC-Benchではトークンが約15%減少); エージェント/ツールの使用が改善されました。
  • GLM-4.6 vs Claude Sonnet 4 / Sonnet 4.5: Z.aiレポート いくつかのリーダーボードでほぼ同等 CC-Benchの実世界コーディングタスクでは約48.6%の勝率を達成しています(つまり、Sonnetが依然としてリードしているマイクロベンチマークもあるものの、非常に拮抗した競争となっています)。多くのエンジニアリングチームにとって、GLM-4.6はコスト効率の高い代替手段として位置付けられています。
  • GLM-4.6と他のロングコンテキストモデル(DeepSeek、Geminiバリアント、GPT-4ファミリー)の比較: GLM-4.6は、大規模コンテキストとエージェントコーディングワークフローを重視しています。相対的な強みは、指標(トークン効率/エージェント統合 vs. 生のコード合成精度または安全性パイプライン)によって異なります。経験的な選択はタスク主導で行う必要があります。

Zhipu AIの最新フラッグシップモデルGLM-4.6がリリースされました。総パラメータ355B、アクティブパラメータ32B。すべてのコア機能においてGLM-4.5を上回ります。

  • コーディング: クロード・ソネット 4、中国で最高。
  • コンテキスト: 200K に拡張されました (128K から)。
  • 推論: 改善され、推論中のツール呼び出しをサポートします。
  • 検索: ツールの呼び出しとエージェントのパフォーマンスが強化されました。
  • ライティング: スタイル、読みやすさ、ロールプレイングの面で人間の好みにより合致しています。
  • 多言語: 言語間の翻訳が強化されました。

電話方法 GLM–**4.**CometAPIからの6つのAPI

GLM‑4.6 CometAPI の API 価格、公式価格より 20% オフ:

  • 入力トークン: $0.64 Mトークン
  • 出力トークン: $2.56/Mトークン

必要な手順

  • ログインする コムタピまだユーザーでない方は、まずはご登録をお願いいたします。
  • あなたにサインインします CometAPIコンソール.
  • インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。

GLM-4.6 API

使用方法

  1. "を選択します。glm-4.6” エンドポイントを使用してAPIリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、弊社ウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、弊社ウェブサイトではApifoxテストも提供しています。
  2. 交換するアカウントの実際の CometAPI キーを使用します。
  3. コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
  4. API 応答を処理して、生成された回答を取得します。

CometAPIは、シームレスな移行のために完全に互換性のあるREST APIを提供します。 APIドキュメント:

API統合と例

以下である Python CometAPIのAPI経由でGLM-4.6を呼び出す方法を示すスニペット。 <API_KEY> および <PROMPT> それに応じて:

import requests

API_URL = "https://api.cometapi.com/v1/chat/completions"
headers = {
    "Authorization": "Bearer <API_KEY>",
    "Content-Type": "application/json"
}
payload = {
    "model": "glm-4.6",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "<PROMPT>"}
    ],
    "max_tokens": 512,
    "temperature": 0.7
}

response = requests.post(API_URL, json=payload, headers=headers)
print(response.json())

Key Parameters:

  • : GLM-4.6バリアントを指定
  • max_tokens: 出力の長さを制御します
  • 温度: 創造性と決定論を調整する

参照 クロード・ソネット 4.5

もっと読む

1つのAPIで500以上のモデル

最大20%オフ