GLM-4.7-Flash کو مقامی طور پر کیسے استعمال کریں؟

GLM-4.7-Flash ایک ہلکا پھلکا، ہائی پرفارمنس 30B A3B MoE ماڈل ہے جو GLM-4.7 فیملی کا رکن ہے، جسے کوڈنگ، ایجینٹک ورک فلو اور عمومی دلیل/استدلال کے لیے مقامی اور کم لاگت پر ڈپلائمنٹ کے قابل بنانے کے لیے ڈیزائن کیا گیا ہے۔ آپ اسے مقامی طور پر تین عملی طریقوں سے چلا سکتے ہیں: (1) Ollama کے ذریعے (آسان، مینیجڈ لوکل رن ٹائم)، (2) Hugging Face / Transformers / vLLM / SGLang کے ذریعے (GPU-اول سرور ڈپلائمنٹ)، یا (3) GGUF + llama.cpp / llama-cpp-python کے ذریعے (CPU/edge کے لیے موزوں)۔

GLM-4.7-Flash کیا ہے؟

GLM-4.7-Flash، Zhipu AI کے تیار کردہ General Language Model (GLM) خاندان میں تازہ ترین اضافہ ہے۔ یہ فلیگ شپ GLM-4.7 ماڈل کا ہلکا، رفتار کے لیے بہتر بنایا گیا "بھائی" ہے۔ جہاں فلیگ شپ ماڈل کلاؤڈ میں بڑے پیمانے کی استدلالی ٹاسکس کو ہدف بناتا ہے، وہیں "Flash" ویریئنٹ خاص طور پر رفتار، لاگت کی افادیت، اور مقامی ڈپلائمنٹ کے لیے انجینیئر کیا گیا ہے، جبکہ کوڈنگ اور منطق جیسے بنیادی ڈومینز میں خاطر خواہ کارکردگی قربان کیے بغیر۔

معمار: 30B-A3B MoE

GLM-4.7-Flash کی نمایاں تکنیکی خصوصیت اس کی 30B-A3B Mixture-of-Experts (MoE) معمار ہے۔

کل پیرا میٹرز: ~30 بلین
فعال پیرا میٹرز: ~3 بلین

روایتی "ڈینس" ماڈلز میں، ہر ٹوکن کی جنریشن پر تمام پیرا میٹرز فعال ہوتے ہیں، جو بہت زیادہ کمپیوٹیشن استعمال کرتا ہے۔ اس کے برعکس، GLM-4.7-Flash ہر ٹوکن کے لیے صرف ایک چھوٹا سا ذیلی سیٹِ ایکسپرٹس (تقریباً 3 بلین پیرا میٹرز) کو فعال کرتا ہے۔

یہ ڈیزائن ماڈل کو وسیع علم محفوظ رکھنے کی اجازت دیتا ہے (30B ڈینس ماڈل کے ہم پلہ) جبکہ انفرنس اسپیڈ اور لیٹنسی ایک بہت چھوٹے 3B ماڈل جیسی برقرار رہتی ہے۔

یہی معمار اس کی صلاحیت کا بنیادی راز ہے کہ یہ کنزیومر ہارڈویئر پر چلتے ہوئے بھی بڑے ڈینس ماڈلز کو بینچ مارکس میں پیچھے چھوڑ دیتا ہے۔

کانٹیکسٹ ونڈو اور موڈیلیٹی

ماڈل کے پاس 200,000 ٹوکنز (200k) کی متاثر کن کانٹیکسٹ ونڈو ہے، جو اسے مکمل کوڈ ریپوزٹریز، طویل تکنیکی دستاویزات، یا طویل چیٹ ہسٹری ایک واحد پرامپٹ میں ہضم کرنے کے قابل بناتی ہے۔ یہ بنیادی طور پر text-in، text-out ماڈل ہے مگر اسے ہدایات پر عمل اور پیچیدہ ایجینٹک ورک فلو کے لیے وسیع پیمانے پر فائن ٹیون کیا گیا ہے۔

GLM-4.7-Flash کی کلیدی خصوصیات کیا ہیں؟

GLM-4.7-Flash محض "ایک اور اوپن ماڈل" نہیں؛ یہ ڈویلپر کمیونٹی کے لیے خاص طور پر موزوں کئی خصوصی فیچرز متعارف کراتا ہے۔

1. "Thinking Mode" (System 2 Reasoning)

اس کی سب سے زیادہ قابلِ ذکر خصوصیات میں مربوط "Thinking Process" شامل ہے۔ OpenAI کے o1 جیسے ماڈلز میں دیکھے گئے reasoning chains سے متاثر ہو کر، GLM-4.7-Flash کو جواب دینے سے پہلے "سوچنے" کے لیے ہدایت دی جا سکتی ہے۔

درخواست کا تجزیہ: پہلے یہ یوزر کے پرامپٹ کو ٹکڑوں میں بانٹ کر بنیادی ارادے کو سمجھتا ہے۔
برین اسٹورمنگ اور منصوبہ بندی: ممکنہ حل یا کوڈ اسٹرکچرز کا خاکہ بناتا ہے۔
خود اصلاح: اگر اندرونی مونولاگ کے دوران منطقی خامی محسوس کرے تو حتمی آؤٹ پٹ سے پہلے خود کو درست کرتا ہے۔
حتمی آؤٹ پٹ: پالش شدہ حل پیش کرتا ہے۔
یہ صلاحیت اسے پیچیدہ کوڈ کی ڈیبگنگ، ریاضیاتی ثبوت، اور ملٹی اسٹیپ لاجک پزلز میں غیر معمولی طور پر مضبوط بناتی ہے، جہاں چھوٹے ماڈلز عموماً ہیلوسینیٹ کرتے ہیں۔

2. جدید ترین کوڈنگ صلاحیتیں

Zhipu AI کی جانب سے جاری کردہ اور آزاد فریقوں کی جانب سے تصدیق شدہ بینچ مارکس بتاتے ہیں کہ GLM-4.7-Flash مخصوص کوڈنگ ٹاسکس میں Qwen-2.5-Coder-32B اور DeepSeek-V3-Lite جیسے حریفوں سے بہتر کارکردگی دکھاتا है۔ یہ ان میں ممتاز ہے:

Code Completion: اگلی چند لائنوں کی درست پیش گوئی۔
Refactoring: قدیم کوڈ کو جدید معیارات کے مطابق دوبارہ لکھنا۔
Test Generation: فراہم کردہ فنکشنز کے لیے خودکار یونٹ ٹیسٹس لکھنا۔

3. ایجینٹک ورک فلو آپٹیمائزیشن

ماڈل کو AI ایجنٹس کے لیے "بیک اینڈ دماغ" کے طور پر کام کرنے کے لیے فائن ٹیون کیا گیا ہے۔ یہ Function Calling (Tool Use) کو نیٹو طور پر سپورٹ کرتا ہے، جس سے یہ متعلقہ ٹولز سے منسلک ہونے پر قابلِ اعتماد انداز میں ڈیٹابیسز سے سوالات، Python اسکرپٹس چلانے، یا ویب براؤز کرنے کے قابل ہوتا ہے۔ اس کی بلند تھروپٹ (tokens per second) اسے ایجنٹ لوپس کے لیے مثالی بناتی ہے جہاں لیٹنسی تیزی سے جمع ہو سکتی ہے۔

ہارڈویئر مطابقت

MoE نوعیت کی وجہ سے، GLM-4.7-Flash ہارڈویئر کے لحاظ سے حیران کن حد تک لچکدار ہے۔

کم از کم VRAM (4-bit quant): ~16 GB (RTX 3090/4090، Mac Studio M1/M2/M3 Max پر چلنے کے قابل)
تجویز کردہ VRAM (BF16): ~64 GB (فل پریسیژن، A6000 یا Mac Studio Ultra درکار)
Apple Silicon سپورٹ: Metal (MLX) کے لیے انتہائی آپٹیمائزڈ، M3 Max چیپس پر 60-80 ٹوکنز فی سیکنڈ حاصل کرتا ہے

GLM-4.7-Flash کا مقابلہ حریفوں سے کیسا ہے؟

مقامی LLM اسپیس کے موجودہ رہنماؤں، یعنی Qwen سیریز اور Llama سیریز، سے تقابل کے ذریعے GLM-4.7-Flash کی قدر کو سمجھا جا سکتا ہے۔

خصوصیت	GLM-4.7-Flash	Qwen-2.5-Coder-32B	Llama-3.3-70B
ساخت	30B MoE (3B Active)	32B Dense	70B Dense
انفرنس کی رفتار	بہت زیادہ (تقریباً ~7B ماڈلز کے مساوی)	درمیانہ	کم
کوڈنگ مہارت	عمدہ (خصوصی)	عمدہ	اچھی
کانٹیکسٹ ونڈو	200k	128k	128k
VRAM درکار	کم (~16-18GB @ 4-bit)	درمیانی (~20GB @ 4-bit)	زیادہ (~40GB @ 4-bit)
استدلال	بلٹ اِن Thinking Mode	معیاری CoT	معیاری CoT

حتمی رائے: GLM-4.7-Flash "سویٹ اسپاٹ" پیش کرتا ہے۔

یہ فعال پیرا میٹرز کم ہونے کے باعث Qwen-2.5-32B سے نمایاں طور پر تیز ہے، پھر بھی وسیع کل پیرا میٹر کاؤنٹ اور خصوصی ٹریننگ کی بدولت کوڈنگ ٹاسکس میں اس کے برابر یا بہتر ہے۔ 24GB VRAM GPUs (جیسے RTX 3090/4090) رکھنے والے صارفین کے لیے، GLM-4.7-Flash بلاشبہ آج دستیاب بہترین "قدر بمقابلہ قیمت" ماڈل ہے۔

GLM-4.7-Flash کو مقامی طور پر کیسے انسٹال اور استعمال کریں (3 طریقے)

ذیل میں تین عملی، آزمودہ طریقے ہیں جن سے آپ GLM-4.7-Flash مقامی طور پر چلا سکتے ہیں۔ ہر طریقے کے ساتھ کاپی-پیسٹ کمانڈز اور مختصر وضاحتیں دی گئی ہیں تاکہ آپ اپنے ہارڈویئر اور اہداف کے مطابق ورک فلو چن سکیں۔

کور کیے گئے تین طریقے:

vLLM — پروڈکشن گریڈ انفرنس سرور جس میں GPU شیڈولنگ اور بیچنگ ہے۔ ملٹی-یوزر یا API طرز سیٹ اپ کے لیے بہترین۔
Ollama — سادہ لوکل ماڈل مینیجر/رن ٹائم (جلدی تجربات اور ڈیسک ٹاپ یوزرز کے لیے موزوں)۔ نوٹ: کچھ ریلیزز کے لیے پری ریلیز Ollama ورژن درکار ہوتا ہے۔
llama.cpp / GGUF with Flash Attention — کمیونٹی ڈرِون، کم از کم، تیز راستہ کوانٹائزڈ GGUF ماڈلز کے لیے (سنگل-GPU اور کم لیٹنسی ضروریات کے لیے موزوں)۔ اکثر Flash Attention سپورٹ کے لیے خصوصی برانچز درکار ہوتی ہیں۔

API استعمال

جو لوگ انفراسٹرکچر مینیج نہیں کرنا چاہتے، ان کے لیے CometAPI پر GLM-4.7 API دستیاب ہے۔

CometAPI میں GLM-4.7 API کیوں استعمال کریں؟ یہ GLM-4.7-flash کے مقابلے میں نمایاں طور پر بہتر کارکردگی دیتا ہے، اور CometAPI اس وقت Zhipu کے موجودہ GLM-4.7 API سے زیادہ سستا ہے۔ CometAPI میں GLM-4.7 API کیوں استعمال کریں؟ یہ GLM-4.7-flash کے مقابلے میں نمایاں طور پر بہتر کارکردگی دیتا ہے، اور CometAPI فی الحال Zhipu کے GLM-4.7 API سے سستا ہے۔ اگر آپ کارکردگی اور قیمت کے درمیان توازن چاہتے ہیں تو CometAPI بہترین انتخاب ہے۔

ان پٹ ٹوکنز: $0.44/M
آؤٹ پٹ ٹوکنز: $1.78/M

vLLM کے ساتھ GLM-4.7-Flash کیسے چلاؤں؟

بہترین برائے: پروڈکشن ڈپلائمنٹ، ہائی تھروپٹ، سرور ماحول۔
vLLM ایک ہائی پرفارمنس لائبریری ہے جو PagedAttention استعمال کرتی ہے تاکہ انفرنس اسپیڈ کو زیادہ سے زیادہ بنایا جا سکے۔ اگر آپ کوئی ایپ یا ایجنٹ بنا رہے ہیں تو ماڈل سرو کرنے کے لیے یہی تجویز کردہ طریقہ ہے۔

مرحلہ 1: vLLM انسٹال کریں

آپ کو CUDA سپورٹ کے ساتھ لینکس ماحول درکار ہے (Windows پر WSL2 کام کرتا ہے)۔

bash
pip install vllm

مرحلہ 2: ماڈل کو سرو کریں

سرور کو Hugging Face ریپوزٹری کی طرف پوائنٹ کر کے چلائیں۔ یہ خودکار طور پر ویٹس ڈاؤن لوڈ کرے گا (یقینی بنائیں کہ ضرورت ہو تو آپ نے huggingface-cli لاگ اِن سیٹ اپ کر رکھا ہے، اگرچہ GLM عموماً پبلک ہوتا ہے)۔

bash
# This command launches an OpenAI-compatible API server
vllm serve zai-org/GLM-4.7-Flash \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --dtype bfloat16

ٹِپ: اگر آپ کے پاس ایک سے زیادہ GPUs ہیں تو --tensor-parallel-size بڑھائیں۔

مرحلہ 3: OpenAI SDK کے ذریعے کنیکٹ کریں

چونکہ vLLM OpenAI-مطابق اینڈپوائنٹ فراہم کرتا ہے، آپ اسے آسانی سے موجودہ کوڈ بیسز میں استعمال کر سکتے ہیں۔

pythonfrom openai import OpenAI# Point to your local vLLM serverclient = OpenAI(    base_url="http://localhost:8000/v1",    api_key="EMPTY"  # vLLM doesn't require a key by default)completion = client.chat.completions.create(    model="zai-org/GLM-4.7-Flash",    messages=[        {"role": "system", "content": "You are an expert coding assistant."},        {"role": "user", "content": "Explain the difference between TCP and UDP."}    ])print(completion.choices[0].message.content)

نوٹس اور تجاویز

--tensor-parallel-size اور speculative-config فلیگز ایسے مثالیں ہیں جنہیں کمیونٹی گائیڈز MoE ماڈلز کے لیے تھروپٹ آپٹیمائز کرنے کی خاطر تجویز کرتی ہیں۔ انہیں GPU کی تعداد اور میموری کے مطابق ایڈجسٹ کریں۔
vLLM کو اکثر تازہ ترین ماڈل ٹیمپلیٹس کے لیے transformers/vLLM کی مین برانچز درکار ہوتی ہیں؛ اگر ایررز دکھیں تو لائبریریز کے GitHub ورژنز انسٹال کریں (pip install git+https://github.com/huggingface/transformers.git) جیسا کہ کمیونٹی گائیڈز مشورہ دیتی ہیں۔

Ollama کے ساتھ GLM-4.7-Flash کیسے چلاؤں؟

Ollama ایک یوزر فرینڈلی لوکل رن ٹائم ہے جو GGUF ماڈلز کو ڈاؤن لوڈ اور چلانا آسان بناتا ہے۔ Ollama کی لائبریری پیج پر GLM-4.7-Flash کے لیے آفیشل انٹری موجود ہے۔

کب استعمال کریں: جب آپ Mac/Windows/Linux پر کم سے کم آپریشنل کام کے ساتھ مقامی طور پر آسان راستہ چاہتے ہوں، اور CLI، Python، یا لوکل REST API کے ذریعے ماڈل تک تیز رسائی درکار ہو۔

ابتدائی تیاری

Ollama انسٹال کریں (ڈیسک ٹاپ/لوکل رن ٹائم)۔ glm-4.7-flash کے لیے Ollama کی لائبریری پیج میں یوزج مثالیں موجود ہیں؛ وہاں نوٹ ہے کہ کچھ ماڈل بلڈز کو Ollama 0.14.3 یا بعد کا ورژن (اس تحریر کے وقت پری ریلیز) درکار ہے۔ Ollama کا ورژن تصدیق کریں۔

اقدامات

Ollama انسٹال کریں (اپنے OS کے لیے آفیشل ہدایات پر عمل کریں)۔
ماڈل پل کریں (Ollama پیکجڈ بلڈ خود لائے گا):

ollama pull glm-4.7-flash

ایک انٹرایکٹو سیشن چلائیں:

ollama run glm-4.7-flash
# or use the REST endpoint:
curl http://localhost:11434/api/chat \
  -d '{
    "model": "glm-4.7-flash",
    "messages": [{"role": "user", "content": "Write a unit test in pytest for a function that reverses a string."}]
  }'

Ollama SDKs استعمال کریں (Python مثال):

from ollama import chat

response = chat(
    model='glm-4.7-flash',
    messages=[{'role': 'user', 'content': 'Explain how binary search works.'}],
)
print(response.message.content)

ایڈوانسڈ سرور استعمال

# run an Ollama server accessible to your apps (example)
ollama serve --model zai-org/GLM-4.7-Flash --port 11434

نوٹس اور تجاویز

Ollama پر GLM-4.7-Flash کے لیے Ollama 0.14.3 یا اس جیسا ورژن درکار ہوتا ہے۔
Ollama فارمیٹ ہینڈلنگ (GGUF وغیرہ) خودکار بناتا ہے، جو کنزیومر GPUs پر کوانٹائزڈ بلڈز چلانا آسان کرتا ہے۔
Ollama ایک لوکل REST API ایکسپوز کرتا ہے، جو لوکل ایپس سے انٹیگریشن کے لیے مفید ہے۔

llama.cpp / GGUF اور Flash Attention کے ساتھ GLM-4.7-Flash کیسے چلاؤں؟

یہ ہائبرڈ راستہ ان یوزرز کے لیے شاندار ہے جو زیادہ سے زیادہ کنٹرول، لو لیول آپشنز، یا سنگل-GPU کم از کم رن ٹائم چاہتے ہیں۔ کمیونٹی نے GGUF کوانٹائزڈ آرٹیفیکٹس (Q4_K، Q8_0 وغیرہ) اور llama.cpp کی چھوٹی برانچز تیار کی ہیں جو FlashAttention اور MoE / deepseek gating کو قابل بناتی ہیں تاکہ درست آؤٹ پٹس اور تیز رفتاری حاصل ہو۔

آپ کو کیا درکار ہے

ایک کوانٹائزڈ GGUF ماڈل بلا‌ب (Hugging Face یا دیگر کمیونٹی ہبز سے ڈاؤن لوڈ ایبل)۔ مثال: ngxson/GLM-4.7-Flash-GGUF۔
llama.cpp کی ایسی کمیونٹی برانچ جس میں GLM-4.7/Flash attention سپورٹ شامل ہو (کچھ کمیونٹی برانچز ضروری تبدیلیاں شامل کرتی ہیں)۔ کمیونٹی پوسٹس میں حوالہ دی گئی مثال برانچ: am17an/llama.cpp بمع glm_4.7_headsize۔

بلڈ اور رن کی مثال (Linux)

# 1. clone a llama.cpp branch with GLM-4.7 / flash-attention patches
git clone --branch glm_4.7_headsize https://github.com/am17an/llama.cpp.git
cd llama.cpp
make

# 2. download GGUF (example uses Hugging Face)
#    You can use huggingface_hub or hf_transfer to download
python -c "from huggingface_hub import hf_hub_download; hf_hub_download('ngxson/GLM-4.7-Flash-GGUF','GLM-4.7-Flash.gguf')"

# 3. Run with flash attention and proper override flags (community recommended)
./main -m GLM-4.7-Flash.gguf --override-kv deepseek2.expert_gating_func=int:2 \
  --ctx 32768 \
  --threads 8 \
  --n_predict 512

نوٹس اور تجاویز: چونکہ GLM-4.7-Flash ایک MoE ماڈل ہے، بعض رن ٹائمز کو گیٹنگ/ایکسپرٹ روٹنگ کے لیے خاص ہینڈلنگ درکار ہوتی ہے (اسی لیے override فلیگز)۔ اگر ماڈل چلانے پر ہیلوسینیٹڈ یا خراب آؤٹ پٹس نظر آئیں تو کسی تازہ کمیونٹی برانچ کی جانچ کریں۔

GLM-4.7-Flash کے ساتھ کون سی کنفیگریشن اور پرامپٹس بہترین کام کرتے ہیں؟

تجویز کردہ سیٹنگز

ڈیفالٹ سیمپلنگ (عمومی): temperature: 1.0, top-p: 0.95, اور استعمال کے مطابق بڑا max_new_tokens — ماڈل کارڈ میں ملٹی-ٹرن/ایجینٹک ایویلیوایشنز کے لیے ڈیفالٹس اور خاص سیٹنگز دی گئی ہیں۔ ڈیٹرمنسٹک کوڈنگ رنز کے لیے کم temperature (0–0.7) عام ہے۔
Thinking / محفوظ شدہ استدلال: پیچیدہ ایجینٹک یا ملٹی اسٹیپ ٹاسکس کے لیے ماڈل کا “thinking” / preserved reasoning موڈ فعال کریں جیسا کہ دستاویز میں درج ہے (Z.AI thinking فلیگز اور پارسنگ یوٹیلٹیز فراہم کرتا ہے)۔
Speculative decoding اور کارکردگی: سرور اسٹیکس میں speculative decoding (vLLM) اور EAGLE طرز کی حکمت عملیاں (SGLang) لیٹنسی کم کرتے ہوئے معیار کو برقرار رکھنے کے لیے تجویز کی جاتی ہیں۔

کوڈنگ ٹاسکس کے لیے پرامپٹ انجینئرنگ تجاویز

واضح ہدایات دیں: "You are an expert software engineer. Provide code only." سے آغاز کریں، پھر ایک ٹیسٹ مثال دیں۔
پابندیاں شامل کریں (لینگویج ورژن، لنٹرز، کناروں کے کیسز)۔
یونٹ ٹیسٹس اور مختصر وضاحت مانگیں تاکہ مینٹی نیبلٹی بہتر ہو۔
ملٹی اسٹیپ ٹاسکس کے لیے، اگر دستیاب ہو تو ماڈل کو "think then act" کی ہدایت دیں؛ اس سے مراحل کی ترتیب اور محفوظ ٹول کالز میں مدد ملتی ہے۔

ٹرابل شوٹنگ، پابندیاں اور آپریشنل غور و فکر

عام مسائل اور تدارک

میموری ایررز / OOM: چھوٹا کوانٹائزڈ ویریانٹ (q4/q8) منتخب کریں یا llama.cpp GGUF کوانٹائزڈ رن ٹائم پر منتقل ہوں۔ Ollama اور LM Studio چھوٹے ویریانٹس اور ان کی میموری فٹ پرنٹس فہرست کرتے ہیں۔
زیادہ temperature/“thinking” موڈ پر سست رسپانس: temperature کم کریں یا speculative decoding استعمال کریں / "thinking" کی verbosity کم کریں تاکہ رفتار بڑھے؛ Ollama میں کچھ صارفین نے ری اسٹارٹس کے بعد تھروپٹ کی تبدیلیاں رپورٹ کی ہیں — وسائل کے استعمال کی نگرانی کریں۔ کمیونٹی تبصرے temperature کے "thinking" دورانیہ پر اثر کے حساس ہونے کی نشاندہی کرتے ہیں۔
API بمقابلہ مقامی parity: کلاؤڈ/ہوسٹڈ GLM-4.7 رنز میں اضافی آپٹیمائزیشنز یا مختلف کوانٹائزڈ آرٹیفیکٹس ہو سکتے ہیں؛ parity کی تصدیق کے لیے نمائندہ پرامپٹس کے ساتھ مقامی ٹیسٹ کریں۔

سکیورٹی اور گورننس

چاہے لائسنسنگ نرم ہی کیوں نہ ہو، ماڈل آؤٹ پٹس کو غیر اعتبار شدہ سمجھیں اور اس وقت معیاری مواد فلٹرنگ اور سیفٹی چیکس لاگو کریں جب آؤٹ پٹس پروڈکشن راستوں میں جائیں (خصوصاً وہ کوڈ جو خودکار طور پر چلایا جائے گا)۔ تیار کردہ اسکرپٹس کے لیے سینڈ باکسنگ، اور تیار کردہ کوڈ کے لیے CI چیکس استعمال کریں۔

نتیجہ

GLM-4.7-Flash کی ریلیز اوپن ویٹ AI کی پختگی کا اہم سنگ میل ہے۔ طویل عرصے تک صارفین کو رفتار (ایسے 7B ماڈلز جو بہت ذہین نہیں تھے) اور ذہانت (ایسے 70B ماڈلز جو سست اور مہنگے تھے) کے درمیان انتخاب करना پڑتا تھا۔ GLM-4.7-Flash نے اس خلا کو مؤثر طریقے سے پُر کر دیا ہے۔

اگر آپ بہتر GLM-4.7 چاہتے ہیں اور ساتھ ہی بہتر قیمت بھی، تو CometAPI بہترین انتخاب ہے۔

ڈویلپرز CometAPI کے ذریعے GLM-4.7 API تک رسائی حاصل کر سکتے ہیں، تازہ ترین ماڈلز اس مضمون کی اشاعت کی تاریخ تک درج ہیں۔ آغاز کے لیے، ماڈل کی صلاحیتیں Playground میں دریافت کریں اور تفصیلی ہدایات کے لیے API گائیڈ دیکھیں۔ رسائی سے پہلے، براہ کرم یقین کر لیں کہ آپ CometAPI میں لاگ اِن ہیں اور API کلید حاصل کر چکے ہیں۔ CometAPI انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کرتا ہے۔

CometAPI کے ذریعے ChatGPT ماڈلز تک رسائی حاصل کریں، اور شروعات کریں!

تیار ہیں؟ → آج ہی GLM-4.7 کے لیے سائن اپ کریں !