GLM-4.7-Flash คือสมาชิก MoE แบบ A3B ขนาด 30B ที่มีน้ำหนักเบาและประสิทธิภาพสูงในตระกูล GLM-4.7 ออกแบบมาเพื่อการดีพลอยในเครื่องและต้นทุนต่ำสำหรับงานเขียนโค้ด เวิร์กโฟลว์เชิงเอเจนต์ และการให้เหตุผลทั่วไป คุณสามารถรันในเครื่องได้ 3 วิธีที่ใช้งานได้จริง: (1) ผ่าน Ollama (รันไทม์โลคอลแบบจัดการ ใช้งานง่าย), (2) ผ่าน Hugging Face / Transformers / vLLM / SGLang (ดีพลอยเซิร์ฟเวอร์เน้น GPU), หรือ (3) ผ่าน GGUF + llama.cpp / llama-cpp-python (เป็นมิตรกับ CPU/อุปกรณ์ปลายทาง)
GLM-4.7-Flash คืออะไร?
GLM-4.7-Flash เป็นสมาชิกใหม่ล่าสุดของตระกูล General Language Model (GLM) ที่พัฒนาโดย Zhipu AI ทำหน้าที่เป็นรุ่นพี่น้องที่ปรับแต่งด้านความเร็วของรุ่นเรือธง GLM-4.7 ขณะที่รุ่นเรือธงมุ่งเป้าไปที่งานให้เหตุผลขนาดใหญ่บนคลาวด์ รุ่น “Flash” ถูกออกแบบมาเฉพาะเพื่อความเร็ว ความคุ้มค่า และความสะดวกในการดีพลอยแบบโลคอล โดยแทบไม่สูญเสียประสิทธิภาพในโดเมนหลักอย่างการเขียนโค้ดและตรรกะ
สถาปัตยกรรม: 30B-A3B MoE
ลักษณะทางเทคนิครูปแบบที่โดดเด่นของ GLM-4.7-Flash คือสถาปัตยกรรมแบบ 30B-A3B Mixture-of-Experts (MoE)
- พารามิเตอร์รวม: ประมาณ 30 พันล้าน
- พารามิเตอร์ที่ใช้งานจริงต่อโทเคน: ประมาณ 3 พันล้าน
ในโมเดลแบบ “dense” ดั้งเดิม ทุกพารามิเตอร์จะถูกใช้งานสำหรับทุกโทเคนที่ถูกสร้าง ซึ่งใช้พลังประมวลผลมหาศาล ตรงกันข้าม GLM-4.7-Flash จะเปิดใช้งานเพียงบางส่วนของ “experts” (ราว 3 พันล้านพารามิเตอร์) ต่อโทเคน
สิ่งนี้ทำให้โมเดลสามารถเก็บความรู้จำนวนมาก (เทียบได้กับโมเดล dense ขนาด 30B) ขณะเดียวกันก็รักษาความเร็วและเวลาแฝงในระดับของโมเดลขนาดเล็กประมาณ 3B
สถาปัตยกรรมนี้คือกุญแจสำคัญที่ทำให้รันบนฮาร์ดแวร์ผู้บริโภคได้ พร้อมทำผลงานเหนือกว่าโมเดล dense ที่ใหญ่กว่าในการทดสอบมาตรฐานต่างๆ
หน้าต่างบริบทและโหมดการใช้งาน
โมเดลมีหน้าต่างบริบทที่โดดเด่นถึง 200,000 โทเคน (200k) ช่วยให้กลืนข้อมูลทั้งรีโพซิทอรีโค้ด เอกสารเทคนิคยาวๆ หรือประวัติแชทยืดยาวได้ในพรอมป์ตเดียว เป็นโมเดลแบบรับข้อความเข้า-ส่งข้อความออกเป็นหลัก แต่ผ่านการปรับแต่งอย่างเข้มข้นเพื่อการทำตามคำสั่งและเวิร์กโฟลว์เชิงเอเจนต์ที่ซับซ้อน
คุณสมบัติเด่นของ GLM-4.7-Flash มีอะไรบ้าง?
GLM-4.7-Flash ไม่ใช่แค่ “โมเดลเปิดอีกตัว” แต่มาพร้อมคุณสมบัติเฉพาะที่ตอบโจทย์นักพัฒนาโดยตรง
1. “โหมดคิด” (System 2 Reasoning)
หนึ่งในคุณสมบัติที่ถูกพูดถึงมากคือ “กระบวนการคิด” แบบบูรณาการ ได้แรงบันดาลใจจากห่วงโซ่เหตุผลของโมเดลอย่าง o1 ของ OpenAI โดย GLM-4.7-Flash สามารถถูกสั่งให้ “คิด” ก่อนตอบ
- วิเคราะห์คำขอ: แยกย่อยพรอมป์ตของผู้ใช้เพื่อเข้าใจเจตนาหลัก
- ระดมความคิดและวางแผน: ร่างแนวทางแก้ปัญหาหรือโครงสร้างโค้ด
- แก้ไขตัวเอง: หากตรวจพบข้อบกพร่องเชิงตรรกะระหว่างการคิดภายใน จะปรับแก้ก่อนสร้างคำตอบสุดท้าย
- เอาต์พุตสุดท้าย: นำเสนอคำตอบที่ขัดเกลาแล้ว
ความสามารถนี้ทำให้โดดเด่นเป็นพิเศษในการดีบักโค้ดที่ซับซ้อน แก้ปัญหาเชิงคณิตศาสตร์ และจัดการปริศนาตรรกะหลายขั้นตอนที่โมเดลขนาดเล็กมักเกิดอาการหลอน
2. ความสามารถด้านการเขียนโค้ดระดับแนวหน้า
ผลทดสอบจาก Zhipu AI และการยืนยันโดยบุคคลที่สามชี้ว่า GLM-4.7-Flash ทำผลงานได้เหนือคู่แข่งอย่าง Qwen-2.5-Coder-32B และ DeepSeek-V3-Lite ในงานโค้ดบางประเภท โดดเด่นใน:
- การเติมโค้ด (Code Completion): คาดเดาบรรทัดถัดไปได้อย่างแม่นยำ
- การรีแฟกเตอร์: เขียนโค้ดเก่าให้เป็นมาตรฐานสมัยใหม่
- การสร้างเทสท์: เขียนยูนิตเทสท์สำหรับฟังก์ชันที่ให้มาโดยอัตโนมัติ
3. การปรับให้เหมาะกับเวิร์กโฟลว์เชิงเอเจนต์
โมเดลถูกฟाइनจูนให้ทำงานเป็น “สมองฝั่งแบ็กเอนด์” ของเอเจนต์ AI รองรับ Function Calling (การใช้เครื่องมือ) ตามค่าเริ่มต้น ทำให้สอบถามฐานข้อมูล รันสคริปต์ Python หรือท่องเว็บได้ หากเชื่อมต่อกับเครื่องมือที่เหมาะสม อัตราการประมวลผลโทเคนต่อวินาทีที่สูงทำให้เหมาะกับลูปของเอเจนต์ที่เวลาแฝงสะสมได้รวดเร็ว
ความเข้ากันได้ของฮาร์ดแวร์
ด้วยธรรมชาติแบบ MoE, GLM-4.7-Flash จึง “ใจดี” ต่อฮาร์ดแวร์อย่างน่าประหลาดใจ
- VRAM ขั้นต่ำ (4-bit quant): ประมาณ 16 GB (รันได้บน RTX 3090/4090, Mac Studio M1/M2/M3 Max)
- VRAM ที่แนะนำ (BF16): ประมาณ 64 GB (ความแม่นยำเต็ม ต้องใช้ A6000 หรือ Mac Studio Ultra)
- รองรับ Apple Silicon: ปรับให้เหมาะกับ Metal (MLX) อย่างมาก ทำความเร็วได้ 60-80 โทเคนต่อวินาทีบนชิป M3 Max
GLM-4.7-Flash เทียบกับคู่แข่งอย่างไร?
เพื่อเข้าใจคุณค่า เราต้องเทียบกับผู้นำในวงการ LLM แบบรันโลคอล: ตระกูล Qwen และ Llama
| คุณสมบัติ | GLM-4.7-Flash | Qwen-2.5-Coder-32B | Llama-3.3-70B |
|---|---|---|---|
| สถาปัตยกรรม | 30B MoE (3B Active) | 32B Dense | 70B Dense |
| ความเร็วอินเฟอเรนซ์ | สูงมาก (เทียบชั้น ~7B models) | ปานกลาง | ต่ำ |
| ความเก่งด้านโค้ด | ยอดเยี่ยม (เชี่ยวชาญเฉพาะทาง) | ยอดเยี่ยม | ดี |
| หน้าต่างบริบท | 200k | 128k | 128k |
| ความต้องการ VRAM | ต่ำ (~16-18GB @ 4-bit) | ปานกลาง (~20GB @ 4-bit) | สูง (~40GB @ 4-bit) |
| การให้เหตุผล | โหมดคิดแบบเนทีฟ | CoT มาตรฐาน | CoT มาตรฐาน |
ข้อสรุป: GLM-4.7-Flash อยู่ใน “จุดลงตัว”
มีความเร็วเหนือกว่า Qwen-2.5-32B อย่างมากเพราะจำนวนพารามิเตอร์ที่ใช้งานจริงน้อยกว่า แต่ให้ผลงานเทียบเท่าหรือดีกว่าในงานโค้ด ด้วยจำนวนพารามิเตอร์รวมมหาศาลและการฝึกเฉพาะด้าน สำหรับผู้ใช้ที่มีการ์ดจอ VRAM 24GB (เช่น RTX 3090/4090) GLM-4.7-Flash ถือเป็นโมเดลที่ “คุ้มค่าที่สุด” ในตอนนี้
วิธีติดตั้งและใช้งาน GLM-4.7-Flash ในเครื่อง (3 วิธี)
ต่อไปนี้คือ 3 วิธีที่ใช้งานได้จริงและผ่านการทดสอบในการรัน GLM-4.7-Flash ในเครื่อง แต่ละวิธีมีคำสั่งพร้อมวางและคำอธิบายสั้นๆ เพื่อให้คุณเลือกเวิร์กโฟลว์ให้เหมาะกับฮาร์ดแวร์และเป้าหมายของคุณ
สามแนวทางที่ครอบคลุม:
- vLLM — เซิร์ฟเวอร์อินเฟอเรนซ์เกรดโปรดักชัน มีการจัดสรร GPU และ batching เหมาะสำหรับหลายผู้ใช้หรือการใช้งานแบบ API
- Ollama — รันไทม์โมเดลโลคอลใช้งานง่าย (ดีสำหรับทดลองเร็วและผู้ใช้เดสก์ท็อป) หมายเหตุ: บางรุ่นต้องใช้ Ollama เวอร์ชัน pre-release
- llama.cpp / GGUF with Flash Attention — เส้นทางชุมชน แบบมินิมอล รวดเร็ว สำหรับโมเดล GGUF แบบ quantized (เหมาะกับ GPU เดียวและความหน่วงต่ำ) มักต้องใช้สาขาพิเศษเพื่อรองรับ flash attention
การใช้งานผ่าน API
สำหรับผู้ที่ไม่อยากจัดการโครงสร้างพื้นฐาน CometAPI มี API ของ GLM-4.7 ให้ใช้
ทำไมต้องใช้ GLM-4.7 API ใน CometAPI? ให้ประสิทธิภาพดีกว่า GLM-4.7 flash อย่างเห็นได้ชัด และ CometAPI ยังมีราคาถูกกว่าบริการ GLM-4.7 ปัจจุบันของ Zhipu ทำไมต้องใช้ GLM-4.7 API ใน CometAPI? ให้ประสิทธิภาพดีกว่า GLM-4.7-flash อย่างชัดเจน และตอนนี้ CometAPI มีราคาถูกกว่า GLM-4.7 API ของ Zhipu หากต้องการสมดุลระหว่างประสิทธิภาพและราคา CometAPI เป็นตัวเลือกที่ดีที่สุด
- โทเคนขาเข้า: $0.44/M
- โทเคนขาออก: $1.78/M
ฉันจะรัน GLM-4.7-Flash ด้วย vLLM ได้อย่างไร?
เหมาะสำหรับ: ดีพลอยโปรดักชัน อัตราผ่านสูง สภาพแวดล้อมเซิร์ฟเวอร์
vLLM เป็นไลบรารีประสิทธิภาพสูงที่ใช้ PagedAttention เพื่อเร่งความเร็วอินเฟอเรนซ์ นี่คือวิธีที่แนะนำหากคุณกำลังสร้างแอปหรือเอเจนต์
ขั้นตอนที่ 1: ติดตั้ง vLLM
ต้องใช้สภาพแวดล้อม Linux ที่รองรับ CUDA (WSL2 บน Windows ก็ใช้ได้)
bash
pip install vllm
ขั้นตอนที่ 2: เปิดให้บริการโมเดล
รันเซิร์ฟเวอร์โดยชี้ไปยังรีโพซิทอรีบน Hugging Face ระบบจะดาวน์โหลดเวทให้อัตโนมัติ (ตรวจสอบให้แน่ใจว่าตั้งค่า huggingface-cli login แล้วหากจำเป็น แม้โดยปกติ GLM จะเป็นสาธารณะ)
bash
# This command launches an OpenAI-compatible API server
vllm serve zai-org/GLM-4.7-Flash \
--trust-remote-code \
--tensor-parallel-size 1 \
--dtype bfloat16
ทิป: หากมีหลาย GPU ให้เพิ่มค่า --tensor-parallel-size.
ขั้นตอนที่ 3: เชื่อมต่อผ่าน OpenAI SDK
เนื่องจาก vLLM ให้เอ็นด์พอยต์ที่เข้ากันได้กับ OpenAI คุณจึงแทรกเข้าโค้ดเบสที่มีอยู่ได้ง่าย
pythonfrom openai import OpenAI# Point to your local vLLM serverclient = OpenAI( base_url="http://localhost:8000/v1", api_key="EMPTY" # vLLM doesn't require a key by default)completion = client.chat.completions.create( model="zai-org/GLM-4.7-Flash", messages=[ {"role": "system", "content": "You are an expert coding assistant."}, {"role": "user", "content": "Explain the difference between TCP and UDP."} ])print(completion.choices[0].message.content)
บันทึกและทิป
- แฟล็ก
--tensor-parallel-sizeและspeculative-configเป็นตัวอย่างที่ชุมชนแนะนำเพื่อเพิ่ม throughput สำหรับโมเดล MoE ปรับตามจำนวน GPU และหน่วยความจำ - vLLM มักต้องใช้สาขาหลักของ transformers/vLLM เพื่อรองรับเทมเพลตโมเดลล่าสุด หากพบข้อผิดพลาด ให้ติดตั้งไลบรารีเวอร์ชัน GitHub (
pip install git+https://github.com/huggingface/transformers.git) ตามคำแนะนำชุมชน
ฉันจะรัน GLM-4.7-Flash ด้วย Ollama ได้อย่างไร?
Ollama เป็นรันไทม์โลคอลที่เป็นมิตรกับผู้ใช้ ช่วยให้ดาวน์โหลดและรันโมเดล GGUF ได้อย่างตรงไปตรงมา หน้าไลบรารีของ Ollama มีรายการทางการสำหรับ GLM-4.7-Flash
ควรใช้เมื่อใด: เมื่อคุณต้องการเส้นทางที่ง่ายที่สุดในการรันบน Mac/Windows/Linux โดยงานโอเปอเรชันน้อย และเข้าถึงโมเดลผ่าน CLI, Python หรือ REST API โลคอลได้อย่างรวดเร็ว
ตรวจสอบก่อนเริ่ม
ติดตั้ง Ollama (รันไทม์เดสก์ท็อป/โลคอล) หน้าไลบรารีของ Ollama สำหรับ glm-4.7-flash มีตัวอย่างการใช้งาน และระบุว่าบางบิลด์ต้องใช้ Ollama 0.14.3 หรือใหม่กว่า (ขณะเผยแพร่ยังเป็น pre-release) ตรวจสอบเวอร์ชัน Ollama ให้เรียบร้อย
ขั้นตอน
- ติดตั้ง Ollama (ทำตามคำแนะนำการดาวน์โหลด/ติดตั้งอย่างเป็นทางการตามระบบปฏิบัติการของคุณ)
- ดึงโมเดล (Ollama จะดาวน์โหลดบิลด์ที่แพ็กเกจไว้ให้)
ollama pull glm-4.7-flash
- รันเซสชันแบบโต้ตอบ:
ollama run glm-4.7-flash
# or use the REST endpoint:
curl http://localhost:11434/api/chat \
-d '{
"model": "glm-4.7-flash",
"messages": [{"role": "user", "content": "Write a unit test in pytest for a function that reverses a string."}]
}'
- ใช้ Ollama SDKs (ตัวอย่าง Python):
from ollama import chat
response = chat(
model='glm-4.7-flash',
messages=[{'role': 'user', 'content': 'Explain how binary search works.'}],
)
print(response.message.content)
การใช้งานเซิร์ฟเวอร์ขั้นสูง
# run an Ollama server accessible to your apps (example)
ollama serve --model zai-org/GLM-4.7-Flash --port 11434
บันทึกและทิป
- GLM-4.7-Flash บน Ollama ต้องใช้ Ollama 0.14.3 หรือใกล้เคียง
- Ollama จัดการฟอร์แมต (เช่น GGUF) ให้โดยอัตโนมัติ ทำให้ง่ายต่อการรันบิลด์แบบ quantized บน GPU สำหรับผู้ใช้ทั่วไป
- Ollama มี REST API โลคอล เหมาะสำหรับผนวกกับแอปโลคอล
ฉันจะรัน GLM-4.7-Flash ด้วย llama.cpp / GGUF และ Flash Attention ได้อย่างไร?
เส้นทางผสมนี้เหมาะสำหรับผู้ใช้ที่ต้องการการควบคุมสูง ตัวเลือกระดับล่าง หรือรันไทม์แบบมินิมอลบน GPU เดียว ชุมชนได้สร้างอาร์ติแฟกต์ GGUF แบบ quantized (Q4_K, Q8_0 เป็นต้น) และสาขาย่อยของ llama.cpp เพื่อเปิดใช้ FlashAttention และการจัดการ MoE/deepseek gating เพื่อให้ได้เอาต์พุตถูกต้องและความเร็วสูง
สิ่งที่คุณต้องมี
- ไฟล์โมเดล GGUF แบบ quantized (ดาวน์โหลดได้จาก Hugging Face หรือศูนย์ชุมชนอื่น) ตัวอย่าง:
ngxson/GLM-4.7-Flash-GGUF llama.cppพร้อมสาขาชุมชนที่รองรับ GLM-4.7/Flash attention (มีสาขาชุมชนที่เพิ่มส่วนเปลี่ยนแปลงที่จำเป็น) ตัวอย่างสาขาที่มีการอ้างอิงในโพสต์ชุมชน:am17an/llama.cppพร้อมglm_4.7_headsize
ตัวอย่างการคอมไพล์และรัน (Linux)
# 1. clone a llama.cpp branch with GLM-4.7 / flash-attention patches
git clone --branch glm_4.7_headsize https://github.com/am17an/llama.cpp.git
cd llama.cpp
make
# 2. download GGUF (example uses Hugging Face)
# You can use huggingface_hub or hf_transfer to download
python -c "from huggingface_hub import hf_hub_download; hf_hub_download('ngxson/GLM-4.7-Flash-GGUF','GLM-4.7-Flash.gguf')"
# 3. Run with flash attention and proper override flags (community recommended)
./main -m GLM-4.7-Flash.gguf --override-kv deepseek2.expert_gating_func=int:2 \
--ctx 32768 \
--threads 8 \
--n_predict 512
บันทึกและทิป: เนื่องจาก GLM-4.7-Flash เป็น MoE รันไทม์บางตัวจึงต้องการการจัดการพิเศษของ gating/expert routing (จึงมีแฟล็ก override) หากรันแล้วพบเอาต์พุตเพี้ยนหรือหลอน ให้ตรวจดูสาขาชุมชนล่าสุด
การตั้งค่าและพรอมป์ตแบบใดเหมาะกับ GLM-4.7-Flash ที่สุด?
การตั้งค่าที่แนะนำ
- Sampling เริ่มต้น (ทั่วไป):
temperature: 1.0,top-p: 0.95, ตั้งค่าmax_new_tokensให้มากพอแล้วแต่กรณี — การ์ดโมเดลมักระบุค่าเริ่มต้นและการตั้งค่าพิเศษสำหรับการประเมินแบบหลายรอบ/เชิงเอเจนต์ สำหรับงานโค้ดแบบกำหนดผลซ้ำได้ นิยมลด temperature (0–0.7) - โหมดคิด / การรักษาการให้เหตุผล: สำหรับงานเชิงเอเจนต์หรือหลายขั้นตอนที่ซับซ้อน ให้เปิด “โหมดคิด”/preserved reasoning ตามเอกสาร (Z.AI มีแฟล็กและเครื่องมือ parse)
- Speculative decoding และประสิทธิภาพ: ในสแตกเซิร์ฟเวอร์ แนะนำ speculative decoding (vLLM) และกลยุทธ์สไตล์ EAGLE (SGLang) เพื่อลด latency โดยคงคุณภาพ
ทิปด้านการออกแบบพรอมป์ตสำหรับงานโค้ด
- ใช้คำสั่งชัดเจน: เริ่มด้วย “You are an expert software engineer. Provide code only.” แล้วใส่ตัวอย่างเทสท์
- ระบุข้อจำกัด (เวอร์ชันภาษา, linters, เคสขอบ)
- ขอให้สร้างยูนิตเทสท์และคำอธิบายสั้นๆ เพื่อความดูแลง่าย
- สำหรับงานหลายขั้นตอน สั่งให้โมเดล “คิดก่อนแล้วค่อยลงมือ” หากมีโหมดนี้ จะช่วยเรื่องลำดับขั้นและการเรียกเครื่องมืออย่างปลอดภัย
การแก้ปัญหา ข้อจำกัด และประเด็นเชิงปฏิบัติการ
ปัญหาทั่วไปและแนวทางบรรเทา
- หน่วยความจำไม่พอ / OOM: เลือกตัวแปรแบบ quantized ที่เล็กลง (q4/q8) หรือย้ายไปใช้รันไทม์ GGUF ของ
llama.cppที่เป็น quantized Ollama และ LM Studio มีตัวแปรเล็กพร้อมระบุการใช้หน่วยความจำ - ตอบช้าขณะใช้ temperature สูง/“โหมดคิด”: ลด
temperatureหรือใช้ speculative decoding/ลดความยาวการ “คิด” เพื่อเร่งความเร็ว บน Ollama ผู้ใช้บางรายพบว่า throughput เปลี่ยนหลังรีสตาร์ท — เฝ้าดูการใช้ทรัพยากรไว้ ชุมชนระบุว่าโหมด “คิด” ไวต่อค่า temperature - ความต่างระหว่าง API กับโลคอล: การรัน GLM-4.7 บนคลาวด์/โฮสต์อาจมีการปรับแต่งเพิ่มหรืออาร์ติแฟกต์ quantized ต่างกัน ทดสอบโลคอลด้วยพรอมป์ตที่เป็นตัวแทนเพื่อยืนยันความใกล้เคียง
ความปลอดภัยและธรรมาภิบาล
แม้จะมีไลเซนส์ที่ผ่อนปรน ควรถือว่าเอาต์พุตของโมเดลไม่ปลอดภัยโดยกำเนิด และใช้การกรองเนื้อหา/ตรวจสอบความปลอดภัยตามมาตรฐาน หากเอาต์พุตถูกนำไปใช้ในเส้นทางโปรดักชัน (โดยเฉพาะโค้ดที่ถูกรันอัตโนมัติ) ใช้ sandbox สำหรับสคริปต์ที่สร้าง และใช้ CI เพื่อตรวจโค้ดที่สร้างขึ้น
สรุป
การเปิดตัว GLM-4.7-Flash เป็นหมุดหมายความ成熟สำหรับ AI แบบเปิดเวท มาอย่างยาวนานที่ผู้ใช้ต้องเลือกระหว่าง ความเร็ว (โมเดล 7B ที่ไม่ค่อยฉลาด) กับ ความฉลาด (โมเดล 70B ที่ช้าและแพงในการรัน) GLM-4.7-Flash เชื่อมช่องว่างนี้ได้อย่างมีประสิทธิภาพ
หากคุณต้องการ GLM-4.7 ที่ดีกว่า และต้องการราคาที่ดีกว่า CometAPI คือทางเลือกที่ดีที่สุด
นักพัฒนาสามารถเข้าถึง GLM-4.7 API ผ่าน CometAPI รายการโมเดลล่าสุดจะอ้างอิง ณ วันที่เผยแพร่บทความ เริ่มต้นได้โดยสำรวจความสามารถของโมเดลใน Playground และดู คู่มือ API เพื่อทำตามขั้นตอนละเอียด ก่อนใช้งาน โปรดล็อกอิน CometAPI และขอรับคีย์ API CometAPI มีราคาต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยให้คุณอินทิเกรตได้สะดวก
ใช้ CometAPI เพื่อเข้าถึงโมเดล chatgpt แล้วเริ่มช้อปได้เลย!
พร้อมลุยหรือยัง?→ ลงทะเบียนใช้ GLM-4.7 วันนี้!
