OpenAI GPT-OSS: اسے مقامی طور پر کیسے چلائیں یا کلاؤڈ، ہارڈ ویئر کی ضروریات پر خود میزبان

GPT-OSS رسائی کے لیے غیر معمولی طور پر اچھی طرح سے تیار کیا گیا ہے: gpt-oss-20B ویرینٹ کو واحد صارف GPU (~ 16 GB VRAM) یا کوانٹائزڈ GGUF تعمیرات کا استعمال کرتے ہوئے حالیہ ہائی اینڈ لیپ ٹاپ پر چلانے کے لیے ڈیزائن کیا گیا ہے، جبکہ gpt-oss-120Bاس کے 117B کل پیرامیٹرز کے باوجود — کو MoE/active-parameter Tricks اور MXFP4 کوانٹائزیشن کے ساتھ بھیجا جاتا ہے جو اسے سنگل H100-کلاس GPUs (≈80 GB) یا ملٹی-GPU سیٹ اپ پر چلنے دیتا ہے۔ اوپن سورس GPT طرز کا ماڈل (اکثر "GPT OSS" کہلاتا ہے) کی تعیناتی — چاہے مقامی ایپس کے لیے کمپیکٹ 6–7B ماڈل ہو یا پروڈکشن سروسز کے لیے 70B+ ماڈل — ایک ہی بنیادی سوال اٹھاتا ہے: GPT-OSS کو مقامی طور پر کیسے چلایا جائے یا کلاؤڈ، ہارڈ ویئر کی ضروریات پر خود میزبان

GPT-OSS ماڈل کیا ہیں اور ان کے ہارڈ ویئر کی ضروریات کیا ہیں؟

GPT-OSS کیا ہے؟

GPT-OSS OpenAI کا حال ہی میں جاری کردہ بڑے لینگویج ماڈلز کا اوپن ویٹ فیملی ہے (ریلیز کے وقت دو ہیڈ لائن ویرینٹ: ~20B اور ~120B پیرامیٹر ورژن)۔ وہ بہتر انتخاب کے ساتھ بھیجتے ہیں (ماہرین کا مرکب، OpenAI کی تقسیم میں MXFP4 مقامی کوانٹائزیشن، ویرل/گھنی اختراعات) جو ان نسبتاً بڑے پیرامیٹر شماروں کو غیر معمولی FP32/FP16 کاپیوں کے مقابلے میں نمایاں طور پر کم میموری پر چلنے دیتے ہیں۔ ریلیز کا مقصد واضح طور پر طاقتور ماڈلز کو زیادہ وسیع پیمانے پر چلانے کے قابل اور صرف ہائپر اسکیلرز کے باہر اپنی مرضی کے مطابق بنانا تھا۔

اہم مصنوعات کے حقائق (لوڈ بیئرنگ):

gpt-oss-20B ~16 GB VRAM کے ساتھ واحد صارف GPU پر چلانے کا ارادہ ہے (اور GGUF کوانٹائزیشن کے ساتھ ڈیسک ٹاپس/لیپ ٹاپ پر استعمال کیا جا سکتا ہے)۔
gpt-oss-120B (≈117B پیرامیٹرز، ~5.1B فعال OpenAI کے MoE ڈیزائن میں پیرامیٹرز) کو انجنیئر کیا گیا ہے تاکہ ماڈل MXFP4 اور مخصوص رن ٹائم سپورٹ کا استعمال کرتے وقت، یا ملٹی-GPU سیٹ اپ پر ایک ہی 80 GB H100/A100 میں فٹ ہو سکے۔

ہارڈ ویئر کے عوامل جو ضروریات کا تعین کرتے ہیں۔

ماڈل کا سائز اور فن تعمیر – MoE اور ویرل/گھنی تہیں ایکٹیویشن اور ورکنگ میموری کو تبدیل کر سکتی ہیں۔ (GPT-OSS ماہرین کے طرز کے مرکبات کا استعمال کرتا ہے۔)
درستگی اور کوانٹائزیشن – FP32, FP16, BF16, 8-bit, 4-bit (GPTQ/AWQ/MXFP4)۔ کم درستگی میموری کو کم کرتی ہے لیکن تاخیر اور عددی وفاداری کو متاثر کر سکتی ہے۔ OpenAI GPT-OSS کے لیے MXFP4 کوانٹائزڈ وزن فراہم کرتا ہے۔
سیاق و سباق کی لمبائی (سلسلہ کی لمبائی) - طویل سیاق و سباق ایکٹیویشن کیشے کے استعمال کو متناسب طور پر بڑھاتے ہیں۔ GPT-OSS انتہائی طویل سیاق و سباق کو سپورٹ کرتا ہے (ان کے ڈیزائن میں بہت بڑی ٹوکن ونڈوز تک)، جو میموری کی ضروریات کو بڑھاتا ہے۔
بیچ کا سائز اور ہم آہنگی۔ - متعدد ہم آہنگی صارفین کی خدمت کرنا ایکٹیویشن اور کیشے کے لیے میموری کو بڑھاتا ہے۔ فریم ورک جیسے vLLM، DeepSpeed، اور Triton مؤثر طریقے سے بیچ اور درخواستوں میں ایکٹیویشن کا اشتراک کرنے کی کوشش کرتے ہیں۔
سرونگ فریم ورک اوور ہیڈ - مختلف انفرنس سرورز (vLLM, text-generation-inference, llama.cpp, ONNX رن ٹائم) مختلف اوور ہیڈز اور آپٹیمائزیشنز شامل کرتے ہیں۔

کیا "فٹ" کہاں: کسی نہ کسی طرح میموری کے اصول

ہارڈ ویئر کی منصوبہ بندی کے لیے دو تصورات اہم ہیں:

پیرامیٹر کی کل تعداد - ماڈل سائز پر ایک اوپری حد (117B بمقابلہ 21B)۔
چالو / کام کرنے والا سیٹ — MoE یا کچھ درست سیٹنگز میں ایکٹو میموری کی ضرورت ہوتی ہے جو کہ خام پیرامیٹر بائٹس سے بہت چھوٹی ہو سکتی ہے۔

عملی اصول:

16 جی بی کلاس جی پی یوز/ایج لیپ ٹاپ → کے لیے ممکن ہے۔ gpt-oss-20b اگر آپ ماڈل کی فراہم کردہ میموری کو موثر بنانے والی تشکیل استعمال کرتے ہیں (یا جارحانہ انداز میں 4-bit/NF4/AWQ پر مقدار درست کریں)۔
80 جی بی H100/A100 80GB → سنگل GPU ہوسٹنگ کے لیے gpt-oss-120b ان کے تجویز کردہ سیٹ اپ میں۔ پروڈکشن تھرو پٹ کے لیے آپ اب بھی بیکنگ، فالتو پن یا کنکرنسی کے تحت کم تاخیر کے لیے ایک سے زیادہ GPUs چاہتے ہیں۔
بڑے ملٹی جی پی یو سیٹ اپ (A100/H100 کلسٹرز) → ضروری ہے اگر آپ بہت سے ہم وقت صارفین کو کم تاخیر پر چلانا چاہتے ہیں یا بھاری فائن ٹیوننگ/ٹریننگ انجام دینا چاہتے ہیں۔ ڈیپ اسپیڈ/زیرو اور خودکار ٹینسر کی ہم آہنگی آپ کو GPUs میں بڑے ماڈلز کو تقسیم کرنے دیتی ہے۔

مختصر راستہ: تجربہ اور ہلکے وزن کے مقامی استعمال کے لیے، 16–24 GB GPU (یا CPU + بھاری مقدار) کا منصوبہ بنائیں۔ بڑے gpt-oss ماڈل کے سنگل-GPU تخمینے کے لیے آپ 80 GB H100 کو ہدف بنائیں گے، بصورت دیگر ملٹی-GPU پارٹیشننگ کا استعمال کریں۔

عملی طور پر GPT-OSS کی تعیناتی کے لیے کتنی کمپیوٹنگ پاور کی ضرورت ہے؟

اندازہ بمقابلہ تربیت: بے حد مختلف بجٹ

ارادہ: غالب لاگت GPU میموری (VRAM) اور آپٹمائزڈ کرنل ہے۔ آپٹمائزڈ رن ٹائمز (vLLM، TensorRT، DeepSpeed-Inference) اور کوانٹائزیشن کے ساتھ، gpt-oss-20b کا اندازہ 16 GB صارف GPU پر ممکن ہے۔ 120B MoE ماڈل کو 80 GB H100 فٹ کرنے کے لیے بنایا گیا ہے۔
ٹھیک ٹیوننگ / مکمل پیمانے پر تربیت: بڑے پیمانے کے آرڈرز — آپ کو بہت سے GPUs، یا خصوصی تربیتی مثالوں (ملٹی نوڈ H100/A100 کلسٹرز، DFLOPs بجٹ، اور اسٹوریج I/O) کی ضرورت ہوگی۔ یہ مضمون بنیادی طور پر تخمینہ/خود کی میزبانی اور ہلکے فائن ٹیوننگ کی ترکیبیں (QLoRA/LoRA) پر مرکوز ہے، نہ کہ کئی ہفتوں کی پری ٹریننگ۔

CPU بمقابلہ GPU بمقابلہ خصوصی ایکسلریٹر

صرف سی پی یو: GGUF/llama.cpp اور چھوٹے کوانٹائزڈ بلڈز کے ساتھ ممکن ہے، کم قیمت پر ٹریڈنگ میں تاخیر۔ کوانٹائزیشن کے بغیر CPU پر 20B چلانا ناقابل عمل ہے۔ جب رازداری یا مقامی آف لائن آپریشن ضروری ہو اور آپ کی تھرو پٹ ضروریات کم ہوں تو CPU استعمال کریں۔
GPU: تاخیر اور تھرو پٹ کے لیے ترجیح دی جاتی ہے۔ جدید ML GPUs (A100/H100/4090/4080) HBM/VRAM اور انٹر-GPU فیبرک کے لحاظ سے وسیع پیمانے پر مختلف ہیں۔ gpt-oss دستاویزات 120B ویرینٹ کے لیے H100-class تجویز کرتے ہیں۔
TPU / AMD MI300X: کچھ رن ٹائمز (vLLM/ROCm بلڈز) کے ذریعے سپورٹ کیا جاتا ہے اور بعض بادلوں میں لاگت سے موثر ہو سکتا ہے — ہارڈ ویئر کا انتخاب کرتے وقت فراہم کنندہ کے دستاویزات کو چیک کریں۔

محدود بجٹ پر مقامی طور پر GPT-OSS کیسے چلایا جائے؟ (کوڈ + مرحلہ وار)

ذیل میں دو عملی طریقے ہیں: (A) GPU لیپ ٹاپ/ڈیسک ٹاپ ~16–24 GB VRAM کے ساتھ 4 بٹ کوانٹائزیشن کا استعمال کرتے ہوئے، اور (ب) CPU/low-GPU (آف لائن) llama.cpp (GGUF) یا چھوٹے کوانٹائزڈ بلڈز کا استعمال کرتے ہوئے۔ جب پیسہ اور طاقت محدود ہو تو دونوں پریکٹیشنرز بڑے پیمانے پر استعمال کرتے ہیں۔

نوٹ: یہ ہدایات فرض کرتی ہیں کہ آپ کے پاس کام کرنے والا Python ماحول ہے (Linux بہترین CUDA سپورٹ کے لیے تجویز کیا گیا ہے)۔ ونڈوز کے لیے، GPU ٹول چینز کے ساتھ بہترین مطابقت کے لیے WSL2 استعمال کریں۔

A. GPU روٹ (بجٹ پر بہترین تاخیر کے لیے تجویز کردہ) — کوانٹائز + بٹس سینڈ بائٹس کے ساتھ لوڈ (4 بٹ)

یہ راستہ چلانے کا مقصد ہے۔ openai/gpt-oss-20b ایک صارف GPU پر (مثال کے طور پر، 24 GB 4090 یا 16 GB 4080)۔ یہ bitsandbytes 4-bit quantization اور Hugging Face استعمال کرتا ہے۔ transformers آلہ کا نقشہ/تیز کرنا۔

مرحلہ 1 - بنیادی باتیں انسٹال کریں۔

# Linux + CUDA (example); pick the correct torch CUDA wheel for your driver

python -m pip install -U pip
pip install torch --index-url https://download.pytorch.org/whl/cu121  # pick your CUDA version

pip install -U transformers accelerate bitsandbytes safetensors

(اگر آپ کونڈا استعمال کرتے ہیں، تو ایک این وی بنائیں اور اپنے پلیٹ فارم کے لیے CUDA کے موافق ٹارچ وہیل انسٹال کریں۔)

مرحلہ 2 — (اختیاری) بڑی فائلوں کو ڈاؤن لوڈ کرنے کے لیے ہگنگ فیس لاگ ان

huggingface-cli login

مرحلہ 3 - ازگر کی مثال (لوڈ کوانٹائزڈ 4 بٹ ماڈل)

# save as run_gptoss_4bit.py

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "openai/gpt-oss-20b"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"   # or "fp4"/"nf4" depending on support

)

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",                 # let transformers pick GPU + CPU offload if needed

    quantization_config=bnb_config,
    torch_dtype=torch.float16,
    trust_remote_code=True
)

prompt = "Write a concise summary of quantization for LLMs."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(out, skip_special_tokens=True))

نوٹس اور نکات

استعمال device_map="auto" so transformers CPU/GPU آف لوڈ خود بخود استعمال کرتا ہے۔ اگر آپ کے پاس ایک ہی GPU ہے، device_map="auto" عام طور پر ہر چیز کو GPU پر ڈال دیتا ہے اور CPU پر جو ہونا ضروری ہے اسے آف لوڈ کرتا ہے۔
اگر آپ کے پاس VRAM ختم ہو جائے تو شامل کریں۔ --offload_folder ./offload (یا سیٹ offload_folder in from_pretrainedNVMe پر ٹینسر آف لوڈ کرنے کے لیے۔
گلے لگانا چہرہ + بٹ سینڈ بائٹس کا نقطہ نظر وسیع پیمانے پر دستاویزی ہے۔ تفصیلات کے لیے 4 بٹ ٹرانسفارمرز گائیڈ دیکھیں۔

B. CPU / چھوٹے بجٹ کا راستہ (llama.cpp / GGUF)

اگر آپ کے پاس کوئی GPU یا بہت چھوٹا GPU نہیں ہے، llama.cpp / GGUF بناتا ہے (اور AWQ/GPTQ کوانٹائزڈ فائلیں) آپ کو واحد صارفین کے لیے قابل قبول تاخیر کے ساتھ CPU پر ماڈل چلانے دیتا ہے۔

مرحلہ 1 — llama.cpp/Python بائنڈنگز انسٹال کریں۔

# Download and build (Linux)

git clone --recursive https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Python bindings (optional)

pip install llama-cpp-python

مرحلہ 2 — کنورٹ سیفٹینسرز → GGUF (اگر کنورژن اسکرپٹس gpt-oss کے لیے دستیاب ہیں)
اوپن اے آئی/ہگنگ فیس سیفٹینسرز فراہم کرتے ہیں۔ کمیونٹی کنورٹرز (یا اسکرپٹ میں llama.cpp) GGUF میں تبدیل کریں۔ عین مطابق کمانڈ کرنٹ پر منحصر ہے۔ llama.cpp اوزار کے لیے ریپو README چیک کریں۔ convert.py/convert-safetensors-to-gguf. (کمیونٹی تھریڈز نئے ماڈلز کے لیے تبادلوں پر بحث کرتے ہیں۔)

مرحلہ 3 - اس کے ساتھ ماڈل چلائیں۔ llama.cpp

# basic inference (example)

./main -m ./gpt-oss-20b.gguf -p "Explain GGUF and quantization in one paragraph." -n 256

نوٹس اور ٹریڈ آف

CPU رن بہت سست ہیں۔ اس راستے کو جانچ، رازداری، یا بہت کم ہم آہنگی والے مقامی ایجنٹوں کے لیے استعمال کریں۔
سی پی یو پر لمبے آؤٹ پٹس بنانا یا کئی ایک ساتھ صارفین کی خدمت کرنا عملی نہیں ہے۔ پیداوار کے لیے GPU پر جائیں۔

آن ڈسک کوانٹائزڈ بلڈز (GPTQ/AWQ)

اگر آپ کو ایک بڑے ماڈل کو چھوٹے GPU (جیسے 8–12 GB) میں نچوڑنے کی ضرورت ہے، تو کمیونٹی کے نتائج ظاہر کرتے ہیں کہ GPTQ/AWQ طرز کوانٹائزیشن کچھ 20B ماڈل کم VRAM GPUs پر چل سکتی ہے — لیکن تبادلوں کی اکثر ضرورت ہوتی ہے۔ زیادہ تبادلوں کے دوران CPU RAM اور ایک انٹرمیڈیٹ GPU۔ اوزار: GPTQ-for-LLaMa, AutoGPTQ (محفوظ شدہ) AWQ، اور QLLM.

محدود بجٹ کے لیے عملی تجاویز

4 بٹ کوانٹائزڈ چیک پوائنٹس کو ترجیح دیں۔ (GPTQ/AWQ/MXFP4) — اکثر "12 GB میں چلتا ہے" اور "80 GB کی ضرورت ہے" کے درمیان فرق ہوتا ہے۔
سیاق و سباق کی لمبائی کو محدود کریں۔ بجٹ کا اندازہ لگانے کے لیے: طویل سیاق و سباق ایکٹیویشن کیشے کو اڑا دیتے ہیں۔ اگر آپ کو طویل سیاق و سباق کو ذخیرہ کرنا ضروری ہے، تو آف لوڈنگ کی حکمت عملیوں پر غور کریں۔
متحد میموری / nvmem آف لوڈ احتیاط سے استعمال کریں۔ — فریم ورک CPU/NVMe آف لوڈ (DeepSpeed ZeRO-Offload/ ZeRO-Infinity) کی پیشکش کر سکتے ہیں، لیکن یہ تاخیر کو بڑھاتا ہے۔

کلاؤڈ فراہم کنندگان (عملی گائیڈ اور لاگت پوائنٹرز) پر GPT-OSS کی خود میزبانی کیسے کریں؟

کون سا کلاؤڈ ہارڈویئر چننا ہے؟

سنگل-GPU 80 GB H100: چھوٹی سے درمیانے درجے کی ٹریفک کے لیے gpt-oss-120b کی میزبانی کے لیے اچھا ہے۔ AWS کی شرائط میں، P5 مثالیں H100 ہارڈ ویئر فراہم کرتی ہیں۔ سنگل-جی پی یو ویریئنٹس (2025 میں اعلان کیا گیا) اندازہ لگانے کے لیے اسے دائیں سائز میں سستا بناتا ہے۔ فراہم کنندہ کے لحاظ سے P5/ND H100 فیملی کا استعمال کریں۔
ملٹی جی پی یو (8× H100): ہائی تھرو پٹ اور فالتو پن کے لیے، p5.48x، p5dn یا موازنہ کلسٹر استعمال کریں۔ NVidia NVLink/NVSwitch اسی مثال میں انٹر-GPU comms اوور ہیڈ کو کم کرتا ہے۔
متبادل بادل: CoreWeave, Lambda Labs, Paperspace, Runpod — اکثر سستے اسپاٹ/آنڈیمانڈ GPU کرایے پر برسٹی انفرنس کے لیے۔ طویل مدتی انفرا پر کام کرنے سے پہلے انہیں ڈیو کے لیے استعمال کریں۔
جدید ترین / بھاری پیداوار: AWS p5 (H100) (8 × H100 80GB فی مثال) — سب سے زیادہ تھرو پٹ فی نوڈ اور سنگل-GPU 80+ GB کے لیے، یا کم تقسیم کے ساتھ 120B+ کے لیے۔ P5 H100s اور بڑی NVMe مقامی اسٹوریج فراہم کرتا ہے۔

rmers، text-generation-inference (TGI)/NVIDIA TGI کنٹینرز، یا DeepSpeed inference سیٹ اپ کریں۔

فوری مقامی NVMe کی فراہمی اگر آپ بڑی ایکٹیویشن سٹیٹس (ZeRO-Infinity) کو آف لوڈ کرنے کا ارادہ رکھتے ہیں۔ P4/P5 نوڈس میں اکثر مقامی NVMe اور بہت زیادہ نیٹ ورک بینڈوتھ ہوتی ہے۔ ()
سیکیورٹی اور نیٹ ورکنگ - لوڈ بیلنسرز کے پیچھے انفرنس اینڈ پوائنٹس رکھیں، فرنٹ اینڈ کے لیے آٹو اسکیلنگ گروپس کا استعمال کریں، اور علیحدہ خدشات (ماڈل سرونگ بمقابلہ درخواست روٹنگ)۔
نگرانی اور SLOs - GPU استعمال، میموری، ٹوکن/سیکنڈ، لیٹنسی p95 اور غلطیاں ٹریک کریں۔ میٹرکس کے لیے Prometheus + Grafana استعمال کریں۔

مثال کلاؤڈ سیلف ہوسٹنگ ورک فلو (AWS P4/P5)

مثال کا انتخاب کریں۔ (p4d/p5) ماڈل میموری کی ضروریات پر مبنی۔ gpt-oss-20B کے لیے، ایک واحد 16–32 GB مثال ٹھیک ہے۔ gpt-oss-120B کے لیے 80GB HBM مثال یا ملٹی GPU کا انتخاب کریں۔
AMI/تصویر تیار کریں۔ — ایک وینڈر AMI استعمال کریں جو CUDA، cuDNN، اور آپٹمائزڈ PyTorch (یا NVIDIA ڈرائیوروں کے ساتھ وینڈر امیجز) بنڈل کرتا ہے۔
سرونگ اسٹیک انسٹال کریں۔: vLLM، ٹرانسفارمرز، ٹیکسٹ جنریشن-انفرنس (TGI)/NVIDIA TGI کنٹینرز، یا DeepSpeed inference سیٹ اپ کریں۔
فوری مقامی NVMe کی فراہمی اگر آپ بڑی ایکٹیویشن سٹیٹس (ZeRO-Infinity) کو آف لوڈ کرنے کا ارادہ رکھتے ہیں۔ P4/P5 نوڈس میں اکثر مقامی NVMe اور بہت زیادہ نیٹ ورک بینڈوتھ ہوتی ہے۔
سیکیورٹی اور نیٹ ورکنگ - لوڈ بیلنسرز کے پیچھے انفرنس اینڈ پوائنٹس رکھیں، فرنٹ اینڈ کے لیے آٹو اسکیلنگ گروپس کا استعمال کریں، اور علیحدہ خدشات (ماڈل سرونگ بمقابلہ درخواست روٹنگ)۔
نگرانی اور SLOs - GPU استعمال، میموری، ٹوکن/سیکنڈ، لیٹنسی p95 اور غلطیاں ٹریک کریں۔ میٹرکس کے لیے Prometheus + Grafana استعمال کریں۔

نمونہ خود میزبان منصوبہ (gpt-oss-20b، چھوٹے پیمانے پر پیداوار)

مقصد: ~20 ایک ساتھ استعمال کنندگان کی خدمت کریں، 1–2s جوابی ہدف، لاگت کے لحاظ سے حساس۔

مثال: 1× A10G/1×24 GB GPU (مثال کے طور پر G5/A10G/RTX 6000) ماڈل + 1× چھوٹے CPU بوٹسٹریپ سرور کے لیے۔
رن ٹائم: vLLM بطور ماڈل سرور (مسلسل بیچنگ) + CometAPI گیٹ وے۔
آٹوسکل: GPU AMI کے ساتھ آٹو اسکیلنگ گروپ اور CPU/GPU میٹرکس کے ذریعہ ALB + افقی آٹو اسکیلنگ کا استعمال کریں۔
ذخیرہ: ماڈل کیشنگ کے لیے NVMe لوکل؛ کولڈ ماڈل اسٹوریج کے لیے آبجیکٹ اسٹور (S3)۔
باخبر رہنا: Prometheus + Grafana، ٹریک GPU استعمال، تاخیر، قطار کی لمبائی۔
سلامتی: VPC، پرائیویٹ سب نیٹس، ماڈل اسٹوریج کے لیے IAM رولز، TLS سرٹیفکیٹ۔

نمونہ خود میزبان منصوبہ (gpt-oss-120b، پیداوار)

مقصد: بہت سے ہم وقت صارفین / انٹرپرائز کے لئے کم تاخیر۔

مثال: 1× H100 80 GB (سنگل-GPU) بیس لائن کے لیے؛ افقی طور پر پیمانہ کریں یا تھرو پٹ کے لیے ملٹی GPU p5 مثالیں استعمال کریں۔ ہائی تھرو پٹ کے لیے، یا تو سنگل-جی پی یو سروس (ڈیٹا متوازی) کی نقل بنائیں یا ڈیپ اسپیڈ (ٹینسر/پائپ لائن) کا استعمال کرتے ہوئے جی پی یوز میں ماڈل کو شارڈ کریں۔
رن ٹائم: خودکار TP یا NVIDIA TensorRT کے ساتھ DeepSpeed-Inference (جہاں دستیاب ہو)۔ MoE/Multi-GPU اور ٹیونڈ کرنل کے لیے vLLM کی مدد بھی مفید ہو سکتی ہے۔
Kubernetes: ڈیوائس پلگ ان اور مقامی NVMe کے ساتھ K8s استعمال کریں۔ دستیابی کے لیے افراتفری کی جانچ کا استعمال کریں۔
لاگت کی اصلاح: متوقع بوجھ کے لیے محفوظ مثالیں؛ بیچ کے کام کے بوجھ کے لیے جگہ کی مثالیں

مثال: gpt-oss-20b کے لیے ایک vLLM سرونگ کنٹینر شروع کریں۔

# assume vllm is installed and CUDA is set up

vllm serve --model openai/gpt-oss-20b --port 8000 --num-gpus 1

پھر اپنے فرنٹ اینڈ کی طرف اشارہ کریں۔ http://<host>:8000/v1/chat/completions (vLLM OpenAI-compatible API کو سپورٹ کرتا ہے)۔

لاگت کی اصلاح کے نکات

Spot/preemptible VMs 50-80% سستے ہیں لیکن چیک پوائنٹنگ یا تیزی سے دوبارہ سپون کی حکمت عملیوں کی ضرورت ہوتی ہے۔
ماڈل کوانٹائزیشن مثال کی قسم کی ضروریات کو کم کرتا ہے (مثال کے طور پر، اگر انجن آن دی فلائی ڈیکوانٹائزیشن کو سپورٹ کرتے ہیں تو کم GPUs پر کوانٹائزڈ 120B پیش کیا جا سکتا ہے)۔
صرف تخمینہ کے لیے موزوں مثال والے خاندانوں کا استعمال کریں۔ (P5/P4/A2 الٹرا) اعلی NVLink/NVSwitch کے ساتھ جب ملٹی-GPU ماڈل کی ہم آہنگی کرتے ہوئے؛ انٹر-GPU شارڈنگ کے لیے نیٹ ورک بینڈوڈتھ اہمیت رکھتی ہے۔

لاگت، تاخیر اور ماڈل کے معیار میں توازن کیسے رکھا جائے۔

کوانٹائزیشن: رفتار بمقابلہ معیار

جارحانہ مقدار (2-4 بٹ، AWQ/GPTQ) → یادداشت کی بہت زیادہ بچت اور اکثر کاموں کے لیے معمولی معیار کا نقصان۔ اگر آپ مخصوص کام کے بوجھ کو بینچ مارک کرتے ہیں تو پیداوار کے لیے AWQ/GPTQ استعمال کریں۔ کوانٹائزیشن کے دوران تبدیلی کے لیے بڑی CPU میموری کی ضرورت پڑ سکتی ہے۔

مخلوط صحت سے متعلق اور دانا کی اصلاح

استعمال fp16, BF16 جہاں سپورٹ ہو زیادہ سے زیادہ تھرو پٹ کے لیے خصوصی CUDA کرنل (FasterTransformer، TensorRT) کے ساتھ یکجا کریں۔ Nvidia/TensorRT بہت سے ٹرانسفارمرز کے لیے قیاس آرائی پر مبنی ڈی کوڈنگ اور آپٹمائزڈ کرنل پیش کرتا ہے (NVIDIA آپٹمائزڈ GPT-OSS اڈاپٹر فراہم کرتا ہے)۔

حفاظت اور مشاہدہ

اوپن ویٹ ماڈلز کا مطلب ہے کہ آپ غلط استعمال، ڈیٹا کے رساو اور بڑھے ہوئے کی نگرانی کے ذمہ دار ہیں۔ درخواست کی لاگنگ، مواد کے فلٹرز، شرح کو محدود کرنے، اور انسان کے اندر اعتدال کو لاگو کریں۔ OpenAI کے ریلیز نوٹس اور ماڈل کارڈ ان کی داخلی جانچ اور بیرونی تشخیص پر زور دیتے ہیں — لیکن خود میزبانی آپ کے لیے حفاظتی دائرے کو منتقل کر دیتی ہے۔

فائنل خیالات

GPT-OSS سوئی کو حرکت دیتا ہے: ایسے ماڈلز جن کو پہلے بڑے پیمانے پر بیسپوک انفرا کی ضرورت ہوتی تھی اب محتاط طرز تعمیر کے انتخاب اور مقداری تقسیم کی بدولت زیادہ قابل رسائی ہیں۔ لیکن تعیناتی ایک نظم و ضبط ہے: ہارڈ ویئر کے سائز کو ماڈل کی درستگی، سیاق و سباق کی لمبائی، اور آپ کی ایپ کے کنکرنسی پروفائل پر غور کرنا چاہیے۔ ٹوکن/سیکنڈ اور p95 لیٹینسی کی پیمائش کرنے کے لیے چھوٹے ٹیسٹ بیڈز (کوانٹائزڈ 20B) استعمال کریں، اور پھر کلاؤڈ کمپیوٹ اور پیداوار کی لاگت کا تخمینہ لگانے کے لیے ضرب لگائیں۔

GPT-OSS API تک کیسے رسائی حاصل کریں۔

CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔

ڈویلپرز رسائی حاصل کر سکتے ہیں۔ GPT-OSS-20B اور GPT-OSS-120B کے ذریعے CometAPI, درج کردہ تازہ ترین ماڈل ورژن مضمون کی اشاعت کی تاریخ کے مطابق ہیں۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔