LLaMA 4 کو مقامی طور پر کیسے چلائیں۔

CometAPI
AnnaApr 30, 2025
LLaMA 4 کو مقامی طور پر کیسے چلائیں۔

میٹا کے ایل ایل اے ایم اے 4 کا اجراء بڑے لینگوئج ماڈلز (LLMs) میں ایک اہم پیشرفت کی نشاندہی کرتا ہے، جو قدرتی زبان کی تفہیم اور نسل میں بہتر صلاحیتوں کی پیشکش کرتا ہے۔ ڈویلپرز، محققین، اور AI کے شوقین افراد کے لیے، LLaMA 4 کو مقامی طور پر چلانا حسب ضرورت، ڈیٹا پرائیویسی، اور لاگت کی بچت کے مواقع فراہم کرتا ہے۔ یہ جامع گائیڈ آپ کی مقامی مشین پر LLaMA 4 کی تعیناتی کے لیے تقاضوں، سیٹ اپ، اور اصلاح کی حکمت عملیوں کو دریافت کرتا ہے۔

LLaMA 4 کیا ہے؟

LLaMA 4 Meta کی اوپن سورس LLMs کی سیریز میں تازہ ترین تکرار ہے، جسے مختلف قدرتی زبان کی پروسیسنگ کے کاموں میں جدید ترین کارکردگی فراہم کرنے کے لیے ڈیزائن کیا گیا ہے۔ اپنے پیشروؤں کی بنیاد پر، LLaMA 4 بہتر کارکردگی، توسیع پذیری، اور کثیر لسانی ایپلی کیشنز کے لیے معاونت پیش کرتا ہے۔

LLaMA 4 مقامی طور پر کیوں چلائیں؟

آپ کی مقامی مشین پر LLaMA 4 چلانے کے کئی فوائد ہیں:

  • ڈیٹا کی رازداری: بیرونی سرورز پر بھروسہ کیے بغیر حساس معلومات کو آن پریمیسس رکھیں۔
  • حسب ضرورت: مخصوص ایپلی کیشنز یا ڈومینز کے مطابق ماڈل کو ٹھیک بنائیں۔
  • کارکردگی کا تخمینہ: موجودہ ہارڈ ویئر کو استعمال کرکے بار بار آنے والی کلاؤڈ سروس فیس کو ختم کریں۔
  • آف لائن رسائی۔: انٹرنیٹ پر انحصار کے بغیر AI صلاحیتوں تک بلا تعطل رسائی کو یقینی بنائیں۔

سسٹم کی طلب

ہارڈ ویئر نردجیکرن

LLaMA 4 کو مؤثر طریقے سے چلانے کے لیے، آپ کے سسٹم کو درج ذیل کم از کم تقاضوں کو پورا کرنا چاہیے:

  • GPU: NVIDIA RTX 5090 48GB VRAM کے ساتھ۔
  • CPU: 12 کور پروسیسر (مثال کے طور پر، Intel i9 یا AMD Ryzen 9 سیریز)۔
  • RAM: 64GB کم از کم؛ بہترین کارکردگی کے لیے 128GB کی سفارش کی گئی ہے۔
  • ذخیرہ: 2TB NVMe SSD ماڈل وزن اور تربیتی ڈیٹا کو ایڈجسٹ کرنے کے لیے۔
  • آپریٹنگ سسٹم: Ubuntu 24.04 LTS یا Windows 11 WSL2 کے ساتھ۔

سافٹ ویئر انحصار

یقینی بنائیں کہ سافٹ ویئر کے درج ذیل اجزاء انسٹال ہیں:

  • ازگر: ورژن 3.11۔
  • پی ٹورچ: GPU ایکسلریشن کے لیے CUDA سپورٹ کے ساتھ۔
  • گلے لگانا چہرہ ٹرانسفارمرز: ماڈل لوڈنگ اور انفرنس کے لیے۔
  • تیز: تربیت اور تخمینہ کے عمل کو منظم کرنا۔
  • بٹس اینڈ بائٹس: ماڈل کوانٹائزیشن اور میموری کی اصلاح کے لیے۔

ماحولیات کی ترتیب

ازگر کا ماحول بنانا

ایک سرشار ازگر کا ماحول ترتیب دے کر شروع کریں:

conda create -n llama4 python=3.11
conda activate llama4

مطلوبہ پیکجز کو انسٹال کرنا

ضروری Python پیکجز انسٹال کریں:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

LLaMA 4 ماڈل وزن ڈاؤن لوڈ کرنا

LLaMA 4 ماڈل وزن تک رسائی حاصل کرنے کے لیے:

  1. میٹا کے آفیشل LLaMA ماڈل پیج پر جائیں۔
  2. رسائی کی درخواست کریں اور لائسنس کی شرائط کو قبول کریں۔
  3. منظوری کے بعد، فراہم کردہ اسکرپٹ کا استعمال کرتے ہوئے ماڈل وزن ڈاؤن لوڈ کریں:
python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

LLaMA 4 کو مقامی طور پر کیسے تعینات کیا جائے۔

بنیادی انفرنس سیٹ اپ

درج ذیل Python اسکرپٹ کا استعمال کرتے ہوئے ایک بنیادی انفرنس سیٹ اپ کو لاگو کریں:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

RTX 5090 کے لیے بہتر بنایا جا رہا ہے۔

فلیش توجہ اور 5090 بٹ کوانٹائزیشن کو فعال کرکے RTX 8 GPU کی صلاحیتوں کا فائدہ اٹھائیں:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

فائن ٹیوننگ LLaMA 4

تربیتی ڈیٹا کی تیاری

اپنے تربیتی ڈیٹا کو JSONL فارمیٹ میں ترتیب دیں:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

پیرامیٹر سے موثر فائن ٹیوننگ (PEFT) کو نافذ کرنا

موثر فائن ٹیوننگ کے لیے LoRA کے ساتھ PEFT کا استعمال کریں:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

تربیت کی پیشرفت کی نگرانی

ٹریننگ کی نگرانی کے لیے TensorBoard انسٹال اور لانچ کریں:

pip install tensorboard
tensorboard --logdir=./results/runs

پر TensorBoard تک رسائی حاصل کریں۔ http://localhost:6006/.


فائن ٹیونڈ ماڈل کا اندازہ لگانا

ٹھیک ٹیوننگ کے بعد، ماڈل کی کارکردگی کا جائزہ لیں:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

کارکردگی کی اصلاح کی حکمت عملی

یادداشت کا انتظام۔

میموری کے استعمال کو بہتر بنانے کے لیے گریڈینٹ چیک پوائنٹنگ اور مخلوط درستگی کی تربیت کو نافذ کریں:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

عام مسائل کا ازالہ کرنا

CUDA میموری سے باہر ہونے والی خرابیاں:

  • بیچ کا سائز کم کریں۔
  • گریڈینٹ چیک پوائنٹنگ کو فعال کریں۔
  • 8 بٹ کوانٹائزیشن کا استعمال کریں۔
  • تدریجی جمع کو نافذ کریں۔

سست تربیتی کارکردگی:

  • فلیش توجہ کو فعال کریں۔
  • اگر میموری اجازت دے تو بیچ کا سائز بڑھائیں۔
  • CPU پر آپریشنز آف لوڈ کریں۔
  • ملٹی جی پی یو سیٹ اپس کے لیے ڈیپ اسپیڈ کو مربوط کریں۔

نتیجہ

LLaMA 4 کو مقامی طور پر تعینات کرنا اور ٹھیک کرنا آپ کو آپ کی مخصوص ضروریات کے مطابق ایک مضبوط AI ٹول کے ساتھ بااختیار بناتا ہے۔ اس گائیڈ پر عمل کرکے، آپ LLaMA 4 کی پوری صلاحیت کو بروئے کار لا سکتے ہیں، ڈیٹا کی رازداری، حسب ضرورت، اور لاگت سے موثر AI حل کو یقینی بنا سکتے ہیں۔

شروع

CometAPI 500 سے زیادہ AI ماڈلز تک رسائی فراہم کرتا ہے، بشمول اوپن سورس اور چیٹ، تصاویر، کوڈ اور مزید کے لیے خصوصی ملٹی موڈل ماڈل۔ اس کی بنیادی طاقت AI انضمام کے روایتی طور پر پیچیدہ عمل کو آسان بنانے میں مضمر ہے۔

CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔ Llama 4 API، اور آپ کو رجسٹر کرنے اور لاگ ان کرنے کے بعد اپنے اکاؤنٹ میں $1 مل جائے گا! رجسٹر کرنے اور CometAPI کا تجربہ کرنے میں خوش آمدید. CometAPI آپ جاتے وقت ادائیگی کرتا ہے،Llama 4 API CometAPI میں قیمتوں کا تعین اس طرح کیا گیا ہے:

قسمllama-4-maverickllama-4-scout
API قیمتوں کا تعینان پٹ ٹوکنز: $0.48/M ٹوکنان پٹ ٹوکنز: $0.216/M ٹوکن
آؤٹ پٹ ٹوکنز: $1.44/ M ٹوکنآؤٹ پٹ ٹوکنز: $1.152/ M ٹوکن
  • ملاحظہ کیجیے Llama 4 API انضمام کی تفصیلات کے لیے۔

پر تعمیر شروع کریں CometAPI آج - سائن اپ کریں۔ ایک میں اپ گریڈ کرکے یہاں مفت رسائی یا شرح کی حد کے بغیر پیمانے کے لیے CometAPI ادا شدہ منصوبہ.

مزید پڑھیں

500+ ماڈلز ایک API میں

20% تک چھوٹ