كيفية تشغيل LLaMA 4 محليًا

CometAPI
AnnaApr 30, 2025
كيفية تشغيل LLaMA 4 محليًا

يُمثل إصدار ميتا LLaMA 4 تقدمًا ملحوظًا في نماذج اللغات الكبيرة (LLMs)، إذ يُقدم إمكانيات مُحسّنة لفهم اللغة الطبيعية وتوليدها. بالنسبة للمطورين والباحثين وهواة الذكاء الاصطناعي، يُتيح تشغيل LLaMA 4 محليًا فرصًا للتخصيص، والحفاظ على خصوصية البيانات، وتوفير التكاليف. يستكشف هذا الدليل الشامل المتطلبات، والإعداد، واستراتيجيات التحسين لنشر LLaMA 4 على جهازك المحلي.

ما هو LLaMA 4؟

LLaMA 4 هو أحدث إصدار من سلسلة Meta لبرامج معالجة اللغات الطبيعية مفتوحة المصدر، وهو مصمم لتقديم أداء متطور في مختلف مهام معالجة اللغات الطبيعية. بناءً على إصداراته السابقة، يوفر LLaMA 4 كفاءةً وقابليةً للتوسع ودعمًا مُحسّنًا للتطبيقات متعددة اللغات.

لماذا تشغيل LLaMA 4 محليًا؟

يوفر تشغيل LLaMA 4 على جهازك المحلي العديد من المزايا:

  • خصوصية البيانات:احتفظ بالمعلومات الحساسة محليًا دون الاعتماد على خوادم خارجية.
  • التخصيص:ضبط النموذج ليناسب التطبيقات أو المجالات المحددة.
  • فعالية التكلفة:التخلص من رسوم الخدمة السحابية المتكررة من خلال الاستفادة من الأجهزة الموجودة.
  • الوصول دون اتصال:ضمان الوصول المستمر إلى قدرات الذكاء الاصطناعي دون الاعتماد على الإنترنت.

متطلبات النظام

الأجهزة المواصفات

لتشغيل LLaMA 4 بشكل فعال، يجب أن يلبي نظامك الحد الأدنى من المتطلبات التالية:

  • وحدة معالجة الرسوميات‏:‏:NVIDIA RTX 5090 مع ذاكرة VRAM بسعة 48 جيجابايت.
  • وحدة المعالجة المركزية‏:: معالج ذو 12 نواة (على سبيل المثال، سلسلة Intel i9 أو AMD Ryzen 9).
  • رامات: الحد الأدنى 64 جيجابايت؛ يوصى بـ 128 جيجابايت للحصول على الأداء الأمثل.
  • الخزائن :SSD NVMe بسعة 2 تيرابايت لاستيعاب أوزان النماذج وبيانات التدريب.
  • نظام التشغيل:Ubuntu 24.04 LTS أو Windows 11 مع WSL2.

التبعيات البرمجية

تأكد من تثبيت مكونات البرنامج التالية:

  • Python: الإصدار 3.11.
  • PyTorch:مع دعم CUDA لتسريع وحدة معالجة الرسومات.
  • تعانق محولات الوجه:لتحميل النموذج والاستدلال.
  • تسريع:لإدارة عمليات التدريب والاستدلال.
  • BitsAndBytes:لتحديد كمية النموذج وتحسين الذاكرة.

تهيئة البيئة

إنشاء بيئة بايثون

ابدأ بإعداد بيئة Python مخصصة:

conda create -n llama4 python=3.11
conda activate llama4

تثبيت الحزم المطلوبة

قم بتثبيت حزم Python الضرورية:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

تنزيل أوزان نموذج LLaMA 4

للوصول إلى أوزان نموذج LLaMA 4:

  1. قم بزيارة صفحة نموذج LLaMA الرسمية الخاصة بـ Meta.
  2. اطلب الوصول وقبول شروط الترخيص.
  3. بمجرد الموافقة، قم بتنزيل أوزان النموذج باستخدام البرنامج النصي المقدم:
python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

كيفية نشر LLaMA 4 محليًا

إعداد الاستدلال الأساسي

قم بتنفيذ إعداد الاستدلال الأساسي باستخدام البرنامج النصي Python التالي:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

تحسين الأداء لـ RTX 5090

استفد من إمكانيات وحدة معالجة الرسومات RTX 5090 من خلال تمكين الانتباه إلى الفلاش والكمية 8 بت:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

الضبط الدقيق لـ LLaMA 4

إعداد بيانات التدريب

قم بتنظيم بيانات التدريب الخاصة بك بتنسيق JSONL:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

تنفيذ الضبط الدقيق الفعال للمعلمات (PEFT)

استخدم PEFT مع LoRA لتحقيق ضبط دقيق فعال:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

مراقبة تقدم التدريب

قم بتثبيت TensorBoard وتشغيله لمراقبة التدريب:

pip install tensorboard
tensorboard --logdir=./results/runs

الدخول إلى TensorBoard على http://localhost:6006/.


تقييم النموذج المضبوط

بعد الضبط الدقيق، قم بتقييم أداء النموذج:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

استراتيجيات تحسين الأداء

إدارة الذاكرة

تنفيذ نقاط التفتيش المتدرجة والتدريب على الدقة المختلطة لتحسين استخدام الذاكرة:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

استكشاف المشكلات الشائعة وإصلاحها

أخطاء نفاد الذاكرة في CUDA:

  • تقليل حجم الدفعة.
  • تمكين نقطة تفتيش التدرج.
  • استخدم التكميم 8 بت.
  • تنفيذ تراكم التدرج.

أداء التدريب البطيء:

  • تمكين الانتباه الفلاشي.
  • قم بزيادة حجم الدفعة إذا سمحت الذاكرة بذلك.
  • نقل العمليات إلى وحدة المعالجة المركزية.
  • دمج DeepSpeed ​​لإعدادات وحدة معالجة الرسومات المتعددة.

الخاتمة

يُمكّنك نشر LLaMA 4 وضبطه محليًا من الحصول على أداة ذكاء اصطناعي فعّالة مُصممة خصيصًا لتلبية احتياجاتك الخاصة. باتباع هذا الدليل، يمكنك الاستفادة القصوى من إمكانات LLaMA 4، مع ضمان خصوصية البيانات، والتخصيص، وحلول الذكاء الاصطناعي الفعّالة من حيث التكلفة.

كيف تبدأ

يتيح CometAPI الوصول إلى أكثر من 500 نموذج ذكاء اصطناعي، بما في ذلك نماذج مفتوحة المصدر ونماذج متعددة الوسائط متخصصة للدردشة والصور والأكواد البرمجية وغيرها. تكمن قوته الأساسية في تبسيط عملية دمج الذكاء الاصطناعي المعقدة تقليديًا.

كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل واجهة برمجة تطبيقات لاما 4ستحصل على دولار واحد في حسابك بعد التسجيل وتسجيل الدخول! مرحبًا بك في CometAPI وتجربة الخدمة. CometAPI يدفع لك حسب الاستخدام.واجهة برمجة تطبيقات لاما 4 في CometAPI يتم تنظيم التسعير على النحو التالي:

الفئةلاما-4-مافريكلاما-4-كشافة
تسعير APIرموز الإدخال: 0.48 دولارًا أمريكيًا / مليون رمزرموز الإدخال: 0.216 دولار أمريكي / مليون رمز
رموز الإخراج: 1.44 دولار/ مليون رمزرموز الإخراج: 1.152 دولار/ مليون رمز

ابدأ بالبناء على CometAPI اليوم - سجل الآن هنا للوصول المجاني أو التوسع دون حدود للسعر عن طريق الترقية إلى خطة CometAPI المدفوعة.

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%