วิธีการเรียกใช้ LLaMA 4 ในเครื่อง

CometAPI
AnnaApr 30, 2025
วิธีการเรียกใช้ LLaMA 4 ในเครื่อง

การเปิดตัว LLaMA 4 ของ Meta ถือเป็นการก้าวหน้าครั้งสำคัญในด้านโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งมอบความสามารถที่เพิ่มขึ้นในการทำความเข้าใจและสร้างภาษาธรรมชาติ สำหรับนักพัฒนา นักวิจัย และผู้ที่ชื่นชอบ AI การรัน LLaMA 4 ในเครื่องช่วยให้สามารถปรับแต่ง รักษาความเป็นส่วนตัวของข้อมูล และประหยัดต้นทุนได้ คู่มือฉบับสมบูรณ์นี้จะอธิบายข้อกำหนด การตั้งค่า และกลยุทธ์การเพิ่มประสิทธิภาพในการปรับใช้ LLaMA 4 บนเครื่องของคุณ

LLaMA 4 คืออะไร?

LLaMA 4 เป็นเวอร์ชันล่าสุดในซีรีส์ LLM โอเพนซอร์สของ Meta ซึ่งออกแบบมาเพื่อมอบประสิทธิภาพที่ล้ำสมัยในงานการประมวลผลภาษาธรรมชาติต่างๆ LLaMA 4 ได้รับการพัฒนาจากรุ่นก่อนๆ โดยมอบประสิทธิภาพ ความสามารถในการปรับขนาด และการรองรับแอปพลิเคชันหลายภาษาที่ได้รับการปรับปรุงให้ดียิ่งขึ้น

เหตุใดจึงต้องรัน LLaMA 4 ในเครื่อง?

การรัน LLaMA 4 บนเครื่องของคุณมีข้อดีหลายประการ:

  • ข้อมูลส่วนบุคคล:เก็บข้อมูลที่สำคัญไว้ภายในสถานที่โดยไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอก
  • การปรับแต่งปรับแต่งโมเดลให้เหมาะกับแอปพลิเคชันหรือโดเมนเฉพาะ
  • ประสิทธิภาพต้นทุน:กำจัดค่าธรรมเนียมบริการคลาวด์ที่เกิดขึ้นซ้ำๆ ด้วยการใช้ฮาร์ดแวร์ที่มีอยู่
  • เข้าถึงแบบออฟไลน์:รับรองการเข้าถึงความสามารถของ AI อย่างต่อเนื่องโดยไม่ต้องพึ่งอินเทอร์เน็ต

ความต้องการของระบบ

คุณสมบัติของฮาร์ดแวร์

ในการใช้งาน LLaMA 4 ได้อย่างมีประสิทธิภาพ ระบบของคุณจะต้องตรงตามข้อกำหนดขั้นต่ำดังต่อไปนี้:

  • GPU:NVIDIA RTX 5090 พร้อม VRAM 48GB
  • ซีพียู:โปรเซสเซอร์ 12 คอร์ (เช่น ซีรีส์ Intel i9 หรือ AMD Ryzen 9)
  • แรม:ขั้นต่ำ 64GB แนะนำให้ใช้ 128GB เพื่อประสิทธิภาพสูงสุด
  • พื้นที่จัดเก็บ:SSD NVMe ขนาด 2TB เพื่อรองรับน้ำหนักรุ่นและข้อมูลการฝึกอบรม
  • ระบบปฏิบัติการ:Ubuntu 24.04 LTS หรือ Windows 11 พร้อม WSL2

การพึ่งพาซอฟต์แวร์

ตรวจสอบให้แน่ใจว่าได้ติดตั้งส่วนประกอบซอฟต์แวร์ต่อไปนี้:

  • หลาม: เวอร์ชัน 3.11.
  • ไพทอร์ช:ด้วยการรองรับ CUDA สำหรับการเร่งความเร็ว GPU
  • กอดใบหน้า Transformers:สำหรับการโหลดแบบจำลองและการอนุมาน
  • เร่งความเร็ว:เพื่อจัดการกระบวนการฝึกอบรมและการอนุมาน
  • BitsAndBytes:สำหรับการวัดปริมาณแบบจำลองและการเพิ่มประสิทธิภาพหน่วยความจำ

การตั้งค่าสิ่งแวดล้อม

การสร้างสภาพแวดล้อม Python

เริ่มต้นด้วยการตั้งค่าสภาพแวดล้อม Python เฉพาะ:

conda create -n llama4 python=3.11
conda activate llama4

การติดตั้งแพ็คเกจที่จำเป็น

ติดตั้งแพ็กเกจ Python ที่จำเป็น:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

การดาวน์โหลดน้ำหนักรุ่น LLaMA 4

การเข้าถึงน้ำหนักรุ่น LLaMA 4:

  1. เยี่ยมชมหน้าโมเดล LLaMA อย่างเป็นทางการของ Meta
  2. ขอการเข้าถึงและยอมรับข้อกำหนดใบอนุญาต
  3. เมื่อได้รับการอนุมัติแล้ว ให้ดาวน์โหลดน้ำหนักโมเดลโดยใช้สคริปต์ที่ให้มา:
python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

วิธีการปรับใช้ LLaMA 4 ในเครื่อง

การตั้งค่าอนุมานพื้นฐาน

ใช้งานการตั้งค่าอนุมานขั้นพื้นฐานโดยใช้สคริปต์ Python ต่อไปนี้:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

การเพิ่มประสิทธิภาพสำหรับ RTX 5090

ใช้ประโยชน์จากความสามารถของ GPU RTX 5090 โดยเปิดใช้งานการให้ความสนใจแฟลชและการวัดปริมาณแบบ 8 บิต:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

การปรับแต่ง LLaMA 4

การเตรียมข้อมูลการฝึกอบรม

จัดโครงสร้างข้อมูลการฝึกอบรมของคุณในรูปแบบ JSONL:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

การนำการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ (PEFT) มาใช้

ใช้ PEFT ร่วมกับ LoRA เพื่อปรับแต่งอย่างมีประสิทธิภาพ:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

ติดตามความคืบหน้าการฝึกอบรม

ติดตั้งและเปิดใช้ TensorBoard เพื่อติดตามการฝึกอบรม:

pip install tensorboard
tensorboard --logdir=./results/runs

เข้าถึง TensorBoard ได้ที่ http://localhost:6006/.


การประเมินโมเดลที่ได้รับการปรับแต่งอย่างละเอียด

หลังจากปรับแต่งแล้ว ให้ประเมินประสิทธิภาพของโมเดล:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

กลยุทธ์การเพิ่มประสิทธิภาพประสิทธิภาพ

การจัดการหน่วยความจำ

นำการตรวจสอบจุดควบคุมแบบไล่ระดับและการฝึกความแม่นยำแบบผสมมาใช้เพื่อเพิ่มประสิทธิภาพการใช้หน่วยความจำ:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

การแก้ไขปัญหาทั่วไป

ข้อผิดพลาด CUDA ขาดหน่วยความจำ:

  • ลดขนาดชุดงาน
  • เปิดใช้งานจุดตรวจสอบการไล่ระดับสี
  • ใช้การวัดเชิงปริมาณแบบ 8 บิต
  • นำการสะสมความชันไปใช้งาน

ประสิทธิภาพการฝึกที่ช้า:

  • เปิดใช้งานแฟลชเอียร์เตอร์
  • เพิ่มขนาดชุดงานหากหน่วยความจำอนุญาต
  • โอนภาระการทำงานไปยังซีพียู
  • รวม DeepSpeed ​​สำหรับการตั้งค่า GPU หลายตัว

สรุป

การปรับใช้และปรับแต่ง LLaMA 4 ในระดับท้องถิ่นจะช่วยให้คุณมีเครื่องมือ AI ที่แข็งแกร่งซึ่งเหมาะกับความต้องการเฉพาะของคุณ เมื่อปฏิบัติตามคำแนะนำนี้ คุณจะใช้ประโยชน์จากศักยภาพทั้งหมดของ LLaMA 4 ได้อย่างเต็มที่ โดยรับประกันความเป็นส่วนตัวของข้อมูล การปรับแต่ง และโซลูชัน AI ที่คุ้มต้นทุน

เริ่มต้นใช้งาน

CometAPI ช่วยให้เข้าถึงโมเดล AI ได้มากกว่า 500 โมเดล รวมถึงโมเดลโอเพ่นซอร์สและโมเดลมัลติโมดัลเฉพาะทางสำหรับการแชท รูปภาพ โค้ด และอื่นๆ จุดแข็งหลักของ CometAPI อยู่ที่การทำให้กระบวนการบูรณาการ AI ที่มีความซับซ้อนแบบดั้งเดิมนั้นง่ายขึ้น

โคเมทเอพีไอ เสนอราคาต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ API ลามะ 4และคุณจะได้รับ $1 ในบัญชีของคุณหลังจากลงทะเบียนและเข้าสู่ระบบ! ยินดีต้อนรับสู่การลงทะเบียนและสัมผัสกับ CometAPICometAPI จ่ายตามการใช้งานAPI ลามะ 4 ใน CometAPI การกำหนดราคามีโครงสร้างดังนี้:

Categoryลามะ-4-ผู้ไม่ฝักใฝ่ฝ่ายใดลามะ-4-ลูกเสือ
ราคา APIอินพุตโทเค็น: $0.48 / M โทเค็นอินพุตโทเค็น: $0.216 / M โทเค็น
โทเค็นเอาต์พุต: $1.44/ M โทเค็นโทเค็นเอาต์พุต: $1.152/ M โทเค็น
  • โปรดดูที่ API ลามะ 4 สำหรับรายละเอียดการบูรณาการ

เริ่มสร้างบน CometAPI วันนี้ – ลงทะเบียน ที่นี่เพื่อเข้าใช้งานฟรีหรือปรับขนาดโดยไม่มีการจำกัดอัตราโดยอัปเกรดเป็น แผนการชำระเงิน CometAPI.

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%