Cara Menjalankan LLaMA 4 Secara Tempatan

Keluaran LLaMA 4 Meta menandakan kemajuan yang ketara dalam model bahasa besar (LLM), menawarkan keupayaan yang dipertingkatkan dalam pemahaman dan penjanaan bahasa semula jadi. Untuk pembangun, penyelidik dan peminat AI, menjalankan LLaMA 4 secara tempatan menyediakan peluang untuk penyesuaian, privasi data dan penjimatan kos. Panduan komprehensif ini meneroka keperluan, persediaan dan strategi pengoptimuman untuk menggunakan LLaMA 4 pada mesin tempatan anda.

Apakah LLaMA 4?

LLaMA 4 ialah lelaran terkini dalam siri LLM sumber terbuka Meta, yang direka untuk menyampaikan prestasi terkini dalam pelbagai tugas pemprosesan bahasa semula jadi. Berdasarkan pendahulunya, LLaMA 4 menawarkan kecekapan, kebolehskalaan dan sokongan yang lebih baik untuk aplikasi berbilang bahasa.

Mengapa Jalankan LLaMA 4 Secara Tempatan?

Menjalankan LLaMA 4 pada mesin tempatan anda menawarkan beberapa kelebihan:

Privasi Data: Simpan maklumat sensitif di premis tanpa bergantung pada pelayan luaran.
Penyesuaian: Perhalusi model agar sesuai dengan aplikasi atau domain tertentu.
Kecekapan Kos: Hapuskan yuran perkhidmatan awan berulang dengan menggunakan perkakasan sedia ada.
Akses Luar Talian: Pastikan akses tanpa gangguan kepada keupayaan AI tanpa pergantungan internet.

Keperluan Sistem

Spesifikasi Perkakasan

Untuk menjalankan LLaMA 4 dengan berkesan, sistem anda harus memenuhi keperluan minimum berikut:

GPU: NVIDIA RTX 5090 dengan 48GB VRAM.
CPU: Pemproses 12 teras (cth, siri Intel i9 atau AMD Ryzen 9).
RAM: 64GB minimum; 128GB disyorkan untuk prestasi optimum.
Pada Suhu Ambien: 2TB NVMe SSD untuk menampung berat model dan data latihan.
Sistem Operasi: Ubuntu 24.04 LTS atau Windows 11 dengan WSL2.

Ketergantungan Perisian

Pastikan komponen perisian berikut dipasang:

Python: Versi 3.11.
PyTorch: Dengan sokongan CUDA untuk pecutan GPU.
Berpeluk Wajah Transformers: Untuk pemuatan model dan inferens.
Mempercepatkan: Untuk menguruskan proses latihan dan inferens.
BitsAndBytes: Untuk pengkuantitian model dan pengoptimuman memori.

Menetapkan Alam Sekitar

Mencipta Persekitaran Python

Mulakan dengan menyediakan persekitaran Python khusus:

conda create -n llama4 python=3.11
conda activate llama4

Memasang Pakej yang Diperlukan

Pasang pakej Python yang diperlukan:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

Memuat turun LLaMA 4 Model Weights

Untuk mengakses berat model LLaMA 4:

Lawati halaman model LLaMA rasmi Meta.
Minta akses dan terima syarat lesen.
Setelah diluluskan, muat turun berat model menggunakan skrip yang disediakan:

python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

Cara Menggunakan LLaMA 4 Secara Tempatan

Persediaan Inferens Asas

Laksanakan persediaan inferens asas menggunakan skrip Python berikut:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

Mengoptimumkan untuk RTX 5090

Manfaatkan keupayaan GPU RTX 5090 dengan mendayakan perhatian kilat dan pengkuantitian 8-bit:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

LLaMA Penalaan Halus 4

Menyediakan Data Latihan

Susun data latihan anda dalam format JSONL:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

Melaksanakan Penalaan Halus Cekap Parameter (PEFT)

Gunakan PEFT dengan LoRA untuk penalaan halus yang cekap:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

Memantau Kemajuan Latihan

Pasang dan lancarkan TensorBoard untuk memantau latihan:

pip install tensorboard
tensorboard --logdir=./results/runs

Akses TensorBoard di http://localhost:6006/.

Menilai Model Ditala Halus

Selepas penalaan halus, nilai prestasi model:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

Strategi Pengoptimuman Prestasi

Pengurusan Memori

Laksanakan pemeriksaan kecerunan dan latihan ketepatan campuran untuk mengoptimumkan penggunaan memori:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

Menyelesaikan Masalah Isu Biasa

CUDA Kehabisan Ingatan Ralat:

Kurangkan saiz kelompok.
Dayakan titik semak kecerunan.
Gunakan pengkuantitian 8-bit.
Laksanakan pengumpulan kecerunan.

Prestasi Latihan Lambat:

Dayakan perhatian kilat.
Tingkatkan saiz kelompok jika ingatan membenarkan.
Muatkan operasi ke CPU.
Sepadukan DeepSpeed untuk persediaan berbilang GPU.

Kesimpulan

Menggunakan dan memperhalusi LLaMA 4 secara tempatan memperkasakan anda dengan alat AI teguh yang disesuaikan dengan keperluan khusus anda. Dengan mengikuti panduan ini, anda boleh memanfaatkan potensi penuh LLaMA 4, memastikan privasi data, penyesuaian dan penyelesaian AI yang kos efektif.

Bermula

CometAPI menyediakan akses kepada lebih 500 model AI, termasuk sumber terbuka dan model multimodal khusus untuk sembang, imej, kod dan banyak lagi. Kekuatan utamanya terletak pada memudahkan proses integrasi AI yang kompleks secara tradisional.

CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan API Llama 4, dan anda akan mendapat $1 dalam akaun anda selepas mendaftar dan log masuk! Selamat datang untuk mendaftar dan mengalami CometAPI.CometAPI membayar semasa anda pergi,API Llama 4 dalam Harga CometAPI distrukturkan seperti berikut:


kategori	llama-4-maverick	llama-4-pengakap
Harga API	Token Input: $0.48 / M token	Token Input: $0.216 / M token
Token Output: $1.44/ M token	Token Output: $1.152/ M token

Sila rujuk kepada API Llama 4 untuk butiran integrasi.

Mula membina CometAPI hari ini – daftar di sini untuk akses atau skala percuma tanpa had kadar dengan menaik taraf kepada a Pelan berbayar CometAPI.