Cara Menjalankan LLaMA 4 Secara Lokal

Peluncuran LLaMA 4 dari Meta menandai kemajuan signifikan dalam model bahasa besar (LLM), yang menawarkan kemampuan yang ditingkatkan dalam pemahaman dan pembuatan bahasa alami. Bagi pengembang, peneliti, dan penggemar AI, menjalankan LLaMA 4 secara lokal memberikan peluang untuk kustomisasi, privasi data, dan penghematan biaya. Panduan komprehensif ini membahas persyaratan, pengaturan, dan strategi pengoptimalan untuk menerapkan LLaMA 4 di komputer lokal Anda.

Apa itu LLaMA 4?

LLaMA 4 merupakan iterasi terbaru dalam rangkaian LLM sumber terbuka Meta, yang dirancang untuk memberikan kinerja mutakhir dalam berbagai tugas pemrosesan bahasa alami. Berdasarkan pendahulunya, LLaMA 4 menawarkan peningkatan efisiensi, skalabilitas, dan dukungan untuk aplikasi multibahasa.

Mengapa Menjalankan LLaMA 4 Secara Lokal?

Menjalankan LLaMA 4 di komputer lokal Anda menawarkan beberapa keuntungan:

Privasi data: Simpan informasi sensitif di lokasi tanpa bergantung pada server eksternal.
Kustomisasi: Menyempurnakan model agar sesuai dengan aplikasi atau domain tertentu.
Penghematan biaya: Hilangkan biaya layanan cloud yang berulang dengan memanfaatkan perangkat keras yang ada.
Akses Offline: Memastikan akses tanpa gangguan ke kemampuan AI tanpa ketergantungan internet.

Persyaratan sistem

hardware Spesifikasi

Untuk menjalankan LLaMA 4 secara efektif, sistem Anda harus memenuhi persyaratan minimum berikut:

GPU: NVIDIA RTX 5090 dengan VRAM 48GB.
CPU: Prosesor 12-inti (misalnya, seri Intel i9 atau AMD Ryzen 9).
RAM: Minimal 64 GB; direkomendasikan 128 GB untuk kinerja optimal.
Storage: SSD NVMe 2TB untuk menampung bobot model dan data pelatihan.
Sistem operasi: Ubuntu 24.04 LTS atau Windows 11 dengan WSL2.

Ketergantungan Perangkat Lunak

Pastikan komponen perangkat lunak berikut terinstal:

Ular sanca: Versi 3.11
PyTorch: Dengan dukungan CUDA untuk akselerasi GPU.
Memeluk Transformer Wajah: Untuk pemuatan dan inferensi model.
Mempercepat: Untuk mengelola proses pelatihan dan inferensi.
BitsAndBytes: Untuk kuantisasi model dan pengoptimalan memori.

Menyiapkan Lingkungan

Membuat Lingkungan Python

Mulailah dengan menyiapkan lingkungan Python khusus:

conda create -n llama4 python=3.11
conda activate llama4

Menginstal Paket yang Diperlukan

Instal paket Python yang diperlukan:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

Mengunduh Bobot Model LLaMA 4

Untuk mengakses bobot model LLaMA 4:

Kunjungi halaman model LLaMA resmi Meta.
Minta akses dan terima persyaratan lisensi.
Setelah disetujui, unduh bobot model menggunakan skrip yang disediakan:

python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

Cara Menyebarkan LLaMA 4 Secara Lokal

Pengaturan Inferensi Dasar

Terapkan pengaturan inferensi dasar menggunakan skrip Python berikut:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

Mengoptimalkan untuk RTX 5090

Memanfaatkan kemampuan GPU RTX 5090 dengan mengaktifkan perhatian flash dan kuantisasi 8-bit:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

Penyetelan Halus LLaMA 4

Mempersiapkan Data Pelatihan

Strukturkan data pelatihan Anda dalam format JSONL:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

Menerapkan Penyetelan Halus Efisien Parameter (PEFT)

Memanfaatkan PEFT dengan LoRA untuk penyempurnaan yang efisien:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

Memantau Kemajuan Pelatihan

Instal dan luncurkan TensorBoard untuk memantau pelatihan:

pip install tensorboard
tensorboard --logdir=./results/runs

Akses TensorBoard di http://localhost:6006/.

Mengevaluasi Model yang Diselesaikan

Setelah penyempurnaan, evaluasi kinerja model:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

Strategi Optimasi Kinerja

Manajemen memori

Terapkan pemeriksaan gradien dan pelatihan presisi campuran untuk mengoptimalkan penggunaan memori:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

Memecahkan Masalah Umum

Kesalahan Kehabisan Memori CUDA:

Kurangi ukuran batch.
Aktifkan titik pemeriksaan gradien.
Memanfaatkan kuantisasi 8-bit.
Terapkan akumulasi gradien.

Performa Pelatihan Lambat:

Aktifkan perhatian kilat.
Tingkatkan ukuran batch jika memori mengizinkan.
Memindahkan operasi ke CPU.
Integrasikan DeepSpeed untuk pengaturan multi-GPU.

Kesimpulan

Penerapan dan penyempurnaan LLaMA 4 secara lokal memberdayakan Anda dengan alat AI tangguh yang disesuaikan dengan kebutuhan spesifik Anda. Dengan mengikuti panduan ini, Anda dapat memanfaatkan potensi penuh LLaMA 4, memastikan privasi data, kustomisasi, dan solusi AI yang hemat biaya.

Mulai

CometAPI menyediakan akses ke lebih dari 500 model AI, termasuk model multimoda sumber terbuka dan khusus untuk obrolan, gambar, kode, dan banyak lagi. Kekuatan utamanya terletak pada penyederhanaan proses integrasi AI yang secara tradisional rumit.

API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda mengintegrasikan API Llama 4, dan Anda akan mendapatkan $1 di akun Anda setelah mendaftar dan masuk! Selamat datang untuk mendaftar dan mencoba CometAPI.CometAPI membayar sesuai pemakaian,API Llama 4 Harga di CometAPI disusun sebagai berikut:


Kategori	llama-4-maverick	llama-4-pramuka
Harga API	Token Masukan: $0.48 / M token	Token Masukan: $0.216 / M token
Token Keluaran: $1.44/M token	Token Keluaran: $1.152/M token

Silakan lihat API Llama 4 untuk rincian integrasi.

Mulai membangun CometAPI hari ini – daftar di sini untuk akses gratis atau skala tanpa batas kecepatan dengan meningkatkan ke Paket berbayar CometAPI.