Peluncuran LLaMA 4 dari Meta menandai kemajuan signifikan dalam model bahasa besar (LLM), yang menawarkan kemampuan yang ditingkatkan dalam pemahaman dan pembuatan bahasa alami. Bagi pengembang, peneliti, dan penggemar AI, menjalankan LLaMA 4 secara lokal memberikan peluang untuk kustomisasi, privasi data, dan penghematan biaya. Panduan komprehensif ini membahas persyaratan, pengaturan, dan strategi pengoptimalan untuk menerapkan LLaMA 4 di komputer lokal Anda.
Apa itu LLaMA 4?
LLaMA 4 merupakan iterasi terbaru dalam rangkaian LLM sumber terbuka Meta, yang dirancang untuk memberikan kinerja mutakhir dalam berbagai tugas pemrosesan bahasa alami. Berdasarkan pendahulunya, LLaMA 4 menawarkan peningkatan efisiensi, skalabilitas, dan dukungan untuk aplikasi multibahasa.
Mengapa Menjalankan LLaMA 4 Secara Lokal?
Menjalankan LLaMA 4 di komputer lokal Anda menawarkan beberapa keuntungan:
- Privasi data: Simpan informasi sensitif di lokasi tanpa bergantung pada server eksternal.
- Kustomisasi: Menyempurnakan model agar sesuai dengan aplikasi atau domain tertentu.
- Penghematan biaya: Hilangkan biaya layanan cloud yang berulang dengan memanfaatkan perangkat keras yang ada.
- Akses Offline: Memastikan akses tanpa gangguan ke kemampuan AI tanpa ketergantungan internet.
Persyaratan sistem
hardware Spesifikasi
Untuk menjalankan LLaMA 4 secara efektif, sistem Anda harus memenuhi persyaratan minimum berikut:
- GPU: NVIDIA RTX 5090 dengan VRAM 48GB.
- CPU: Prosesor 12-inti (misalnya, seri Intel i9 atau AMD Ryzen 9).
- RAM: Minimal 64 GB; direkomendasikan 128 GB untuk kinerja optimal.
- Storage: SSD NVMe 2TB untuk menampung bobot model dan data pelatihan.
- Sistem operasi: Ubuntu 24.04 LTS atau Windows 11 dengan WSL2.
Ketergantungan Perangkat Lunak
Pastikan komponen perangkat lunak berikut terinstal:
- Ular sanca: Versi 3.11
- PyTorch: Dengan dukungan CUDA untuk akselerasi GPU.
- Memeluk Transformer Wajah: Untuk pemuatan dan inferensi model.
- Mempercepat: Untuk mengelola proses pelatihan dan inferensi.
- BitsAndBytes: Untuk kuantisasi model dan pengoptimalan memori.
Menyiapkan Lingkungan
Membuat Lingkungan Python
Mulailah dengan menyiapkan lingkungan Python khusus:
conda create -n llama4 python=3.11
conda activate llama4
Menginstal Paket yang Diperlukan
Instal paket Python yang diperlukan:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes
Mengunduh Bobot Model LLaMA 4
Untuk mengakses bobot model LLaMA 4:
- Kunjungi halaman model LLaMA resmi Meta.
- Minta akses dan terima persyaratan lisensi.
- Setelah disetujui, unduh bobot model menggunakan skrip yang disediakan:
python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4
Cara Menyebarkan LLaMA 4 Secara Lokal
Pengaturan Inferensi Dasar
Terapkan pengaturan inferensi dasar menggunakan skrip Python berikut:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# Load the model and tokenizer
model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="auto"
)
# Define an inference function
def generate_text(prompt, max_length=512):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(
**inputs,
max_length=max_length,
temperature=0.7,
top_p=0.9,
do_sample=True
)
return tokenizer.decode(outputs, skip_special_tokens=True)
# Example usage
test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))
Mengoptimalkan untuk RTX 5090
Memanfaatkan kemampuan GPU RTX 5090 dengan mengaktifkan perhatian flash dan kuantisasi 8-bit:
# Enable flash attention
model.config.attn_implementation = "flash_attention_2"
# Apply 8-bit quantization
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_8bit=True,
llm_int8_threshold=6.0
)
model = AutoModelForCausalLM.from_pretrained(
model_path,
quantization_config=quantization_config,
device_map="auto"
)
Penyetelan Halus LLaMA 4
Mempersiapkan Data Pelatihan
Strukturkan data pelatihan Anda dalam format JSONL:
import json
# Sample dataset
dataset = [
{
"instruction": "Define machine learning.",
"input": "",
"output": "Machine learning is a subset of artificial intelligence that focuses on..."
},
# Add more entries as needed
]
# Save to a JSONL file
with open("training_data.jsonl", "w") as f:
for entry in dataset:
f.write(json.dumps(entry) + "\n")
Menerapkan Penyetelan Halus Efisien Parameter (PEFT)
Memanfaatkan PEFT dengan LoRA untuk penyempurnaan yang efisien:
from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer
# Prepare the model
model = prepare_model_for_kbit_training(model)
# Configure LoRA
lora_config = LoraConfig(
r=16,
lora_alpha=32,
target_modules=,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Apply LoRA
model = get_peft_model(model, lora_config)
# Define training arguments
training_args = TrainingArguments(
output_dir="./results",
num_train_epochs=3,
per_device_train_batch_size=4,
gradient_accumulation_steps=4,
learning_rate=2e-4,
weight_decay=0.01,
warmup_steps=100,
save_steps=500,
logging_steps=50,
fp16=True
)
# Initialize the Trainer
trainer = Trainer(
model=model,
args=training_args,
train_dataset=dataset,
data_collator=data_collator
)
# Start training
trainer.train()
Memantau Kemajuan Pelatihan
Instal dan luncurkan TensorBoard untuk memantau pelatihan:
pip install tensorboard
tensorboard --logdir=./results/runs
Akses TensorBoard di http://localhost:6006/.
Mengevaluasi Model yang Diselesaikan
Setelah penyempurnaan, evaluasi kinerja model:
from peft import PeftModel
# Load the base model
base_model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="auto"
)
# Load the fine-tuned model
fine_tuned_model = PeftModel.from_pretrained(
base_model,
"./results/checkpoint-1000"
)
# Merge weights
merged_model = fine_tuned_model.merge_and_unload()
# Evaluate on test prompts
test_prompts = [
"Explain reinforcement learning.",
"Discuss ethical considerations in AI."
]
for prompt in test_prompts:
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = merged_model.generate(
**inputs,
max_length=512,
temperature=0.7,
top_p=0.9,
do_sample=True
)
print(f"Prompt: {prompt}")
print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
print("-" * 50)
Strategi Optimasi Kinerja
Manajemen memori
Terapkan pemeriksaan gradien dan pelatihan presisi campuran untuk mengoptimalkan penggunaan memori:
# Enable gradient checkpointing
model.gradient_checkpointing_enable()
# Configure training arguments
training_args = TrainingArguments(
fp16=True,
bf16=False,
optim="adamw_torch",
# Additional arguments...
)
Memecahkan Masalah Umum
Kesalahan Kehabisan Memori CUDA:
- Kurangi ukuran batch.
- Aktifkan titik pemeriksaan gradien.
- Memanfaatkan kuantisasi 8-bit.
- Terapkan akumulasi gradien.
Performa Pelatihan Lambat:
- Aktifkan perhatian kilat.
- Tingkatkan ukuran batch jika memori mengizinkan.
- Memindahkan operasi ke CPU.
- Integrasikan DeepSpeed untuk pengaturan multi-GPU.
Kesimpulan
Penerapan dan penyempurnaan LLaMA 4 secara lokal memberdayakan Anda dengan alat AI tangguh yang disesuaikan dengan kebutuhan spesifik Anda. Dengan mengikuti panduan ini, Anda dapat memanfaatkan potensi penuh LLaMA 4, memastikan privasi data, kustomisasi, dan solusi AI yang hemat biaya.
Mulai
CometAPI menyediakan akses ke lebih dari 500 model AI, termasuk model multimoda sumber terbuka dan khusus untuk obrolan, gambar, kode, dan banyak lagi. Kekuatan utamanya terletak pada penyederhanaan proses integrasi AI yang secara tradisional rumit.
API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda mengintegrasikan API Llama 4, dan Anda akan mendapatkan $1 di akun Anda setelah mendaftar dan masuk! Selamat datang untuk mendaftar dan mencoba CometAPI.CometAPI membayar sesuai pemakaian,API Llama 4 Harga di CometAPI disusun sebagai berikut:
| Kategori | llama-4-maverick | llama-4-pramuka |
| Harga API | Token Masukan: $0.48 / M token | Token Masukan: $0.216 / M token |
| Token Keluaran: $1.44/M token | Token Keluaran: $1.152/M token |
- Silakan lihat API Llama 4 untuk rincian integrasi.
Mulai membangun CometAPI hari ini – daftar di sini untuk akses gratis atau skala tanpa batas kecepatan dengan meningkatkan ke Paket berbayar CometAPI.
