Cách chạy LLaMA 4 cục bộ

CometAPI
AnnaApr 30, 2025
Cách chạy LLaMA 4 cục bộ

Việc phát hành LLaMA 4 của Meta đánh dấu bước tiến đáng kể trong các mô hình ngôn ngữ lớn (LLM), cung cấp khả năng nâng cao trong việc hiểu và tạo ngôn ngữ tự nhiên. Đối với các nhà phát triển, nhà nghiên cứu và những người đam mê AI, việc chạy LLaMA 4 cục bộ mang đến cơ hội tùy chỉnh, bảo mật dữ liệu và tiết kiệm chi phí. Hướng dẫn toàn diện này khám phá các yêu cầu, thiết lập và chiến lược tối ưu hóa để triển khai LLaMA 4 trên máy cục bộ của bạn.

LLaMA 4 là gì?

LLaMA 4 là phiên bản mới nhất trong loạt LLM mã nguồn mở của Meta, được thiết kế để cung cấp hiệu suất tiên tiến trong nhiều tác vụ xử lý ngôn ngữ tự nhiên. Dựa trên các phiên bản trước, LLaMA 4 cung cấp hiệu suất, khả năng mở rộng và hỗ trợ cho các ứng dụng đa ngôn ngữ được cải thiện.

Tại sao nên chạy LLaMA 4 cục bộ?

Chạy LLaMA 4 trên máy cục bộ của bạn mang lại một số lợi thế:

  • Bảo mật dữ liệu: Lưu trữ thông tin nhạy cảm tại chỗ mà không cần dựa vào máy chủ bên ngoài.
  • Cá nhân hóa: Tinh chỉnh mô hình để phù hợp với các ứng dụng hoặc lĩnh vực cụ thể.
  • Hiệu quả chi phí: Loại bỏ phí dịch vụ đám mây định kỳ bằng cách sử dụng phần cứng hiện có.
  • Truy cập ngoại tuyến: Đảm bảo khả năng truy cập liên tục vào các chức năng AI mà không phụ thuộc vào internet.

Đòi Hỏi Kỹ Thuật

phần cứng Thông số kỹ thuật

Để chạy LLaMA 4 hiệu quả, hệ thống của bạn phải đáp ứng các yêu cầu tối thiểu sau:

  • GPU: NVIDIA RTX 5090 với VRAM 48GB.
  • CPU: Bộ xử lý 12 lõi (ví dụ: dòng Intel i9 hoặc AMD Ryzen 9).
  • RAM: Tối thiểu 64GB; khuyến nghị 128GB để có hiệu suất tối ưu.
  • Bảo quản: Ổ SSD NVMe 2TB để chứa trọng lượng mô hình và dữ liệu đào tạo.
  • Hệ điều hành: Ubuntu 24.04 LTS hoặc Windows 11 với WSL2.

Phụ thuộc phần mềm

Đảm bảo các thành phần phần mềm sau đã được cài đặt:

  • Python: Phiên bản 3.11.
  • Kim tự tháp:Với sự hỗ trợ của CUDA để tăng tốc GPU.
  • Người vận chuyển khuôn mặt ôm: Dùng để tải và suy luận mô hình.
  • Tăng tốc: Để quản lý quá trình đào tạo và suy luận.
  • BitsAndByte: Dùng để lượng tử hóa mô hình và tối ưu hóa bộ nhớ.

Thiết lập môi trường

Tạo môi trường Python

Bắt đầu bằng cách thiết lập môi trường Python chuyên dụng:

conda create -n llama4 python=3.11
conda activate llama4

Cài đặt các gói cần thiết

Cài đặt các gói Python cần thiết:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

Tải xuống Trọng lượng mô hình LLaMA 4

Để truy cập trọng số mô hình LLaMA 4:

  1. Truy cập trang mẫu LLaMA chính thức của Meta.
  2. Yêu cầu quyền truy cập và chấp nhận các điều khoản cấp phép.
  3. Sau khi được chấp thuận, hãy tải xuống trọng số mô hình bằng cách sử dụng tập lệnh được cung cấp:
python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

Cách triển khai LLaMA 4 cục bộ

Thiết lập suy luận cơ bản

Triển khai thiết lập suy luận cơ bản bằng cách sử dụng tập lệnh Python sau:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

Tối ưu hóa cho RTX 5090

Tận dụng khả năng của GPU RTX 5090 bằng cách kích hoạt tính năng chú ý flash và lượng tử hóa 8 bit:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

Tinh chỉnh LLaMA 4

Chuẩn bị dữ liệu đào tạo

Cấu trúc dữ liệu đào tạo của bạn theo định dạng JSONL:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

Triển khai tinh chỉnh hiệu quả tham số (PEFT)

Sử dụng PEFT với LoRA để tinh chỉnh hiệu quả:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

Giám sát tiến độ đào tạo

Cài đặt và khởi chạy TensorBoard để theo dõi quá trình đào tạo:

pip install tensorboard
tensorboard --logdir=./results/runs

Truy cập TensorBoard tại http://localhost:6006/.


Đánh giá mô hình tinh chỉnh

Sau khi tinh chỉnh, hãy đánh giá hiệu suất của mô hình:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

Chiến lược tối ưu hóa hiệu suất

Quản lý bộ nhớ

Triển khai kiểm tra điểm kiểm tra độ dốc và đào tạo độ chính xác hỗn hợp để tối ưu hóa việc sử dụng bộ nhớ:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

Khắc phục sự cố thường gặp

Lỗi hết bộ nhớ CUDA:

  • Giảm kích thước lô.
  • Bật điểm kiểm tra độ dốc.
  • Sử dụng lượng tử hóa 8 bit.
  • Thực hiện tích lũy gradient.

Hiệu suất đào tạo chậm:

  • Bật chế độ chú ý nhanh.
  • Tăng kích thước lô nếu bộ nhớ cho phép.
  • Chuyển giao hoạt động cho CPU.
  • Tích hợp DeepSpeed ​​cho thiết lập nhiều GPU.

Kết luận

Triển khai và tinh chỉnh LLaMA 4 cục bộ trao cho bạn một công cụ AI mạnh mẽ phù hợp với nhu cầu cụ thể của bạn. Bằng cách làm theo hướng dẫn này, bạn có thể khai thác toàn bộ tiềm năng của LLaMA 4, đảm bảo quyền riêng tư dữ liệu, tùy chỉnh và các giải pháp AI tiết kiệm chi phí.

Bắt đầu

CometAPI cung cấp quyền truy cập vào hơn 500 mô hình AI, bao gồm các mô hình đa phương thức chuyên biệt và mã nguồn mở cho trò chuyện, hình ảnh, mã, v.v. Điểm mạnh chính của nó nằm ở việc đơn giản hóa quy trình tích hợp AI phức tạp theo truyền thống.

Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp API của Llama 4và bạn sẽ nhận được 1 đô la trong tài khoản của mình sau khi đăng ký và đăng nhập! Chào mừng bạn đến đăng ký và trải nghiệm CometAPI.CometAPI trả tiền khi bạn sử dụng,API của Llama 4 trong CometAPI Giá được cấu trúc như sau:

Phân loạillama-4-mavericklạc đà không bướu-4-trinh sát
Định giá APIMã thông báo đầu vào: $0.48/M mã thông báoMã thông báo đầu vào: $0.216/M mã thông báo
Mã thông báo đầu ra: $1.44/M mã thông báoMã thông báo đầu ra: $1.152/M mã thông báo
  • Vui lòng tham khảo trước API của Llama 4 để biết thông tin chi tiết về tích hợp.

Bắt đầu xây dựng trên CometAPI ngay hôm nay – đăng ký ở đây để truy cập miễn phí hoặc mở rộng quy mô mà không giới hạn tốc độ bằng cách nâng cấp lên Gói trả phí CometAPI.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%