Como executar o LLaMA 4 localmente

CometAPI
AnnaApr 30, 2025
Como executar o LLaMA 4 localmente

O lançamento do LLaMA 4 da Meta marca um avanço significativo em modelos de grande linguagem (LLMs), oferecendo recursos aprimorados em compreensão e geração de linguagem natural. Para desenvolvedores, pesquisadores e entusiastas de IA, executar o LLaMA 4 localmente oferece oportunidades de personalização, privacidade de dados e economia de custos. Este guia abrangente explora os requisitos, a configuração e as estratégias de otimização para implantar o LLaMA 4 em sua máquina local.

O que é LLaMA 4?

O LLaMA 4 é a mais recente iteração da série de LLMs de código aberto da Meta, projetada para oferecer desempenho de ponta em diversas tarefas de processamento de linguagem natural. Baseado em seus antecessores, o LLaMA 4 oferece maior eficiência, escalabilidade e suporte para aplicações multilíngues.

Por que executar o LLaMA 4 localmente?

Executar o LLaMA 4 em sua máquina local oferece várias vantagens:

  • Dados privados: Mantenha informações confidenciais no local sem depender de servidores externos.
  • Customização: Ajuste o modelo para adaptá-lo a aplicações ou domínios específicos.
  • Eficiência de custos: Elimine taxas recorrentes de serviços de nuvem utilizando o hardware existente.
  • Acesso Offline: Garanta acesso ininterrupto aos recursos de IA sem dependência da Internet.

Requerimentos do sistema

Especificações de Hardware

Para executar o LLaMA 4 de forma eficaz, seu sistema deve atender aos seguintes requisitos mínimos:

  • GPU: NVIDIA RTX 5090 com 48 GB de VRAM.
  • CPU: Processador de 12 núcleos (por exemplo, Intel i9 ou AMD Ryzen série 9).
  • RAM: 64 GB mínimo; 128 GB recomendado para desempenho ideal.
  • Armazenamento: SSD NVMe de 2 TB para acomodar pesos de modelos e dados de treinamento.
  • Sistema Operacional: Ubuntu 24.04 LTS ou Windows 11 com WSL2.

Dependências de Software

Certifique-se de que os seguintes componentes de software estejam instalados:

  • Python: Versão 3.11.
  • PyTorch: Com suporte CUDA para aceleração de GPU.
  • Transformadores de rosto abraçando: Para carregamento e inferência de modelos.
  • Acelerar: Gerenciar processos de treinamento e inferência.
  • Bits e Bytes: Para quantização de modelos e otimização de memória.

Configurando o ambiente

Criando um ambiente Python

Comece configurando um ambiente Python dedicado:

conda create -n llama4 python=3.11
conda activate llama4

Instalando Pacotes Requeridos

Instale os pacotes Python necessários:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

Baixando Pesos do Modelo LLaMA 4

Para acessar os pesos do modelo LLaMA 4:

  1. Visite a página oficial do modelo LLaMA da Meta.
  2. Solicite acesso e aceite os termos da licença.
  3. Após a aprovação, baixe os pesos do modelo usando o script fornecido:
python -m huggingface_hub download meta-llama/Llama-4-8B --local-dir ./models/llama4

Como implantar o LLaMA 4 localmente

Configuração básica de inferência

Implemente uma configuração básica de inferência usando o seguinte script Python:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the model and tokenizer

model_path = "./models/llama4"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Define an inference function

def generate_text(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    return tokenizer.decode(outputs, skip_special_tokens=True)

# Example usage

test_prompt = "Explain the concept of artificial intelligence:"
print(generate_text(test_prompt))

Otimizando para RTX 5090

Aproveite os recursos da GPU RTX 5090 habilitando a atenção flash e a quantização de 8 bits:

# Enable flash attention

model.config.attn_implementation = "flash_attention_2"

# Apply 8-bit quantization

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quantization_config,
    device_map="auto"
)

Ajuste fino do LLaMA 4

Preparando dados de treinamento

Estruture seus dados de treinamento no formato JSONL:

import json

# Sample dataset

dataset = [
    {
        "instruction": "Define machine learning.",
        "input": "",
        "output": "Machine learning is a subset of artificial intelligence that focuses on..."
    },
    # Add more entries as needed

]

# Save to a JSONL file

with open("training_data.jsonl", "w") as f:
    for entry in dataset:
        f.write(json.dumps(entry) + "\n")

Implementando o ajuste fino com eficiência de parâmetros (PEFT)

Utilize PEFT com LoRA para um ajuste fino eficiente:

from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model
from transformers import TrainingArguments, Trainer

# Prepare the model

model = prepare_model_for_kbit_training(model)

# Configure LoRA

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# Apply LoRA

model = get_peft_model(model, lora_config)

# Define training arguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    weight_decay=0.01,
    warmup_steps=100,
    save_steps=500,
    logging_steps=50,
    fp16=True
)

# Initialize the Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator
)

# Start training

trainer.train()

Monitorando o progresso do treinamento

Instale e inicie o TensorBoard para monitorar o treinamento:

pip install tensorboard
tensorboard --logdir=./results/runs

Acesse o TensorBoard em http://localhost:6006/.


Avaliando o modelo ajustado

Após o ajuste fino, avalie o desempenho do modelo:

from peft import PeftModel

# Load the base model

base_model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Load the fine-tuned model

fine_tuned_model = PeftModel.from_pretrained(
    base_model,
    "./results/checkpoint-1000"
)

# Merge weights

merged_model = fine_tuned_model.merge_and_unload()

# Evaluate on test prompts

test_prompts = [
    "Explain reinforcement learning.",
    "Discuss ethical considerations in AI."
]

for prompt in test_prompts:
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = merged_model.generate(
        **inputs,
        max_length=512,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )
    print(f"Prompt: {prompt}")
    print(f"Response: {tokenizer.decode(outputs, skip_special_tokens=True)}")
    print("-" * 50)

Estratégias de otimização de desempenho

Gerenciamento de memória

Implemente pontos de verificação de gradiente e treinamento de precisão mista para otimizar o uso de memória:

# Enable gradient checkpointing

model.gradient_checkpointing_enable()

# Configure training arguments

training_args = TrainingArguments(
    fp16=True,
    bf16=False,
    optim="adamw_torch",
    # Additional arguments...

)

Solução de problemas comuns

Erros de falta de memória CUDA:

  • Reduza o tamanho do lote.
  • Habilitar ponto de verificação de gradiente.
  • Utilize quantização de 8 bits.
  • Implementar acumulação de gradiente.

Desempenho de treinamento lento:

  • Ativar atenção instantânea.
  • Aumente o tamanho do lote se a memória permitir.
  • Operações de descarregamento para a CPU.
  • Integre o DeepSpeed ​​para configurações com várias GPUs.

Conclusão

A implantação e o ajuste fino do LLaMA 4 localmente oferecem a você uma ferramenta de IA robusta, adaptada às suas necessidades específicas. Seguindo este guia, você poderá aproveitar todo o potencial do LLaMA 4, garantindo privacidade de dados, personalização e soluções de IA econômicas.

Começando a jornada

A CometAPI fornece acesso a mais de 500 modelos de IA, incluindo modelos multimodais especializados e de código aberto para bate-papo, imagens, código e muito mais. Seu principal ponto forte é simplificar o processo tradicionalmente complexo de integração de IA.

CometAPI oferecemos um preço muito mais baixo do que o preço oficial para ajudá-lo a integrar API do Llama 4, e você receberá $1 em sua conta após registrar e fazer login! Bem-vindo para registrar e experimentar o CometAPI. O CometAPI paga conforme você usa,API do Llama 4 no CometAPI O preço é estruturado da seguinte forma:

Categorialhama-4-mavericklhama-4-scout
Preços da APITokens de entrada: $ 0.48 / M tokensTokens de entrada: $ 0.216 / M tokens
Tokens de saída: $ 1.44/ M tokensTokens de saída: $ 1.152/ M tokens

Comece a construir CometAPI hoje – inscreva-se aqui para acesso gratuito ou escala sem limites de taxa atualizando para um Plano pago CometAPI.

Leia Mais

500+ Modelos em Uma API

Até 20% de Desconto