Sådan downloader du Stable Diffusion — en trin-for-trin-guide - CometAPI

Stable Diffusion er fortsat den mest anvendte open source-familie af tekst-til-billede-modeller. Stability AI har fortsat med at iterere (bl.a. udgivet Stable Diffusion 3-serien og SDXL-forbedringer). Med den nylige lancering af Stable Diffusion 3.5 er teknologiens kapabiliteter udvidet yderligere, med forbedret billedkvalitet, bedre forståelse af prompts og mere fleksible anvendelser. Denne guide giver en omfattende gennemgang af Stable Diffusion, fra den indre virkemåde til en trinvis installationsvejledning, så du kan udnytte den kreative kraft i denne banebrydende AI.

CometAPI, den tilbyder en cloud-API til Stable Diffusion til billedgenerering.

Hvad er Stable Diffusion?

Stable Diffusion er en deep learning-model, der genererer billeder ud fra tekstbeskrivelser – en teknologi kendt som tekst-til-billede-generering. I modsætning til mange andre AI-billedgeneratorer er Stable Diffusion open source, så alle kan bruge, ændre og bygge videre på teknologien.

Modellen er trænet på et massivt datasæt af billeder og deres tilhørende tekstbeskrivelser, hvilket gør den i stand til at lære de komplekse relationer mellem ord og visuelle koncepter. Når du angiver en tekstprompt, bruger Stable Diffusion denne viden til at skabe et unikt billede, der matcher din beskrivelse. Det detaljeringsniveau og den realisme, der kan opnås, er bemærkelsesværdig, fra fotorealistiske billeder til fantasifulde illustrationer i et bredt udvalg af stilarter.

Funktioner ud over tekst-til-billede

Selvom dens primære funktion er generering af billeder ud fra tekst, rækker Stable Diffusions kapabiliteter langt ud over denne kernefunktion. Dens alsidighed gør den til et komplet værktøj for en lang række kreative opgaver:

Billede-til-billede: Du kan angive et eksisterende billede og en tekstprompt for at guide modellen til at transformere det oprindelige billede. Denne funktion er ideel til kunstnerisk stilisering, konceptudforskning og kreativ eksperimentering.
Inpainting og outpainting: Stable Diffusion gør det muligt selektivt at ændre dele af et billede (inpainting) eller udvide billedet ud over dets oprindelige kanter (outpainting). Dette er særdeles nyttigt til fotorestaurering, fjernelse af objekter og udvidelse af lærredet for dine kreationer.
Videogenerering: Med de seneste fremskridt kan Stable Diffusion nu bruges til at skabe videoer og animationer, hvilket åbner nye muligheder for dynamisk visuel fortælling.
ControlNets: Dette er supplerende modeller, der giver mere præcis kontrol over billedgenereringsprocessen, så du kan specificere positurer, dybdekort og andre strukturelle elementer.

Open source og tilgængelighed

En af de mest betydningsfulde aspekter ved Stable Diffusion er dens open source-natur. Kode og modelvægte er offentligt tilgængelige, hvilket betyder, at du kan køre den på din egen computer, forudsat at du har den nødvendige hardware. Denne grad af tilgængelighed adskiller den fra mange proprietære AI-billedtjenester og har været en nøglefaktor i dens udbredte adoption. Muligheden for at køre modellen lokalt giver brugere fuld kreativ frihed og kontrol over deres arbejde, uden indholdsrestriktioner eller servicegebyrer, som visse onlineplatforme kan have.

Hvordan fungerer Stable Diffusion?

Den latente tilgang reducerer markant hukommelses- og beregningsomkostninger sammenlignet med diffusion i pixelrummet, hvilket gjorde Stable Diffusion praktisk på forbruger-GPU'er. Varianter som SDXL og 3.x-familien forbedrer multisubjekt-troskab, opløsning og håndtering af prompts; nye udgivelser kommer jævnligt fra Stability og fællesskabet.

De centrale komponenter: VAE, U-Net og tekst-encoder

Stable Diffusion består af tre hovedkomponenter, der arbejder sammen om at generere billeder:

Variational Autoencoder (VAE): VAE’en er ansvarlig for at komprimere højopløsningsbilleder fra træningsdata til en mindre latent repræsentation og for at dekomprimere den genererede latente repræsentation tilbage til et billede i fuld opløsning.

U-Net: Dette er modellens kerne, et neuralt netværk, der opererer i det latente rum. U-Net trænes til at forudsige og fjerne den støj, der blev tilføjet under diffusionsprocessen. Den tager den støjfyldte latente repræsentation og tekstprompten som input og leverer en afstøjet latent repræsentation som output.

Tekst-encoder: Tekst-encoderen transformerer din tekstprompt til en numerisk repræsentation, som U-Net kan forstå. Stable Diffusion bruger typisk en prætrænet tekst-encoder kaldet CLIP (Contrastive Language-Image Pre-Training), som er trænet på et enormt datasæt af billeder og deres billedtekster. CLIP er meget effektiv til at fange den semantiske mening i tekst og oversætte den til et format, der kan guide billedgenereringsprocessen.

Afstøjningsprocessen

Billedgenereringsprocessen i Stable Diffusion kan opsummeres således:

Tekstkodning: Din tekstprompt sendes gennem tekst-encoderen (CLIP) for at skabe en tekstembedding.
Generering af tilfældig støj: Et tilfældigt støjbillede genereres i det latente rum.
Afstøjningssløjfe: U-Net afstøjner iterativt det tilfældige støjbillede, guidet af tekstembeddingen. For hvert trin forudsiger U-Net støjen i det latente billede og trækker den fra, så billedet gradvist forfines til at matche prompten.
Billeddekodning: Når afstøjningsprocessen er fuldført, sendes den endelige latente repræsentation gennem VAE’ens dekoder for at generere det endelige, højopløselige billede.

Hvilken hardware og software skal jeg bruge?

Typiske hardwareanbefalinger

GPU: NVIDIA med CUDA-understøttelse anbefales kraftigt. For smidig, moderne brug sigt efter ≥8 GB VRAM til beskedne opløsninger; 12–24 GB giver en langt mere komfortabel oplevelse til høj opløsning eller mixed-precision-modeller. Meget små eksperimenter er mulige på kort med lavere VRAM med optimeringer, men ydeevne og maksimal billedstørrelse vil være begrænset.
CPU / RAM: En moderne multi-core CPU og ≥16 GB RAM er et praktisk udgangspunkt.
Lager: SSD (NVMe foretrækkes) og 20–50 GB ledig plads til at lagre modeller, caches og hjælpefiler.
OS: Linux (Ubuntu-varianter) er mest bekvemt for avancerede brugere; Windows 10/11 er fuldt understøttet for GUI-pakker; Docker fungerer til servere.

Softwareforudsætninger

Python 3.10+ eller Conda-miljø.
CUDA-toolkit / NVIDIA-driver til din GPU og matchende PyTorch-hjul (medmindre du planlægger kun CPU, hvilket er meget langsomt).
Git, Git LFS (til nogle modeldownloads), og eventuelt en Hugging Face-konto til modeldownloads, der kræver licensaccept.

Vigtigt—licens og sikkerhed: Mange Stable Diffusion-checkpoints er tilgængelige under Stability AI’s community-licens eller specifikke modellicenser og kræver accept før download. Modeller hostet på Hugging Face kræver ofte, at du logger ind på en Hugging Face-konto og eksplicit accepterer vilkår; automatiske downloads mislykkes uden den godkendelse.

Hvordan installerer jeg Stable Diffusion (trin-for-trin guide)?

Nedenfor er tre praktiske installationsveje. Vælg den rute, der passer til dine behov:

Vej A — Fuld GUI: AUTOMATIC1111 Stable Diffusion WebUI (bedst til interaktiv brug, mange community-plugins).
Vej B — Programmerbar: Hugging Face diffusers-pipeline (bedst til integration og scripting).
Vej C — Cloud / Docker: Brug en cloud-VM eller container, hvis du mangler lokale GPU-ressourcer.

Hvordan downloader jeg modelvægte og accepterer licenser?

Stable Diffusion-modelvægte distribueres på flere måder:

Officielle udgivelser fra Stability AI — Stability udgiver kernemodeller og annoncerer større udgivelser (3.x, SDXL osv.). Disse modeller er ofte tilgængelige fra Stabilitys website og fra Hugging Face.
Hugging Face modelkort — Mange community- og officielle checkpoints hostes på Hugging Face. For de fleste publicerede SD-checkpoints skal du logge ind og acceptere modellens licens før download. diffusers-API’en respekterer dette flow.
Community-hubs (Civitai, GitHub osv.) — Disse hoster community-checkpoints, embeddings og LoRA’er; tjek licensen for hvert asset.

Praktiske trin til download:

Opret en Hugging Face-konto, hvis nødvendigt.
Besøg modelsiden (for eksempel stabilityai/stable-diffusion-3-5) og accepter licensen.
Brug huggingface-cli eller WebUI’ens modeldownload-dialog. For Git LFS-baserede modeller, installer git lfs og git clone efter anvisningerne.

Hvordan installerer jeg AUTOMATIC1111 WebUI på Windows eller Linux?

AUTOMATIC1111’s WebUI er en populær, aktivt vedligeholdt GUI med mange udvidelser og konfigurationsmuligheder. Repoen leverer udgivelsesnoter og en ligetil launcher.

1) Forberedelse (Windows)

Installer nyeste NVIDIA-driver til din GPU.
Installer Git for Windows.
Hvis du foretrækker Conda: installer Miniconda.

2) Klon og start (Windows)

Åbn PowerShell eller Kommandoprompt, og kør:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

Scriptet installerer Python-pakker, downloader påkrævede komponenter og åbner web-UI’et på http://127.0.0.1:7860 som standard. Hvis projektet beder om en modelfil, se trinnet om modeldownload nedenfor.

3) Klon og start (Linux)

Anbefalet: opret et virtualenv- eller conda-miljø.

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

På Linux skal du ofte installere den passende CUDA-understøttede PyTorch før start for at sikre GPU-acceleration.

Hvor skal modelvægte placeres: Læg modelfiler (.ckpt, .safetensors eller SDXL) i models/Stable-diffusion/ (opret mappen om nødvendigt). WebUI registrerer vægtene automatisk.

Hvordan installerer jeg Stable Diffusion med Hugging Face Diffusers ?

Denne vej er bedst, hvis du ønsker en programmerbar, scriptbar pipeline, eller hvis du integrerer generering i en applikation.

1) Installer Python-pakker

Opret og aktiver et virtuelt miljø, og installer derefter de nødvendige pakker:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

Tip: Installer det korrekte PyTorch-hjul til din CUDA-version via den officielle PyTorch-installationsside. Dokumentationen for diffusers oplister kompatible pakkesæt.

2) Godkend og download modeller (Hugging Face)

Mange Stable Diffusion-checkpoints på Hugging Face kræver, at du er logget ind og accepterer en licens. I en terminal:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

For programmatisk at indlæse en model (eksempel for et checkpoint hostet på Hugging Face):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

Hvis en model kræver use_auth_token=True i ældre versioner, angiv use_auth_token=HUGGINGFACE_TOKEN eller sørg for, at huggingface-cli login blev udført. Konsulter altid modelkortet for licensinstruktioner.

Hvordan bruger jeg en cloud-instans eller Docker?

Hvis du mangler en egnet lokal GPU, kan du bruge en cloud-VM (AWS, GCP, Azure) med en NVIDIA-GPU eller en specialiseret AI-instans. Alternativt publicerer mange WebUI-repos Dockerfiler eller community-Docker-images.

Et simpelt Docker-mønster (eksempel):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

Cloud-udbydere tager ofte betaling pr. time; til produktion eller teambrug kan du evaluere managed services såsom Hugging Face Inference Endpoints eller Stabilitys egne API’er. Disse er betalte, men reducerer driftsmæssig overhead.

Fejlfinding og ydelsestips

Almindelige problemer

Installation fejler på torch eller CUDA-mismatch. Tjek at dit PyTorch-hjul matcher systemets CUDA (driver) version; brug den officielle PyTorch-installationsside til at generere den korrekte pip-kommando.
Modeldownload blokeret / 403. Sørg for, at du er logget ind på Hugging Face og har accepteret modellens licens. Nogle modeller kræver Git LFS.
OOM (out of memory). Reducer inferensopløsningen, skift til halv præcision (torch_dtype=torch.float16), eller aktiver xformers / memory efficient attention i WebUI.

Ydelsesoptimering

Installer xformers (hvis understøttet) for memory-efficient attention.
Brug flagene --precision full vs --precision fp16 afhængigt af stabilitet.
Hvis du har begrænset GPU-hukommelse, overvej CPU-offload eller at bruge safetensors-formatet, som kan være hurtigere og mere sikkert.

Hvad er nyt i Stable Diffusion 3.5?

Udgivelsen af Stable Diffusion 3.5 bringer en række forbedringer og nye funktioner, der yderligere udvider kapabiliteterne i denne kraftfulde billedgenereringsmodel.

Forbedret billedkvalitet og promptfølgning

Stable Diffusion 3.5 byder på markante forbedringer i billedkvalitet, med bedre fotorealisme, lyslægning og detaljer. Den har også en langt bedre forståelse af komplekse tekstprompts, hvilket resulterer i billeder, der mere præcist afspejler brugerens kreative vision. Tekstgengivelse er også forbedret, så det er muligt at generere billeder med læsbar tekst.

Nye modeller: Large og Turbo

Stable Diffusion 3.5 fås i to hovedvarianter:

Stable Diffusion 3.5 Large: Dette er den mest kraftfulde model, i stand til at producere billeder af højeste kvalitet. Den kræver en GPU med mindst 16 GB VRAM.
Stable Diffusion 3.5 Large Turbo: Denne model er optimeret til hastighed og kan køre på GPU’er med så lidt som 8 GB VRAM. Den genererer billeder meget hurtigere end Large-modellen, mens den stadig opretholder en høj kvalitet.

Optimeringer og samarbejder

Stability AI har samarbejdet med NVIDIA og AMD for at optimere ydeevnen af Stable Diffusion 3.5 på deres respektive hardware. Disse optimeringer, som inkluderer understøttelse af TensorRT og FP8 på NVIDIA RTX-GPU’er, giver hurtigere genereringstider og reduceret hukommelsesforbrug, hvilket gør Stable Diffusion mere tilgængelig for en bredere brugergruppe.

Hvordan kan jeg køre Stable Diffusion uden lokal GPU

Hvis du mangler en egnet GPU, så brug CometAPI, den tilbyder cloud-API’er til Stable Diffusion til billedgenerering samt andre billedgenererings-API’er såsom GPT Image 1.5 API og Nano Banano Series API.

Konklusion

Stable Diffusion har fundamentalt ændret den måde, vi skaber og interagerer med digitale billeder på. Dens open source-natur kombineret med dens stadigt voksende kapabiliteter har givet et globalt fællesskab af skabere mulighed for at udforske nye kunstneriske grænser. Med udgivelsen af Stable Diffusion 3.5 er dette kraftfulde værktøj blevet endnu mere tilgængeligt og alsidigt, hvilket giver et glimt af en fremtid, hvor den eneste grænse for, hvad vi kan skabe, er vores egen fantasi. Uanset om du er en erfaren kunstner, en nysgerrig udvikler eller blot en, der vil eksperimentere med AI’ens kraft, giver denne guide det fundament, du behøver for at komme i gang med Stable Diffusion og frigøre dit kreative potentiale.

For at komme i gang, skab kunst på CometAPI i Playground. Sørg for, at du er logget ind for at få din API-nøgle, og begynd at bygge i dag.

Klar til at starte? → Gratis prøve af Stable Diffusion via CometAPI!

Sådan downloader du Stable Diffusion — en trin-for-trin-guide