Cara Muat Turun Stable Diffusion — Panduan Langkah demi Langkah - CometAPI

Stable Diffusion kekal sebagai keluarga model teks-ke-imej sumber terbuka yang paling meluas digunakan. Stability AI terus mengulangkaji (terutamanya menerbitkan siri Stable Diffusion 3 dan penambahbaikan SDXL). Dengan pelancaran terkini Stable Diffusion 3.5, keupayaan teknologi ini berkembang lebih jauh, menawarkan kualiti imej yang dipertingkatkan, pemahaman gesaan yang lebih baik, dan aplikasi yang lebih fleksibel. Panduan ini menyediakan tinjauan menyeluruh tentang Stable Diffusion, daripada cara kerjanya hinggalah panduan pemasangan langkah demi langkah, membolehkan anda memanfaatkan potensi kreatif AI terobosan ini.

CometAPI, ia menyediakan API awan untuk Stable Diffusion bagi penjanaan imej.

Apakah itu Stable Diffusion?

Stable Diffusion ialah model pembelajaran mendalam yang menjana imej daripada huraian teks, satu teknologi yang dikenali sebagai sintesis teks-ke-imej. Tidak seperti banyak penjana imej AI lain, Stable Diffusion adalah sumber terbuka, membolehkan sesiapa sahaja mengguna, mengubah suai, dan membina di atas teknologi ini.

Model ini dilatih pada set data besar imej dan huraian teks yang sepadan, membolehkannya mempelajari hubungan kompleks antara perkataan dan konsep visual. Apabila anda memberikan gesaan teks, Stable Diffusion menggunakan pengetahuan yang dipelajari ini untuk mencipta imej unik yang sepadan dengan penerangan anda. Tahap perincian dan realisme yang boleh dicapai adalah mengagumkan, merangkumi daripada imej fotorealistik hinggalah ilustrasi fantastik dalam pelbagai gaya.

Keupayaan Melangkaui Teks ke Imej

Walaupun fungsi utamanya ialah menjana imej daripada teks, keupayaan Stable Diffusion melangkaui ciri teras ini. Serba bolehnya menjadikannya alat menyeluruh untuk pelbagai tugas kreatif:

Imej-ke-Imej: Anda boleh menyediakan imej sedia ada dan gesaan teks untuk memandu model mengubah imej asal. Ciri ini sesuai untuk penggayaan artistik, penerokaan konsep, dan eksperimen kreatif.
Inpainting dan Outpainting: Stable Diffusion membolehkan anda mengubah bahagian tertentu imej (inpainting) atau meluaskan imej melebihi sempadan asalnya (outpainting). Ini amat berguna untuk pemulihan foto, pembuangan objek, dan meluaskan kanvas karya anda.
Penciptaan Video: Dengan kemajuan terkini, Stable Diffusion kini boleh digunakan untuk mencipta video dan animasi, membuka kemungkinan baharu untuk penceritaan visual dinamik.
ControlNets: Ini ialah model tambahan yang memberikan kawalan lebih tepat ke atas proses penjanaan imej, membolehkan anda menentukan pose, peta kedalaman, dan elemen struktur lain.

Sumber Terbuka dan Kebolehcapaian

Salah satu aspek paling signifikan Stable Diffusion ialah sifat sumber terbukanya. Kod dan pemberat model tersedia secara umum, yang bermakna anda boleh menjalankannya pada komputer anda sendiri, dengan syarat anda mempunyai perkakasan yang diperlukan. Tahap kebolehcapaian ini membezakannya daripada banyak perkhidmatan penjanaan imej AI proprietari dan menjadi faktor utama dalam penerimaan meluasnya. Keupayaan menjalankan model secara setempat memberikan pengguna kebebasan kreatif dan kawalan penuh ke atas karya mereka, tanpa sekatan kandungan atau yuran perkhidmatan yang dikaitkan dengan sesetengah platform dalam talian.

Bagaimanakah Stable Diffusion berfungsi?

Pendekatan terpendam secara dramatik mengurangkan penggunaan memori dan kos pengiraan berbanding difusi dalam ruang piksel, yang menjadikan Stable Diffusion praktikal pada GPU pengguna. Variasi seperti SDXL dan keluarga 3.x menambah baik kesetiaan berbilang subjek, resolusi dan pengendalian gesaan; keluaran baharu muncul secara berkala daripada Stability dan komuniti.

Komponen Utama: VAE, U-Net, dan Pengekod Teks

Stable Diffusion terdiri daripada tiga komponen utama yang bekerjasama untuk menjana imej:

Variational Autoencoder (VAE): VAE bertanggungjawab untuk memampatkan imej beresolusi tinggi daripada data latihan ke dalam perwakilan ruang terpendam yang lebih kecil dan untuk menyahmampatkan perwakilan terpendam yang dijana kembali kepada imej beresolusi penuh.

U-Net: Ini ialah teras model, rangkaian neural yang beroperasi dalam ruang terpendam. U-Net dilatih untuk meramal dan menanggalkan hingar yang ditambah semasa proses difusi. Ia mengambil perwakilan terpendam yang bising dan gesaan teks sebagai input dan mengeluarkan perwakilan terpendam yang dinyahbisingkan.

Pengekod Teks: Pengekod teks menukarkan gesaan teks anda kepada perwakilan berangka yang boleh difahami oleh U-Net. Stable Diffusion biasanya menggunakan pengekod teks pralatih bernama CLIP (Contrastive Language-Image Pre-Training), yang telah dilatih pada set data besar imej dan kapsyennya. CLIP sangat berkesan dalam menangkap makna semantik teks dan menterjemahkannya ke dalam format yang boleh memandu proses penjanaan imej.

Proses Penyahbisingan

Proses penjanaan imej dalam Stable Diffusion boleh diringkaskan seperti berikut:

Pengekodan Teks: Gesaan teks anda dilalui melalui pengekod teks (CLIP) untuk mencipta pembenaman teks.
Penjanaan Hingar Rawak: Imej hingar rawak dijana dalam ruang terpendam.
Gelung Nyahbising: U-Net menyahbising imej hingar secara beriterasi, dipandu oleh pembenaman teks. Pada setiap langkah, U-Net meramal hingar dalam imej terpendam dan menolaknya, secara beransur-ansur memperinci imej agar sepadan dengan gesaan.
Penyahkodan Imej: Setelah proses nyahbising selesai, perwakilan terpendam akhir dilalui melalui penyahkod VAE untuk menjana imej akhir beresolusi tinggi.

Perkakasan dan Perisian Apakah yang Diperlukan?

Panduan perkakasan lazim

GPU: NVIDIA dengan sokongan CUDA sangat disyorkan. Untuk kegunaan moden yang lancar, sasar ≥8 GB VRAM bagi resolusi sederhana; 12–24 GB memberikan pengalaman jauh lebih selesa untuk resolusi tinggi atau model ketepatan campuran. Eksperimen kecil mungkin boleh dilakukan pada kad VRAM rendah dengan pengoptimuman, tetapi prestasi dan saiz imej maksimum akan terhad.
CPU / RAM: Mana-mana CPU berbilang teras moden dan ≥16 GB RAM ialah asas yang praktikal.
Storan: SSD (NVMe digalakkan) dan 20–50 GB ruang kosong untuk menyimpan model, cache dan fail tambahan.
OS: Linux (varian Ubuntu) paling mudah untuk pengguna lanjutan; Windows 10/11 disokong sepenuhnya untuk pakej GUI; Docker berfungsi untuk pelayan.

Prasyarat perisian

Python 3.10+ atau persekitaran Conda.
CUDA toolkit / pemacu NVIDIA untuk GPU anda dan roda PyTorch yang sepadan (melainkan anda merancang penggunaan CPU sahaja, yang sangat perlahan).
Git, Git LFS (untuk sesetengah muat turun model), dan secara pilihan akaun Hugging Face untuk muat turun model yang memerlukan penerimaan lesen.

Penting—lesen & keselamatan: Banyak checkpoint Stable Diffusion tersedia di bawah lesen komuniti Stability AI atau lesen model khusus dan memerlukan penerimaan sebelum muat turun. Model yang dihoskan di Hugging Face sering memerlukan anda log masuk ke akaun Hugging Face dan menerima terma dengan jelas; muat turun automatik akan gagal tanpa kelulusan tersebut.

Bagaimanakah Memasang Stable Diffusion (Panduan Langkah demi Langkah)?

Di bawah ialah tiga laluan pemasangan praktikal. Pilih laluan yang sepadan dengan keperluan anda:

Laluan A — GUI Penuh: AUTOMATIC1111 Stable Diffusion WebUI (terbaik untuk penggunaan interaktif, banyak plugin komuniti).
Laluan B — Berprogram: Paip Hugging Face diffusers (terbaik untuk integrasi dan penskripan).
Laluan C — Awan / Docker: Guna VM awan atau bekas jika anda kekurangan sumber GPU setempat.

Bagaimana Memuat Turun Pemberat Model dan Menerima Lesen?

Pemberat model Stable Diffusion diedarkan dalam beberapa cara:

Keluaran rasmi Stability AI — Stability menerbitkan model teras dan mengumumkan keluaran utama (3.x, SDXL, dan lain-lain). Model ini selalunya tersedia daripada laman web Stability dan daripada Hugging Face.
Kad model Hugging Face — Banyak checkpoint komuniti dan rasmi dihoskan di Hugging Face. Untuk kebanyakan checkpoint SD yang diterbitkan anda mesti log masuk dan menerima lesen model sebelum memuat turun. API diffusers mematuhi aliran ini.
Hab komuniti (Civitai, GitHub, dsb.) — Ini menghoskan checkpoint komuniti, embedding, dan LoRA; semak lesen setiap aset.

Langkah praktikal untuk memuat turun:

Cipta akaun Hugging Face jika perlu.
Lawati halaman model (contohnya stabilityai/stable-diffusion-3-5) dan terima lesen.
Guna huggingface-cli atau dialog muat turun model dalam WebUI. Untuk model disokong Git LFS, pasang git lfs dan git clone mengikut arahan.

Bagaimanakah Memasang AUTOMATIC1111 WebUI pada Windows atau Linux?

WebUI AUTOMATIC1111 ialah GUI popular yang aktif diselenggara dengan banyak sambungan dan pilihan konfigurasi. Reponya menyediakan nota keluaran dan pelancar yang mudah.

1) Pemeriksaan awal (Windows)

Pasang pemacu NVIDIA terkini untuk GPU anda.
Pasang Git untuk Windows.
Jika anda menggemari Conda: pasang Miniconda.

2) Klon dan lancarkan (Windows)

Buka Powershell atau Command Prompt, kemudian jalankan:

# klon WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Pada Windows, skrip batch yang disediakan akan mengendalikan kebergantungan.
# Gunakan yang berikut untuk mendapatkan semua dan melancarkan:
.\webui-user.bat
# atau, dalam keluaran lebih lama:
# .\run.bat

Skrip akan memasang pakej Python, memuat turun komponen yang diperlukan, dan membuka UI web pada http://127.0.0.1:7860 secara lalai. Jika projek meminta fail model, rujuk langkah Muat turun Model di bawah.

3) Klon dan lancarkan (Linux)

Disyorkan: cipta virtualenv atau persekitaran conda.

# prasyarat sistem: Python3, git, wget (contoh: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Cipta venv dan aktifkan
python3 -m venv venv
source venv/bin/activate

# Lancarkan (pelancar akan memasang keperluan)
python launch.py

Pada Linux anda sering perlu memasang PyTorch yang didayakan CUDA yang bersesuaian sebelum melancar untuk memastikan pecutan GPU.

Tempat meletakkan pemberat model: Letakkan fail model .ckpt, .safetensors atau fail SDXL ke dalam models/Stable-diffusion/ (cipta folder jika perlu). WebUI akan mengesan pemberat secara automatik.

Bagaimanakah Memasang Stable Diffusion dengan Hugging Face Diffusers?

Laluan ini terbaik jika anda mahukan paip yang berprogram, boleh diskrip atau anda mengintegrasikan penjanaan ke dalam aplikasi.

1) Pasang pakej Python

Cipta dan aktifkan persekitaran maya, kemudian pasang pakej yang diperlukan:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Pakej teras (contoh - sesuaikan wheel CUDA untuk sistem anda mengikut laman PyTorch)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

Petua: pasang roda PyTorch yang betul untuk versi CUDA anda menggunakan laman pemasangan rasmi PyTorch. Dokumentasi diffusers menyenaraikan set pakej serasi.

2) Pengesahan dan muat turun model (Hugging Face)

Banyak checkpoint Stable Diffusion di Hugging Face memerlukan anda log masuk dan menerima lesen. Dalam terminal:

pip install huggingface_hub
huggingface-cli login
# anda akan digesa untuk menampal token anda (dapatkan daripada seting akaun Hugging Face anda)

Untuk memuatkan model secara berprogram (contoh untuk checkpoint yang dihoskan di Hugging Face):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # contoh; gantikan dengan model yang anda setujui
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("Foto profesional sebuah gunung pada waktu matahari terbit", num_inference_steps=25).images[0]
image.save("output.png")

Jika model memerlukan use_auth_token=True dalam versi lebih lama, bekalkan use_auth_token=HUGGINGFACE_TOKEN atau pastikan huggingface-cli login telah dilaksanakan. Sentiasa rujuk kad model untuk arahan lesen.

Bagaimanakah Menggunakan Instans Awan atau Docker?

Jika anda kekurangan GPU setempat yang sesuai, gunakan VM awan (AWS, GCP, Azure) dengan GPU NVIDIA atau instans AI khusus. Sebagai alternatif, banyak repo WebUI menerbitkan Dockerfile atau imej Docker komuniti.

Pola Docker ringkas (contoh):

# tarik imej komuniti (sahkan keaslian sebelum digunakan)
docker pull automatic1111/stable-diffusion-webui:latest

# jalankan (pemetaan port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

Penyedia awan sering mengenakan caj mengikut jam; untuk produksi atau kegunaan pasukan, nilaikan perkhidmatan terurus seperti Hugging Face Inference Endpoints atau API milik Stability sendiri. Ini berbayar tetapi mengurangkan beban operasi.

Penyelesaian Masalah dan Petua Prestasi

Isu lazim

Pemasangan gagal pada torch atau ketidakpadanan CUDA. Semak bahawa roda PyTorch anda sepadan dengan versi CUDA (pemacu) sistem; gunakan pemasang rasmi PyTorch untuk menjana perintah pip yang betul.
Muat turun model disekat / 403. Pastikan anda log masuk ke Hugging Face dan menerima lesen model. Sesetengah model memerlukan Git LFS.
OOM (kehabisan memori). Kurangkan resolusi inferens, tukar kepada separuh ketepatan (torch_dtype=torch.float16), atau benarkan xformers / memory efficient attention dalam WebUI.

Penalaan prestasi

Pasang xformers (jika disokong) untuk attention cekap memori.
Guna flag --precision full berbanding --precision fp16 bergantung pada kestabilan.
Jika memori GPU anda terhad, pertimbangkan pemindahan beban ke CPU atau menggunakan format safetensors yang boleh lebih pantas dan lebih selamat.

Apa Yang Baharu dengan Stable Diffusion 3.5?

Keluaran Stable Diffusion 3.5 menghadirkan pelbagai penambahbaikan dan ciri baharu yang selanjutnya meningkatkan keupayaan model penjanaan imej berkuasa ini.

Kualiti Imej Dipertingkat dan Pematuhan Gesaan

Stable Diffusion 3.5 menampilkan peningkatan ketara dalam kualiti imej, dengan fotorealisme, pencahayaan, dan perincian yang lebih baik. Ia juga mempunyai pemahaman yang jauh lebih baik terhadap gesaan teks kompleks, menghasilkan imej yang lebih tepat mencerminkan visi kreatif pengguna. Perenderan teks turut dipertingkat, menjadikannya mungkin untuk menjana imej dengan teks yang boleh dibaca.

Model Baharu: Large dan Turbo

Stable Diffusion 3.5 tersedia dalam dua varian utama:

Stable Diffusion 3.5 Large: Ini ialah model paling berkuasa, mampu menghasilkan imej berkualiti tertinggi. Ia memerlukan GPU dengan sekurang-kurangnya 16GB VRAM.
Stable Diffusion 3.5 Large Turbo: Model ini dioptimumkan untuk kelajuan dan boleh dijalankan pada GPU serendah 8GB VRAM. Ia menjana imej jauh lebih pantas daripada model Large, sambil mengekalkan tahap kualiti yang tinggi.

Pengoptimuman dan Kolaborasi

Stability AI telah bekerjasama dengan NVIDIA dan AMD untuk mengoptimumkan prestasi Stable Diffusion 3.5 pada perkakasan masing-masing. Pengoptimuman ini, termasuk sokongan untuk TensorRT dan FP8 pada GPU NVIDIA RTX, menghasilkan masa penjanaan yang lebih pantas dan penggunaan memori yang berkurang, menjadikan Stable Diffusion lebih mudah diakses oleh lebih ramai pengguna.

Bagaimanakah saya boleh menjalankan Stable Diffusion tanpa GPU tempatan

Jika anda kekurangan GPU yang berkeupayaan, gunakan CometAPI, ia menyediakan API awan Stable Diffusion untuk penjanaan imej, dan API penjanaan imej lain seperti GPT Image 1.5 API dan Nano Banano Series API.

Kesimpulan

Stable Diffusion telah mengubah secara asas cara kita mencipta dan berinteraksi dengan imejan digital. Sifat sumber terbukanya, digabungkan dengan keupayaannya yang sentiasa berkembang, telah memperkasa komuniti pencipta global untuk meneroka sempadan artistik baharu. Dengan keluaran Stable Diffusion 3.5, alat berkuasa ini menjadi lebih mudah diakses dan serba boleh, menawarkan sekilas masa depan di mana satu-satunya had kepada apa yang boleh kita cipta ialah imaginasi kita sendiri. Sama ada anda seorang artis berpengalaman, pembangun yang ingin tahu, atau sekadar seseorang yang mahu bereksperimen dengan kuasa AI, panduan ini menyediakan asas yang anda perlukan untuk bermula dengan Stable Diffusion dan membuka potensi kreatif anda.

Untuk bermula, cipta karya di CometAPI dalam Playground. Pastikan anda telah log masuk untuk memperoleh kunci API anda dan mula membina hari ini.

Sedia untuk bermula? → Percubaan percuma Stable Diffusion melalui CometAPI!

Cara Muat Turun Stable Diffusion — Panduan Langkah demi Langkah