Cara Memuat Turun Stable Diffusion — Panduan Langkah demi Langkah - CometAPI

Stable Diffusion kekal sebagai keluarga model teks-ke-imej sumber terbuka yang paling banyak digunakan. Stability AI terus berinovasi (terutamanya menerbitkan siri Stable Diffusion 3 dan penambahbaikan SDXL). Dengan pelancaran terkini Stable Diffusion 3.5, keupayaan teknologi ini berkembang lebih jauh, menawarkan kualiti imej yang dipertingkat, pemahaman gesaan yang lebih baik, dan aplikasi yang lebih fleksibel. Panduan ini memberikan gambaran menyeluruh tentang Stable Diffusion, daripada cara kerjanya hinggalah panduan pemasangan langkah demi langkah, untuk membantu anda memanfaatkan potensi kreatif AI yang mengubah permainan ini.

CometAPI, ia menyediakan API awan Stable Diffusion untuk penjanaan imej.

Apakah itu Stable Diffusion?

Stable Diffusion ialah model pembelajaran mendalam yang menjana imej daripada penerangan teks, satu teknologi yang dikenali sebagai sintesis teks-ke-imej. Tidak seperti banyak penjana imej AI lain, Stable Diffusion bersumber terbuka, membolehkan sesiapa sahaja menggunakannya, mengubah suai, dan membina di atas teknologi tersebut.

Model ini dilatih pada set data imej yang sangat besar beserta penerangan teks yang sepadan, membolehkannya mempelajari hubungan kompleks antara kata dan konsep visual. Apabila anda memberikan gesaan teks, Stable Diffusion menggunakan pengetahuan yang dipelajari ini untuk mencipta imej unik yang sepadan dengan penerangan anda. Tahap perincian dan realistik yang boleh dicapai adalah luar biasa, merangkumi imej fotorealistik hingga ilustrasi fantasi dalam pelbagai gaya.

Keupayaan Melangkaui Teks-ke-Imej

Walaupun fungsi utamanya adalah menjana imej daripada teks, keupayaan Stable Diffusion melangkaui ciri teras ini. Serbagunanya menjadikannya alat komprehensif untuk pelbagai tugas kreatif:

Imej-ke-Imej: Anda boleh menyediakan imej sedia ada dan gesaan teks untuk membimbing model mengubah imej asal. Ciri ini sesuai untuk penggayaan artistik, penerokaan konsep, dan eksperimen kreatif.
Inpainting dan Outpainting: Stable Diffusion membolehkan anda mengubah suai bahagian tertentu imej (inpainting) atau mengembangkan imej melangkaui sempadan asalnya (outpainting). Ini sangat berguna untuk pemulihan foto, pembuangan objek, dan memperluas kanvas karya anda.
Penciptaan Video: Dengan kemajuan terkini, Stable Diffusion kini boleh digunakan untuk mencipta video dan animasi, membuka kemungkinan baharu untuk penceritaan visual dinamik.
ControlNets: Ini ialah model tambahan yang memberikan kawalan lebih tepat terhadap proses penjanaan imej, membolehkan anda menentukan pose, peta kedalaman, dan elemen struktur lain.

Sumber Terbuka dan Kebolehcapaian

Salah satu aspek paling signifikan bagi Stable Diffusion ialah sifat sumber terbukanya. Kod dan pemberat model tersedia secara terbuka, yang bermakna anda boleh menjalankannya pada komputer anda sendiri, dengan syarat anda mempunyai perkakasan yang diperlukan. Tahap kebolehcapaian ini membezakannya daripada banyak perkhidmatan penjanaan imej AI proprietari dan menjadi faktor utama dalam penerimaan meluasnya. Keupayaan untuk menjalankan model secara tempatan memberikan pengguna kebebasan kreatif dan kawalan penuh ke atas karya mereka, tanpa sekatan kandungan atau yuran perkhidmatan yang dikaitkan dengan sesetengah platform dalam talian.

Bagaimanakah Stable Diffusion berfungsi?

Pendekatan pendam secara dramatik mengurangkan kos memori dan pengiraan berbanding difusi ruang piksel, yang menjadikan Stable Diffusion praktikal pada GPU pengguna. Varian seperti SDXL dan keluarga 3.x meningkatkan kesetiaan berbilang subjek, resolusi dan pengendalian gesaan; keluaran baharu diterbitkan secara berkala oleh Stability dan komuniti.

Komponen Utama: VAE, U-Net, dan Pengekod Teks

Stable Diffusion terdiri daripada tiga komponen utama yang bekerjasama untuk menjana imej:

Variational Autoencoder (VAE): VAE bertanggungjawab untuk memampatkan imej beresolusi tinggi daripada data latihan ke dalam perwakilan ruang pendam yang lebih kecil dan untuk menyahmampatkan perwakilan pendam terjana kembali kepada imej beresolusi penuh.

U-Net: Ini ialah teras model, sebuah rangkaian neural yang beroperasi dalam ruang pendam. U-Net dilatih untuk meramal dan menyingkirkan hingar yang ditambah semasa proses difusi. Ia mengambil perwakilan pendam berhingar dan gesaan teks sebagai input dan menghasilkan perwakilan pendam yang telah dinyahhingar.

Pengekod Teks: Pengekod teks menukarkan gesaan teks anda kepada perwakilan berangka yang boleh difahami oleh U‑Net. Stable Diffusion lazimnya menggunakan pengekod teks pralatih bernama CLIP (Contrastive Language-Image Pre-Training), yang telah dilatih pada set data besar imej dan kapsyennya. CLIP sangat berkesan dalam menangkap makna semantik teks dan menterjemahkannya ke dalam format yang boleh membimbing proses penjanaan imej.

Proses Penyahhingaran

Proses penjanaan imej dalam Stable Diffusion boleh diringkaskan seperti berikut:

Pengekodan Teks: Gesaan teks anda dihantar melalui pengekod teks (CLIP) untuk mencipta pembenaman teks.
Penjanaan Hingar Rawak: Imej hingar rawak dijana dalam ruang pendam.
Gelung Penyahhingaran: U‑Net menyahhingar imej hingar rawak secara berulang, dipandu oleh pembenaman teks. Pada setiap langkah, U‑Net meramal hingar dalam imej pendam dan menolaknya, secara beransur‑ansur memperincikan imej agar sepadan dengan gesaan.
Penyahkodan Imej: Setelah proses penyahhingaran selesai, perwakilan pendam akhir dihantar melalui penyahkod VAE untuk menjana imej resolusi tinggi terakhir.

Perkakasan dan Perisian Apakah yang Diperlukan?

Panduan perkakasan tipikal

GPU: NVIDIA dengan sokongan CUDA sangat disarankan. Untuk penggunaan moden yang lancar, sasarkan ≥8 GB VRAM bagi resolusi sederhana; 12–24 GB memberikan pengalaman jauh lebih selesa untuk resolusi tinggi atau model ketepatan campuran. Eksperimen sangat kecil mungkin pada kad VRAM lebih rendah dengan pengoptimuman, tetapi prestasi dan saiz imej maksimum akan terhad.
CPU / RAM: Mana-mana CPU berbilang teras moden dan ≥16 GB RAM ialah garis asas praktikal.
Storan: SSD (NVMe disyorkan) dan 20–50 GB ruang kosong untuk menyimpan model, cache dan fail tambahan.
OS: Linux (varian Ubuntu) paling mudah untuk pengguna lanjutan; Windows 10/11 disokong sepenuhnya untuk pakej GUI; Docker berfungsi untuk pelayan.

Prasyarat perisian

Python 3.10+ atau persekitaran Conda.
Toolkit CUDA / pemacu NVIDIA untuk GPU anda dan roda PyTorch yang sepadan (melainkan anda merancang penggunaan CPU sahaja, yang sangat perlahan).
Git, Git LFS (untuk sesetengah muat turun model), dan secara pilihan akaun Hugging Face untuk muat turun model yang memerlukan penerimaan lesen.

Penting—lesen & keselamatan: Banyak titik semak Stable Diffusion tersedia di bawah lesen komuniti Stability AI atau lesen model khusus dan memerlukan penerimaan sebelum dimuat turun. Model yang dihoskan di Hugging Face sering memerlukan anda log masuk ke akaun Hugging Face dan menerima terma secara eksplisit; muat turun automatik akan gagal tanpa kelulusan tersebut.

Bagaimanakah Saya Memasang Stable Diffusion (Panduan Langkah demi Langkah)?

Di bawah ialah tiga laluan pemasangan praktikal. Pilih yang sepadan dengan keperluan anda:

Laluan A — GUI Penuh: AUTOMATIC1111 Stable Diffusion WebUI (terbaik untuk penggunaan interaktif, banyak pemalam komuniti).
Laluan B — Berpengaturcaraan: Laluan paip diffusers Hugging Face (terbaik untuk integrasi dan skrip).
Laluan C — Awan / Docker: Gunakan VM awan atau kontena jika anda tiada sumber GPU tempatan.

Bagaimana Memuat Turun Pemberat Model dan Menerima Lesen?

Pemberat model Stable Diffusion diedarkan dalam beberapa cara:

Keluaran rasmi Stability AI — Stability menerbitkan model teras dan mengumumkan keluaran utama (3.x, SDXL, dll.). Model ini selalunya tersedia daripada laman web Stability dan juga daripada Hugging Face.
Kad model Hugging Face — Banyak titik semak komuniti dan rasmi dihoskan di Hugging Face. Untuk kebanyakan titik semak SD yang diterbitkan, anda mesti log masuk dan menerima lesen model sebelum memuat turun. API diffusers mematuhi aliran ini.
Hab komuniti (Civitai, GitHub, dll.) — Ini mengehos titik semak komuniti, embedding, dan LoRA; semak lesen setiap aset.

Langkah praktikal untuk memuat turun:

Cipta akaun Hugging Face jika perlu.
Lawati halaman model (sebagai contoh stabilityai/stable-diffusion-3-5) dan terima lesen.
Gunakan huggingface-cli atau dialog muat turun model WebUI. Untuk model yang menyokong Git LFS, pasang git lfs dan lakukan git clone mengikut arahan.

Bagaimana Memasang AUTOMATIC1111 WebUI pada Windows atau Linux?

WebUI AUTOMATIC1111 ialah GUI popular yang aktif diselenggara dengan banyak sambungan dan pilihan konfigurasi. Reponya menyediakan nota keluaran dan pelancar yang mudah.

1) Pra-pemeriksaan (Windows)

Pasang pemacu NVIDIA terkini untuk GPU anda.
Pasang Git for Windows.
Jika anda lebih suka Conda: pasang Miniconda.

2) Klon dan lancarkan (Windows)

Buka PowerShell atau Command Prompt, kemudian jalankan:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

Skrip akan memasang pakej Python, memuat turun komponen yang diperlukan, dan membuka antara muka web pada http://127.0.0.1:7860 secara lalai. Jika projek meminta fail model, lihat langkah Muat turun model di bawah.

3) Klon dan lancarkan (Linux)

Disyorkan: cipta virtualenv atau persekitaran conda.

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

Pada Linux anda selalunya perlu memasang PyTorch yang didayakan CUDA yang sesuai sebelum melancarkan untuk memastikan pecutan GPU.

Tempat meletakkan pemberat model: Letakkan fail model .ckpt, .safetensors atau fail SDXL ke dalam models/Stable-diffusion/ (cipta folder jika perlu). WebUI mengesan pemberat secara automatik.

Bagaimana Memasang Stable Diffusion dengan Hugging Face Diffusers ?

Laluan ini paling sesuai jika anda mahukan paip yang boleh diprogram dan diskrip atau anda mengintegrasikan penjanaan ke dalam aplikasi.

1) Pasang pakej Python

Cipta dan aktifkan persekitaran maya, kemudian pasang pakej yang diperlukan:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

Petua: pasang roda PyTorch yang betul untuk versi CUDA anda menggunakan halaman pemasangan PyTorch rasmi. Dokumentasi diffusers menyenaraikan set pakej yang serasi.

2) Sahkan dan muat turun model (Hugging Face)

Banyak titik semak Stable Diffusion di Hugging Face memerlukan anda log masuk dan menerima lesen. Dalam terminal:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

Untuk memuatkan model secara pengaturcaraan (contoh bagi titik semak yang dihoskan di Hugging Face):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

Jika sesuatu model memerlukan use_auth_token=True dalam versi lama, sediakan use_auth_token=HUGGINGFACE_TOKEN atau pastikan huggingface-cli login telah dijalankan. Sentiasa rujuk kad model untuk arahan lesen.

Bagaimana Saya Menggunakan Instans Awan atau Docker?

Jika anda tiada GPU tempatan yang sesuai, gunakan VM awan (AWS, GCP, Azure) dengan GPU NVIDIA atau instans AI khusus. Sebagai alternatif, banyak repo WebUI menerbitkan Dockerfile atau imej Docker komuniti.

Corak Docker ringkas (contoh):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

Penyedia awan sering mengenakan caj mengikut jam; untuk pengeluaran atau kegunaan pasukan, nilaikan perkhidmatan terurus seperti Hugging Face Inference Endpoints atau API Stability sendiri. Ini berbayar tetapi mengurangkan overhead operasi.

Penyelesaian Masalah dan Petua Prestasi

Isu biasa

Pemasangan gagal pada torch atau ketidakpadanan CUDA. Pastikan roda PyTorch anda sepadan dengan versi CUDA (pemacu) sistem; gunakan pemasang rasmi PyTorch untuk menjana arahan pip yang betul.
Muat turun model disekat / 403. Pastikan anda telah log masuk ke Hugging Face dan menerima lesen model. Sesetengah model memerlukan Git LFS.
OOM (kehabisan memori). Kurangkan resolusi inferens, tukar kepada separuh ketepatan (torch_dtype=torch.float16), atau aktifkan xformers / perhatian cekap memori dalam WebUI.

Penalaan prestasi

Pasang xformers (jika disokong) untuk perhatian cekap memori.
Gunakan flag --precision full vs --precision fp16 bergantung pada kestabilan.
Jika memori GPU anda terhad, pertimbangkan nyahmuat ke CPU atau gunakan format safetensors yang boleh menjadi lebih pantas dan selamat.

Apa Yang Baharu dengan Stable Diffusion 3.5?

Keluaran Stable Diffusion 3.5 membawa pelbagai penambahbaikan dan ciri baharu yang lebih meningkatkan keupayaan model penjanaan imej yang berkuasa ini.

Kualiti Imej Dipertingkat dan Pematuhan Gesaan Yang Lebih Baik

Stable Diffusion 3.5 menampilkan peningkatan ketara dalam kualiti imej, dengan fotorealisme, pencahayaan, dan perincian yang lebih baik. Ia juga mempunyai pemahaman yang jauh lebih baik terhadap gesaan teks yang kompleks, menghasilkan imej yang lebih tepat mencerminkan visi kreatif pengguna. Rendering teks turut dipertingkat, menjadikannya mampu menjana imej dengan teks yang boleh dibaca.

Model Baharu: Large dan Turbo

Stable Diffusion 3.5 tersedia dalam dua varian utama:

Stable Diffusion 3.5 Large: Ini ialah model paling berkuasa, mampu menghasilkan imej berkualiti tertinggi. Ia memerlukan GPU dengan sekurang-kurangnya 16GB VRAM.
Stable Diffusion 3.5 Large Turbo: Model ini dioptimumkan untuk kelajuan dan boleh dijalankan pada GPU dengan hanya 8GB VRAM. Ia menjana imej jauh lebih pantas berbanding model Large, sambil mengekalkan tahap kualiti yang tinggi.

Pengoptimuman dan Kolaborasi

Stability AI telah bekerjasama dengan NVIDIA dan AMD untuk mengoptimumkan prestasi Stable Diffusion 3.5 pada perkakasan masing‑masing. Pengoptimuman ini, termasuk sokongan untuk TensorRT dan FP8 pada GPU NVIDIA RTX, menghasilkan masa penjanaan lebih pantas dan penggunaan memori berkurang, menjadikan Stable Diffusion lebih mudah diakses oleh lebih ramai pengguna.

Bagaimanakah saya boleh menjalankan Stable Diffusion tanpa GPU tempatan

Jika anda kekurangan GPU yang berkeupayaan, gunakan CometAPI, ia menyediakan API awan Stable Diffusion untuk penjanaan imej, serta API penjanaan imej lain seperti GPT Image 1.5 API dan Nano Banano Series API.

Kesimpulan

Stable Diffusion telah mengubah secara asas cara kita mencipta dan berinteraksi dengan imej digital. Sifat sumber terbukanya, digabungkan dengan keupayaan yang sentiasa berkembang, telah memperkasakan komuniti pencipta global untuk meneroka sempadan artistik baharu. Dengan keluaran Stable Diffusion 3.5, alat berkuasa ini menjadi lebih mudah diakses dan serbaguna, menawarkan gambaran masa depan di mana satu-satunya had pada apa yang boleh kita cipta ialah imaginasi kita sendiri. Sama ada anda seorang artis berpengalaman, pembangun yang ingin tahu, atau sekadar seseorang yang mahu bereksperimen dengan kuasa AI, panduan ini menyediakan asas yang anda perlukan untuk bermula dengan Stable Diffusion dan membuka potensi kreatif anda.

Untuk bermula, ciptalah karya di CometAPI dalam Playground. Pastikan anda telah log masuk untuk mendapatkan kunci API anda dan mula membina hari ini.

Sedia untuk bermula? → Percubaan percuma Stable Diffusion melalui CometAPI!

Cara Memuat Turun Stable Diffusion — Panduan Langkah demi Langkah