Stable Diffusion 仍然是最廣泛使用的開源文字轉圖像模型家族。Stability AI 持續迭代(尤其發布了 Stable Diffusion 3 系列與 SDXL 的改進)。隨著近期 Stable Diffusion 3.5 的推出,該技術的能力進一步擴展,提供更高的圖像品質、更好的提示詞理解,以及更靈活的應用場景。本指南全面介紹了 Stable Diffusion,從其內部運作原理到逐步安裝教學,幫助你掌握這項突破性 AI 的創意潛力。
CometAPI,提供 Stable Diffusion 的雲端 API 用於圖像生成。
什麼是 Stable Diffusion?
Stable Diffusion 是一種深度學習模型,可根據文字描述生成圖像,這項技術稱為文字轉圖像合成。與許多其他 AI 圖像生成器不同,Stable Diffusion 是開源的,任何人都可以使用、修改並在此基礎上構建。
模型在大量圖像及其對應文字描述上進行訓練,從而學習文字與視覺概念之間的複雜關係。當你提供一段文字提示時,Stable Diffusion 會利用這些學到的知識來創建與你的描述相符的獨特圖像。其可達到的細節與真實感相當驚人,從照片級寫實到充滿幻想的插畫,涵蓋各式各樣的風格。
超越文字轉圖像的能力
雖然其主要功能是從文字生成圖像,但 Stable Diffusion 的能力遠不止於此。其多樣性使其成為適用於廣泛創意工作的完整工具:
- Image-to-Image: 你可以提供一張現有圖像及一段文字提示,指導模型對原圖進行轉換。此功能非常適合藝術風格化、概念探索與創意實驗。
- Inpainting 與 Outpainting: Stable Diffusion 允許你選擇性地修改圖像的部分區域(inpainting),或將圖像延伸至原始邊界之外(outpainting)。這對於照片修復、物件移除與擴展畫布創作特別有用。
- 影片創作: 隨著近期的進展,Stable Diffusion 現在可用於創建影片與動畫,為動態視覺敘事開啟新的可能。
- ControlNets: 這些是額外的模型,可對圖像生成過程提供更精確的控制,允許你指定姿勢、深度圖等結構元素。
開源與可及性
Stable Diffusion 最重要的方面之一在於其開源性。程式碼與模型權重均公開,這意味著只要你具備必要的硬體,就可以在自己的電腦上運行。這種可及性使其有別於許多專有的 AI 圖像生成服務,也是其廣泛採用的關鍵因素。將模型在本地運行能讓使用者對自己的作品擁有完全的創作自由與控制權,無需承擔某些線上平台的內容限制或服務費用。
Stable Diffusion 如何運作?
潛在空間的方法相較於像素空間的擴散大幅降低了記憶體與運算成本,這正是 Stable Diffusion 能在消費級 GPU 上實用化的關鍵。SDXL 與 3.x 系列等變體改進了多主體保真度、解析度與提示處理;Stability 與社群會定期發布新版本。
核心組件:VAE、U-Net 與文字編碼器
Stable Diffusion 由三個主要組件組成,協同工作以生成圖像:
Variational Autoencoder (VAE): VAE 負責將訓練資料中的高解析度圖像壓縮至較小的潛在空間表示,並將生成的潛在表示解碼回完整解析度的圖像。
U-Net: 這是模型的核心,是在潛在空間中運作的神經網路。U-Net 被訓練來預測並去除在擴散過程中加入的雜訊。它接收帶雜訊的潛在表示與文字提示作為輸入,輸出去噪後的潛在表示。
文字編碼器: 文字編碼器將你的提示詞轉換為 U-Net 可理解的數值表示。Stable Diffusion 通常使用名為 CLIP(Contrastive Language-Image Pre-Training)的預訓練文字編碼器,它在龐大的圖像與標註資料上進行訓練。CLIP 能高效捕捉文字的語義,並將其轉化為可引導圖像生成過程的格式。
去噪過程
Stable Diffusion 的圖像生成流程可概括如下:
- 文字編碼: 你的提示詞會通過文字編碼器(CLIP)以產生文字向量。
- 隨機雜訊生成: 在潛在空間中生成一張隨機雜訊圖。
- 去噪迴圈: U-Net 在文字向量的引導下對隨機雜訊圖進行多次迭代去噪。在每一步中,U-Net 預測潛在圖像中的雜訊並將其減去,使圖像逐步擬合提示描述。
- 圖像解碼: 去噪完成後,最終的潛在表示會通過 VAE 解碼器,生成最終的高解析度圖像。
我需要哪些硬體與軟體?
典型硬體建議
- GPU: 強烈建議使用支援 CUDA 的 NVIDIA。若要流暢使用現代模型,目標為 ≥8 GB VRAM 可應付中等解析度;12–24 GB 對高解析度或混合精度模型會更從容。較低 VRAM 的顯卡可透過優化進行小規模實驗,但效能與最大圖像尺寸將受限。
- CPU / RAM: 任一現代多核心 CPU 與 ≥16 GB RAM 是實務基線。
- 儲存: SSD(建議 NVMe)以及 20–50 GB 可用空間以存放模型、快取與附屬檔案。
- OS: 進階使用者以 Linux(Ubuntu 系列)最方便;Windows 10/11 對 GUI 套件有完整支援;伺服器可使用 Docker。
軟體先決條件
- Python 3.10+ 或 Conda 環境。
- 你的 GPU 對應的 CUDA 工具組 / NVIDIA 驅動與相符的 PyTorch 版本(除非你打算僅用 CPU,但速度會非常慢)。
- Git、Git LFS(用於部分模型下載),以及可選的 Hugging Face 帳號(對需同意授權的模型下載很常見)。
重要——授權與安全: 許多 Stable Diffusion 檢查點使用 Stability AI 的社群授權或特定模型授權,且下載前需先接受條款。託管於 Hugging Face 的模型通常要求你登入帳號並明確接受條款;未經批准的自動化下載將失敗。
我該如何安裝 Stable Diffusion(逐步指南)?
以下是三條實用的安裝路徑。選擇最符合你需求的一條:
- 路徑 A — 完整 GUI: AUTOMATIC1111 Stable Diffusion WebUI(適合互動使用,擁有大量社群外掛)。
- 路徑 B — 程式化: Hugging Face diffusers 流程(適合整合與腳本化)。
- 路徑 C — 雲端 / Docker: 若本地缺乏 GPU 資源,使用雲端 VM 或容器。
我如何下載模型權重並接受授權?
Stable Diffusion 的模型權重透過多種方式發布:
- Stability AI 官方發布 — Stability 發布核心模型並宣佈主要版本(3.x、SDXL 等)。這些模型通常可從 Stability 的網站與 Hugging Face 取得。
- Hugging Face 模型卡 — 許多官方與社群檢查點託管於 Hugging Face。大多數已發布的 SD 檢查點在下載前需登入並接受模型授權。
diffusersAPI 遵循此流程。 - 社群平台(Civitai、GitHub 等) — 託管社群檢查點、embeddings 與 LoRA;請查看每個資產的授權。
下載的實務步驟:
- 如有需要,建立 Hugging Face 帳號。
- 造訪模型頁面(例如
stabilityai/stable-diffusion-3-5)並接受授權。 - 使用
huggingface-cli或 WebUI 的模型下載對話框。對於由 Git LFS 支援的模型,安裝git lfs並依說明進行git clone。
我如何在 Windows 或 Linux 安裝 AUTOMATIC1111 WebUI?
AUTOMATIC1111 的 WebUI 是一個廣受歡迎且持續維護的 GUI,提供眾多擴充與設定選項。此儲存庫提供發行說明與簡單明瞭的啟動程式。
1) 預先檢查(Windows)
- 安裝你 GPU 的最新 NVIDIA 驅動。
- 安裝 Git for Windows。
- 若偏好 Conda:安裝 Miniconda。
2) 複製並啟動(Windows)
開啟 PowerShell 或命令提示字元,然後執行:
# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat
此腳本會安裝 Python 套件、下載所需元件,並預設於 http://127.0.0.1:7860 開啟網頁介面。若專案要求提供模型檔案,請參考下方的模型下載步驟。
3) 複製並啟動(Linux)
建議:建立一個 virtualenv 或 conda 環境。
# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# Create a venv and activate
python3 -m venv venv
source venv/bin/activate
# Launch (the launcher will install requirements)
python launch.py
在 Linux 上,你通常需要在啟動前安裝對應的 CUDA 版 PyTorch,以確保能使用 GPU 加速。
模型權重要放在哪裡: 將模型 .ckpt、.safetensors 或 SDXL 檔案放入 models/Stable-diffusion/(如需自行建立資料夾)。WebUI 會自動偵測權重。
我如何使用 Hugging Face Diffusers 安裝 Stable Diffusion?
若你想要可程式化、可腳本化的流程,或將生成整合至應用程式,此路徑最適合。
1) 安裝 Python 套件
建立並啟用虛擬環境,然後安裝所需套件:
python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub
提示:請使用官方 PyTorch 安裝頁面為你的 CUDA 版本安裝正確的 PyTorch。
diffusers文件列出了相容的套件組合。
2) 認證並下載模型(Hugging Face)
Hugging Face 上的許多 Stable Diffusion 檢查點要求你登入並接受授權。在終端機中:
pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)
以程式方式載入模型(範例:從 Hugging Face 託管的檢查點):
from diffusers import StableDiffusionPipeline
import torch
model_id = "stabilityai/stable-diffusion-3-5" # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")
image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")
如果某些模型在舊版本中需要 use_auth_token=True,請提供 use_auth_token=HUGGINGFACE_TOKEN,或確保已執行 huggingface-cli login。務必查閱模型卡以了解授權指示。
我如何使用雲端執行個體或 Docker?
如果你缺乏合適的本地 GPU,可使用具有 NVIDIA GPU 的雲端 VM(AWS、GCP、Azure),或專門的 AI 執行個體。或者,許多 WebUI 儲存庫提供 Dockerfile 或社群 Docker 映像。
簡單的 Docker 模式(範例):
# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest
# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest
雲端供應商通常按小時計費;若用於生產或團隊,評估如 Hugging Face Inference Endpoints 或 Stability 自家的 API 等受管服務。這些服務需付費,但能降低運維負擔。
疑難排解與效能建議
常見問題
- 安裝在
torch或 CUDA 不相符處失敗。 確認你的 PyTorch 版本與系統 CUDA(驅動)版本相符;使用官方 PyTorch 安裝器產生正確的 pip 指令。 - 模型下載被阻擋 / 403。 確保已登入 Hugging Face 並接受模型授權。有些模型需要 Git LFS。
- OOM(記憶體不足)。 降低推論解析度、切換至半精度(
torch_dtype=torch.float16),或在 WebUI 啟用xformers/ 記憶體高效注意力機制。
效能調校
- 安裝
xformers(若支援)以使用記憶體高效的注意力機制。 - 依穩定性選擇
--precision full與--precision fp16。 - 若 GPU 記憶體有限,考慮 CPU offload,或使用速度更快且更安全的
safetensors格式。
Stable Diffusion 3.5 有哪些新進展?
Stable Diffusion 3.5 的發布帶來一系列改進與新功能,進一步強化了這套強大圖像生成模型的能力。
更佳的圖像品質與提示詞遵循
Stable Diffusion 3.5 在圖像品質上有顯著提升,包括更好的寫實度、光影與細節。同時對複雜提示詞的理解大幅增強,使輸出更準確地反映使用者的創意構想。文字渲染也有所改進,能生成可辨讀的文字圖像。
新模型:Large 與 Turbo
Stable Diffusion 3.5 主要提供兩個變體:
- Stable Diffusion 3.5 Large: 這是最強大的模型,能產生最高品質的圖像。需要至少 16GB VRAM 的 GPU。
- Stable Diffusion 3.5 Large Turbo: 此模型針對速度進行優化,最低可在 8GB VRAM 的 GPU 上運行。與 Large 相比生成速度更快,同時維持相當高的品質。
最佳化與合作
Stability AI 與 NVIDIA、AMD 合作,針對其硬體最佳化 Stable Diffusion 3.5 的效能。這些最佳化包含對 NVIDIA RTX GPU 上的 TensorRT 與 FP8 的支援,帶來更快的生成時間與更低的記憶體用量,使 Stable Diffusion 對更多使用者而言更具可及性。
如何在沒有本地 GPU 的情況下運行 Stable Diffusion
如果你缺乏足夠能力的 GPU,使用 CometAPI,它提供 Stable Diffusion 的雲端 API 以進行圖像生成,還有其他圖像生成 API,如 GPT Image 1.5 API 與 Nano Banano Series API。
結語
Stable Diffusion 徹底改變了我們創作與使用數位影像的方式。其開源性與不斷擴展的能力,使全球創作者社群能探索全新的藝術疆界。隨著 Stable Diffusion 3.5 的發布,這項強大工具變得更易取得且更具多樣性,讓我們得以一窺未來:唯一能限制創作的,將只有我們的想像力。無論你是資深藝術家、充滿好奇的開發者,或只是想體驗 AI 力量的人,本指南都能為你提供開始使用 Stable Diffusion 的基礎,釋放你的創意潛能。
開始之前,請在 CometAPI 的 Playground 中創作。請確保你已登入以取得 API 金鑰,立刻開始動手打造。
準備開始了嗎?→ 透過 CometAPI 免費試用 Stable Diffusion!
