Stable Diffusion 仍然是最廣泛使用的開源文生圖(text-to-image)模型家族。Stability AI 持續迭代(尤其發布 Stable Diffusion 3 系列與 SDXL 的改進)。隨著 Stable Diffusion 3.5 的近期推出,該技術的能力進一步擴展,帶來更佳的影像品質、更精準的提示理解,以及更靈活的應用。本文將從原理到逐步安裝指南,全面介紹 Stable Diffusion,助你釋放這項劃時代 AI 的創意潛能。
CometAPI,它提供用於圖像生成的 Stable Diffusion 雲端 API。
什麼是 Stable Diffusion?
Stable Diffusion 是一種深度學習模型,可根據文字描述生成圖像,這項技術通常稱為「文生圖合成」。與許多其他 AI 圖像生成器不同,Stable Diffusion 是開源的,任何人都可以使用、修改並在此技術上進行開發。
該模型在大量圖片與對應文字描述上進行訓練,藉此學習詞語與視覺概念之間的複雜關係。當你提供一段文字提示時,Stable Diffusion 會運用這些已學得的知識,生成與描述相符的獨特圖像。其可達到的細節與真實感相當驚人,從照片級寫實到各式風格的奇幻插畫皆能勝任。
超越文生圖的能力
雖然其主要功能是從文字生成圖像,Stable Diffusion 的能力遠不止於此。它的多樣性讓它成為廣泛創意任務的綜合工具:
- Image-to-Image: 你可以提供一張現有圖片與一段文字提示,指引模型轉換原始圖像。非常適合藝術風格化、概念探索與創意實驗。
- Inpainting 與 Outpainting: Stable Diffusion 允許選擇性地修改圖像的部分區域(inpainting,局部重繪),或將圖像延伸至原有邊界之外(outpainting,外延生成)。這對於照片修復、物件移除與擴充畫布非常有用。
- 影片創作: 隨著近期進展,Stable Diffusion 也可用於製作影片與動畫,為動態視覺敘事開啟新可能。
- ControlNets: 這些是額外的模型,可對生成過程提供更精確的控制,讓你能指定姿勢、深度圖與其他結構要素。
開源與可近性
Stable Diffusion 最重要的特點之一是其開源性。程式碼與模型權重皆公開,只要硬體足夠,你就能在自己的電腦上執行。這種可近性使其有別於許多專有的 AI 圖像生成服務,也成為其廣泛普及的關鍵。能在本機執行代表使用者對作品擁有完整創作自由與掌控,不受部分線上平台內容限制或服務費用的約束。
Stable Diffusion 如何運作?
潛空間(latent)方法相較於像素空間擴散,大幅降低了記憶體與運算成本,這正是 Stable Diffusion 能在消費級 GPU 上實用化的原因。SDXL 與 3.x 系列等變體在多主體保真度、解析度與提示處理上有所提升;Stability 與社群也會定期發佈新版本。
關鍵組件:VAE、U‑Net 與文字編碼器
Stable Diffusion 由三個主要組件協同運作以生成圖像:
Variational Autoencoder (VAE): VAE 負責把訓練資料中的高解析度圖像壓縮到較小的潛空間表示,並將生成出的潛向量解碼回完整解析度的圖像。
U‑Net: 模型的核心,是在潛空間中運作的神經網路。U‑Net 經過訓練,用來預測與移除在擴散過程中加入的雜訊。它接收含噪的潛向量與文字提示作為輸入,輸出較為去噪的潛向量。
文字編碼器(Text Encoder): 將你的文字提示轉換為 U‑Net 可理解的數值表示。Stable Diffusion 通常使用預訓練的文字編碼器 CLIP(Contrastive Language-Image Pre-Training),該模型以龐大的圖片與說明資料訓練而成,能有效擷取文字語意並轉化為指引圖像生成的形式。
去噪流程
Stable Diffusion 的圖像生成流程可概述如下:
- 文字編碼: 將你的文字提示透過文字編碼器(CLIP)轉換為文字嵌入。
- 隨機噪聲生成: 在潛空間中生成一張隨機噪聲圖。
- 反覆去噪: U‑Net 在文字嵌入的指引下,對隨機噪聲圖進行多步去噪。在每一步中,U‑Net 預測潛圖中的噪聲並將其移除,逐步將圖像精煉為符合提示的結果。
- 圖像解碼: 去噪完成後,將最終的潛向量透過 VAE 解碼器生成高解析度的最終圖像。
我需要哪些硬體與軟體?
常見硬體建議
- GPU: 強烈建議使用支援 CUDA 的 NVIDIA 顯示卡。若要流暢處理現代工作負載,建議 ≥8 GB VRAM 可跑中等解析度;12–24 GB 可在高解析度或混合精度模型下更舒適。透過各種優化,較低顯存的顯卡也能做小型實驗,但效能與最大圖像尺寸會受限。
- CPU / RAM: 任一現代多核心 CPU 與 ≥16 GB RAM 為實用基準。
- 儲存: SSD(建議 NVMe)與 20–50 GB 可用空間,用於存放模型、快取與其他檔案。
- OS: 進階使用者以 Linux(Ubuntu 系列)最便利;Windows 10/11 對 GUI 套件有完整支援;伺服器可採用 Docker。
軟體前置條件
- Python 3.10+ 或 Conda 環境。
- CUDA 工具鏈/對應的 NVIDIA 驅動與匹配的 PyTorch 套件(除非計劃僅用 CPU,但會非常慢)。
- Git、Git LFS(部分模型下載需要),以及可選的 Hugging Face 帳號(對需接受授權條款的模型)。
重要——授權與安全: 許多 Stable Diffusion 檢查點採用 Stability AI 的社群授權或特定模型授權,下載前需先接受條款。託管於 Hugging Face 的模型常要求你登入帳號並明確同意條款;若未同意,自動化下載將失敗。
我該如何安裝 Stable Diffusion(逐步指南)?
以下提供三種實用安裝路線,請依需求選擇:
- 路線 A — 完整 GUI: AUTOMATIC1111 Stable Diffusion WebUI(互動性最佳,社群外掛眾多)。
- 路線 B — 程式化: Hugging Face diffusers 管線(適合整合與腳本化)。
- 路線 C — 雲端/Docker: 若你沒有本機 GPU,請使用雲端 VM 或容器。
如何下載模型權重並接受授權條款?
Stable Diffusion 的模型權重有多種發佈方式:
- Stability AI 官方發佈 —— Stability 發佈核心模型並宣布主要版本(3.x、SDXL 等)。這些模型通常可在 Stability 官方網站與 Hugging Face 取得。
- Hugging Face 模型頁 —— 許多官方與社群檢查點託管於 Hugging Face。對多數 SD 檢查點,你必須登入並接受模型授權後才能下載。
diffusersAPI 會遵循此流程。 - 社群平台(Civitai、GitHub 等) —— 託管社群檢查點、嵌入與 LoRA;請檢視每個資產的授權條款。
實務下載步驟:
- 如有需要,先建立 Hugging Face 帳號。
- 造訪模型頁(例如
stabilityai/stable-diffusion-3-5),接受授權條款。 - 使用
huggingface-cli或 WebUI 的模型下載對話框。對使用 Git LFS 的模型,請安裝git lfs並依說明git clone。
如何在 Windows 或 Linux 安裝 AUTOMATIC1111 WebUI?
AUTOMATIC1111 的 WebUI 是熱門且持續維護的 GUI,擁有眾多擴充與設定選項。此倉庫提供發行說明與簡潔的啟動器。
1) 起步檢查(Windows)
- 為你的 GPU 安裝最新版 NVIDIA 驅動。
- 安裝 Git for Windows。
- 若偏好 Conda:安裝 Miniconda。
2) 下載並啟動(Windows)
開啟 PowerShell 或命令提示字元,然後執行:
# 下載 WebUI 原始碼
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# 在 Windows 上,隨附的批次檔會處理相依套件。
# 使用以下命令取得所需資源並啟動:
.\webui-user.bat
# 或(較舊版本):
# .\run.bat
此腳本會安裝 Python 套件、下載必要元件,並預設在 http://127.0.0.1:7860 開啟網頁介面。若專案需要模型檔,請見下方「模型下載」步驟。
3) 下載並啟動(Linux)
建議:建立 virtualenv 或 conda 環境。
# 系統前置需求:Python3、git、wget(以 Ubuntu 為例)
sudo apt update && sudo apt install -y git python3-venv
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# 建立虛擬環境並啟用
python3 -m venv venv
source venv/bin/activate
# 啟動(啟動器將自動安裝需求套件)
python launch.py
在 Linux 上,通常需要先安裝對應 CUDA 的 PyTorch,以確保能使用 GPU 加速。
模型權重放置位置: 將 .ckpt、.safetensors 或 SDXL 檔案放入 models/Stable-diffusion/(如無此資料夾請建立)。WebUI 會自動偵測權重。
如何使用 Hugging Face Diffusers 安裝 Stable Diffusion?
若你希望擁有可程式化、可腳本化的管線,或要整合到應用中,此路線最適合。
1) 安裝 Python 套件
建立並啟用虛擬環境,然後安裝必要套件:
python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# 核心套件(示例——請依官方 PyTorch 網站為你的系統調整 CUDA 版輪檔)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub
提示:請依官方 PyTorch 安裝頁選擇正確的 CUDA 版 PyTorch 輪檔。
diffusers文件亦列出相容的套件組合。
2) 驗證並下載模型(Hugging Face)
Hugging Face 上的許多 Stable Diffusion 檢查點需要你先登入並接受授權條款。在終端機中:
pip install huggingface_hub
huggingface-cli login
# 系統會提示你貼上 token(可於 Hugging Face 帳號設定頁取得)
以程式方式載入模型(以下示例為託管於 Hugging Face 的檢查點):
from diffusers import StableDiffusionPipeline
import torch
model_id = "stabilityai/stable-diffusion-3-5" # 範例;請替換為你已同意授權的模型
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")
image = pipe("一張日出時分山巒的專業攝影照片", num_inference_steps=25).images[0]
image.save("output.png")
若模型在舊版需要 use_auth_token=True,請提供 use_auth_token=HUGGINGFACE_TOKEN,或先完成 huggingface-cli login。請務必參考模型卡上的授權說明。
我要如何使用雲端主機或 Docker?
若你缺乏合適的本機 GPU,可使用具備 NVIDIA GPU 的雲端 VM(AWS、GCP、Azure)或專用 AI 方案。或者,許多 WebUI 倉庫提供 Dockerfile 或社群 Docker 映像。
簡單的 Docker 範例:
# 取得社群映像(使用前請驗證來源可信度)
docker pull automatic1111/stable-diffusion-webui:latest
# 執行(綁定 7860 埠)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest
雲端供應商通常按時計費;若用於正式環境或團隊合作,可評估如 Hugging Face Inference Endpoints 或 Stability 自家 API 等託管服務。這些為付費方案,但可降低營運負擔。
疑難排解與效能建議
常見問題
- 安裝在
torch或 CUDA 不相容時失敗。 請確認所安裝的 PyTorch 輪檔與系統 CUDA(驅動)版本一致;使用官方 PyTorch 安裝頁提供的 pip 指令。 - 模型下載被阻擋/403。 確保已登入 Hugging Face 並接受模型授權。部分模型需要 Git LFS。
- OOM(記憶體不足)。 降低推論解析度、切換為半精度(
torch_dtype=torch.float16),或在 WebUI 啟用xformers/記憶體高效注意力。
效能調校
- 安裝
xformers(若支援)以啟用記憶體高效注意力。 - 依穩定性需求選擇
--precision full或--precision fp16旗標。 - 若 GPU 記憶體有限,可考慮 CPU offload,或使用
safetensors格式以獲得更快且更安全的載入。
Stable Diffusion 3.5 有哪些新功能?
Stable Diffusion 3.5 帶來眾多改進與新功能,進一步提升此強大圖像生成模型的能力。
影像品質與提示遵循性提升
Stable Diffusion 3.5 在影像品質上有顯著提升,包括更佳的寫實度、光影與細節。它對複雜文字提示的理解也更到位,生成結果更契合使用者的創意意圖。文字渲染亦獲改進,能生成可辨識且清晰的文字。
新模型:Large 與 Turbo
Stable Diffusion 3.5 主要有兩種變體:
- Stable Diffusion 3.5 Large: 這是最強大的模型,能產出最高品質的影像。需要至少 16GB VRAM 的 GPU。
- Stable Diffusion 3.5 Large Turbo: 此模型針對速度最佳化,可在僅有 8GB VRAM 的 GPU 上運行。與 Large 相比能更快生成圖像,同時維持高水準品質。
最佳化與合作
Stability AI 與 NVIDIA、AMD 合作,針對其硬體最佳化 Stable Diffusion 3.5 的效能。這些最佳化(包括對 NVIDIA RTX GPU 的 TensorRT 與 FP8 支援)帶來更快的生成速度與更低的記憶體占用,讓更多使用者能更輕鬆地使用 Stable Diffusion。
如果沒有本機 GPU,要如何執行 Stable Diffusion
若你缺乏足夠能力的 GPU,可使用 CometAPI,它提供用於圖像生成的 Stable Diffusion 雲端 API,以及其他影像生成 API,例如 GPT Image 1.5 API 與 Nano Banano Series API。
結語
Stable Diffusion 從根本上改變了我們創作與互動數位影像的方式。其開源特性與不斷擴張的能力,使全球創作者社群能探索全新的藝術邊界。隨著 Stable Diffusion 3.5 的發佈,這項強大的工具變得更易用且更多才多藝,讓我們一窺未來——唯一的限制,將是我們的想像力。無論你是資深藝術家、好奇的開發者,或只是想親身體驗 AI 力量的使用者,本指南都能為你打下使用 Stable Diffusion 的基礎,解鎖你的創意潛能。
要開始的話,可在 CometAPI 的 Playground 上創作。請先登入以取得你的 API key,立即開始打造你的作品。
Ready to start? → 透過 CometAPI 免費試用 Stable Diffusion!
