如何下載 Stable Diffusion — 逐步指南

CometAPI
AnnaJan 17, 2026
如何下載 Stable Diffusion — 逐步指南

Stable Diffusion 仍然是最廣泛使用的開源文生圖(text-to-image)模型家族。Stability AI 持續迭代(尤其發布 Stable Diffusion 3 系列與 SDXL 的改進)。隨著 Stable Diffusion 3.5 的近期推出,該技術的能力進一步擴展,帶來更佳的影像品質、更精準的提示理解,以及更靈活的應用。本文將從原理到逐步安裝指南,全面介紹 Stable Diffusion,助你釋放這項劃時代 AI 的創意潛能。

CometAPI,它提供用於圖像生成的 Stable Diffusion 雲端 API。

什麼是 Stable Diffusion?

Stable Diffusion 是一種深度學習模型,可根據文字描述生成圖像,這項技術通常稱為「文生圖合成」。與許多其他 AI 圖像生成器不同,Stable Diffusion 是開源的,任何人都可以使用、修改並在此技術上進行開發。

該模型在大量圖片與對應文字描述上進行訓練,藉此學習詞語與視覺概念之間的複雜關係。當你提供一段文字提示時,Stable Diffusion 會運用這些已學得的知識,生成與描述相符的獨特圖像。其可達到的細節與真實感相當驚人,從照片級寫實到各式風格的奇幻插畫皆能勝任。

超越文生圖的能力

雖然其主要功能是從文字生成圖像,Stable Diffusion 的能力遠不止於此。它的多樣性讓它成為廣泛創意任務的綜合工具:

  • Image-to-Image: 你可以提供一張現有圖片與一段文字提示,指引模型轉換原始圖像。非常適合藝術風格化、概念探索與創意實驗。
  • Inpainting 與 Outpainting: Stable Diffusion 允許選擇性地修改圖像的部分區域(inpainting,局部重繪),或將圖像延伸至原有邊界之外(outpainting,外延生成)。這對於照片修復、物件移除與擴充畫布非常有用。
  • 影片創作: 隨著近期進展,Stable Diffusion 也可用於製作影片與動畫,為動態視覺敘事開啟新可能。
  • ControlNets: 這些是額外的模型,可對生成過程提供更精確的控制,讓你能指定姿勢、深度圖與其他結構要素。

開源與可近性

Stable Diffusion 最重要的特點之一是其開源性。程式碼與模型權重皆公開,只要硬體足夠,你就能在自己的電腦上執行。這種可近性使其有別於許多專有的 AI 圖像生成服務,也成為其廣泛普及的關鍵。能在本機執行代表使用者對作品擁有完整創作自由與掌控,不受部分線上平台內容限制或服務費用的約束。

Stable Diffusion 如何運作?

潛空間(latent)方法相較於像素空間擴散,大幅降低了記憶體與運算成本,這正是 Stable Diffusion 能在消費級 GPU 上實用化的原因。SDXL 與 3.x 系列等變體在多主體保真度、解析度與提示處理上有所提升;Stability 與社群也會定期發佈新版本。

關鍵組件:VAE、U‑Net 與文字編碼器

Stable Diffusion 由三個主要組件協同運作以生成圖像:

Variational Autoencoder (VAE): VAE 負責把訓練資料中的高解析度圖像壓縮到較小的潛空間表示,並將生成出的潛向量解碼回完整解析度的圖像。

U‑Net: 模型的核心,是在潛空間中運作的神經網路。U‑Net 經過訓練,用來預測與移除在擴散過程中加入的雜訊。它接收含噪的潛向量與文字提示作為輸入,輸出較為去噪的潛向量。

文字編碼器(Text Encoder): 將你的文字提示轉換為 U‑Net 可理解的數值表示。Stable Diffusion 通常使用預訓練的文字編碼器 CLIP(Contrastive Language-Image Pre-Training),該模型以龐大的圖片與說明資料訓練而成,能有效擷取文字語意並轉化為指引圖像生成的形式。

去噪流程

Stable Diffusion 的圖像生成流程可概述如下:

  1. 文字編碼: 將你的文字提示透過文字編碼器(CLIP)轉換為文字嵌入。
  2. 隨機噪聲生成: 在潛空間中生成一張隨機噪聲圖。
  3. 反覆去噪: U‑Net 在文字嵌入的指引下,對隨機噪聲圖進行多步去噪。在每一步中,U‑Net 預測潛圖中的噪聲並將其移除,逐步將圖像精煉為符合提示的結果。
  4. 圖像解碼: 去噪完成後,將最終的潛向量透過 VAE 解碼器生成高解析度的最終圖像。

我需要哪些硬體與軟體?

常見硬體建議

  • GPU: 強烈建議使用支援 CUDA 的 NVIDIA 顯示卡。若要流暢處理現代工作負載,建議 ≥8 GB VRAM 可跑中等解析度;12–24 GB 可在高解析度或混合精度模型下更舒適。透過各種優化,較低顯存的顯卡也能做小型實驗,但效能與最大圖像尺寸會受限。
  • CPU / RAM: 任一現代多核心 CPU 與 ≥16 GB RAM 為實用基準。
  • 儲存: SSD(建議 NVMe)與 20–50 GB 可用空間,用於存放模型、快取與其他檔案。
  • OS: 進階使用者以 Linux(Ubuntu 系列)最便利;Windows 10/11 對 GUI 套件有完整支援;伺服器可採用 Docker。

軟體前置條件

  • Python 3.10+ 或 Conda 環境。
  • CUDA 工具鏈/對應的 NVIDIA 驅動與匹配的 PyTorch 套件(除非計劃僅用 CPU,但會非常慢)。
  • Git、Git LFS(部分模型下載需要),以及可選的 Hugging Face 帳號(對需接受授權條款的模型)。

重要——授權與安全: 許多 Stable Diffusion 檢查點採用 Stability AI 的社群授權或特定模型授權,下載前需先接受條款。託管於 Hugging Face 的模型常要求你登入帳號並明確同意條款;若未同意,自動化下載將失敗。


我該如何安裝 Stable Diffusion(逐步指南)?

以下提供三種實用安裝路線,請依需求選擇:

  • 路線 A — 完整 GUI: AUTOMATIC1111 Stable Diffusion WebUI(互動性最佳,社群外掛眾多)。
  • 路線 B — 程式化: Hugging Face diffusers 管線(適合整合與腳本化)。
  • 路線 C — 雲端/Docker: 若你沒有本機 GPU,請使用雲端 VM 或容器。

如何下載模型權重並接受授權條款?

Stable Diffusion 的模型權重有多種發佈方式:

  1. Stability AI 官方發佈 —— Stability 發佈核心模型並宣布主要版本(3.x、SDXL 等)。這些模型通常可在 Stability 官方網站與 Hugging Face 取得。
  2. Hugging Face 模型頁 —— 許多官方與社群檢查點託管於 Hugging Face。對多數 SD 檢查點,你必須登入並接受模型授權後才能下載。diffusers API 會遵循此流程。
  3. 社群平台(Civitai、GitHub 等) —— 託管社群檢查點、嵌入與 LoRA;請檢視每個資產的授權條款。

實務下載步驟:

  • 如有需要,先建立 Hugging Face 帳號。
  • 造訪模型頁(例如 stabilityai/stable-diffusion-3-5),接受授權條款。
  • 使用 huggingface-cli 或 WebUI 的模型下載對話框。對使用 Git LFS 的模型,請安裝 git lfs 並依說明 git clone

如何在 Windows 或 Linux 安裝 AUTOMATIC1111 WebUI?

AUTOMATIC1111 的 WebUI 是熱門且持續維護的 GUI,擁有眾多擴充與設定選項。此倉庫提供發行說明與簡潔的啟動器。

1) 起步檢查(Windows)

  • 為你的 GPU 安裝最新版 NVIDIA 驅動。
  • 安裝 Git for Windows。
  • 若偏好 Conda:安裝 Miniconda。

2) 下載並啟動(Windows)

開啟 PowerShell 或命令提示字元,然後執行:

# 下載 WebUI 原始碼
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 在 Windows 上,隨附的批次檔會處理相依套件。
# 使用以下命令取得所需資源並啟動:
.\webui-user.bat
# 或(較舊版本):
# .\run.bat

此腳本會安裝 Python 套件、下載必要元件,並預設在 http://127.0.0.1:7860 開啟網頁介面。若專案需要模型檔,請見下方「模型下載」步驟。

3) 下載並啟動(Linux)

建議:建立 virtualenv 或 conda 環境。

# 系統前置需求:Python3、git、wget(以 Ubuntu 為例)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 建立虛擬環境並啟用
python3 -m venv venv
source venv/bin/activate

# 啟動(啟動器將自動安裝需求套件)
python launch.py

在 Linux 上,通常需要先安裝對應 CUDA 的 PyTorch,以確保能使用 GPU 加速。

模型權重放置位置:.ckpt.safetensors 或 SDXL 檔案放入 models/Stable-diffusion/(如無此資料夾請建立)。WebUI 會自動偵測權重。


如何使用 Hugging Face Diffusers 安裝 Stable Diffusion?

若你希望擁有可程式化、可腳本化的管線,或要整合到應用中,此路線最適合。

1) 安裝 Python 套件

建立並啟用虛擬環境,然後安裝必要套件:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# 核心套件(示例——請依官方 PyTorch 網站為你的系統調整 CUDA 版輪檔)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

提示:請依官方 PyTorch 安裝頁選擇正確的 CUDA 版 PyTorch 輪檔。diffusers 文件亦列出相容的套件組合。

2) 驗證並下載模型(Hugging Face)

Hugging Face 上的許多 Stable Diffusion 檢查點需要你先登入並接受授權條款。在終端機中:

pip install huggingface_hub
huggingface-cli login
# 系統會提示你貼上 token(可於 Hugging Face 帳號設定頁取得)

以程式方式載入模型(以下示例為託管於 Hugging Face 的檢查點):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # 範例;請替換為你已同意授權的模型
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("一張日出時分山巒的專業攝影照片", num_inference_steps=25).images[0]
image.save("output.png")

若模型在舊版需要 use_auth_token=True,請提供 use_auth_token=HUGGINGFACE_TOKEN,或先完成 huggingface-cli login。請務必參考模型卡上的授權說明。


我要如何使用雲端主機或 Docker?

若你缺乏合適的本機 GPU,可使用具備 NVIDIA GPU 的雲端 VM(AWS、GCP、Azure)或專用 AI 方案。或者,許多 WebUI 倉庫提供 Dockerfile 或社群 Docker 映像。

簡單的 Docker 範例:

# 取得社群映像(使用前請驗證來源可信度)
docker pull automatic1111/stable-diffusion-webui:latest

# 執行(綁定 7860 埠)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

雲端供應商通常按時計費;若用於正式環境或團隊合作,可評估如 Hugging Face Inference Endpoints 或 Stability 自家 API 等託管服務。這些為付費方案,但可降低營運負擔。


疑難排解與效能建議

常見問題

  • 安裝在 torch 或 CUDA 不相容時失敗。 請確認所安裝的 PyTorch 輪檔與系統 CUDA(驅動)版本一致;使用官方 PyTorch 安裝頁提供的 pip 指令。
  • 模型下載被阻擋/403。 確保已登入 Hugging Face 並接受模型授權。部分模型需要 Git LFS。
  • OOM(記憶體不足)。 降低推論解析度、切換為半精度(torch_dtype=torch.float16),或在 WebUI 啟用 xformers/記憶體高效注意力。

效能調校

  • 安裝 xformers(若支援)以啟用記憶體高效注意力。
  • 依穩定性需求選擇 --precision full--precision fp16 旗標。
  • 若 GPU 記憶體有限,可考慮 CPU offload,或使用 safetensors 格式以獲得更快且更安全的載入。

Stable Diffusion 3.5 有哪些新功能?

Stable Diffusion 3.5 帶來眾多改進與新功能,進一步提升此強大圖像生成模型的能力。

影像品質與提示遵循性提升

Stable Diffusion 3.5 在影像品質上有顯著提升,包括更佳的寫實度、光影與細節。它對複雜文字提示的理解也更到位,生成結果更契合使用者的創意意圖。文字渲染亦獲改進,能生成可辨識且清晰的文字。

新模型:Large 與 Turbo

Stable Diffusion 3.5 主要有兩種變體:

  • Stable Diffusion 3.5 Large 這是最強大的模型,能產出最高品質的影像。需要至少 16GB VRAM 的 GPU。
  • Stable Diffusion 3.5 Large Turbo: 此模型針對速度最佳化,可在僅有 8GB VRAM 的 GPU 上運行。與 Large 相比能更快生成圖像,同時維持高水準品質。

最佳化與合作

Stability AI 與 NVIDIA、AMD 合作,針對其硬體最佳化 Stable Diffusion 3.5 的效能。這些最佳化(包括對 NVIDIA RTX GPU 的 TensorRT 與 FP8 支援)帶來更快的生成速度與更低的記憶體占用,讓更多使用者能更輕鬆地使用 Stable Diffusion。

如果沒有本機 GPU,要如何執行 Stable Diffusion

若你缺乏足夠能力的 GPU,可使用 CometAPI,它提供用於圖像生成的 Stable Diffusion 雲端 API,以及其他影像生成 API,例如 GPT Image 1.5 API 與 Nano Banano Series API。

結語

Stable Diffusion 從根本上改變了我們創作與互動數位影像的方式。其開源特性與不斷擴張的能力,使全球創作者社群能探索全新的藝術邊界。隨著 Stable Diffusion 3.5 的發佈,這項強大的工具變得更易用且更多才多藝,讓我們一窺未來——唯一的限制,將是我們的想像力。無論你是資深藝術家、好奇的開發者,或只是想親身體驗 AI 力量的使用者,本指南都能為你打下使用 Stable Diffusion 的基礎,解鎖你的創意潛能。

要開始的話,可在 CometAPIPlayground 上創作。請先登入以取得你的 API key,立即開始打造你的作品。

Ready to start? → 透過 CometAPI 免費試用 Stable Diffusion!

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣