如何下載 Stable Diffusion — 逐步指南 - CometAPI

Stable Diffusion 仍然是最廣泛使用的開源文生圖（text-to-image）模型家族。Stability AI 持續迭代（尤其發布 Stable Diffusion 3 系列與 SDXL 的改進）。隨著 Stable Diffusion 3.5 的近期推出，該技術的能力進一步擴展，帶來更佳的影像品質、更精準的提示理解，以及更靈活的應用。本文將從原理到逐步安裝指南，全面介紹 Stable Diffusion，助你釋放這項劃時代 AI 的創意潛能。

CometAPI，它提供用於圖像生成的 Stable Diffusion 雲端 API。

什麼是 Stable Diffusion？

Stable Diffusion 是一種深度學習模型，可根據文字描述生成圖像，這項技術通常稱為「文生圖合成」。與許多其他 AI 圖像生成器不同，Stable Diffusion 是開源的，任何人都可以使用、修改並在此技術上進行開發。

該模型在大量圖片與對應文字描述上進行訓練，藉此學習詞語與視覺概念之間的複雜關係。當你提供一段文字提示時，Stable Diffusion 會運用這些已學得的知識，生成與描述相符的獨特圖像。其可達到的細節與真實感相當驚人，從照片級寫實到各式風格的奇幻插畫皆能勝任。

超越文生圖的能力

雖然其主要功能是從文字生成圖像，Stable Diffusion 的能力遠不止於此。它的多樣性讓它成為廣泛創意任務的綜合工具：

Image-to-Image： 你可以提供一張現有圖片與一段文字提示，指引模型轉換原始圖像。非常適合藝術風格化、概念探索與創意實驗。
Inpainting 與 Outpainting： Stable Diffusion 允許選擇性地修改圖像的部分區域（inpainting，局部重繪），或將圖像延伸至原有邊界之外（outpainting，外延生成）。這對於照片修復、物件移除與擴充畫布非常有用。
影片創作： 隨著近期進展，Stable Diffusion 也可用於製作影片與動畫，為動態視覺敘事開啟新可能。
ControlNets： 這些是額外的模型，可對生成過程提供更精確的控制，讓你能指定姿勢、深度圖與其他結構要素。

開源與可近性

Stable Diffusion 最重要的特點之一是其開源性。程式碼與模型權重皆公開，只要硬體足夠，你就能在自己的電腦上執行。這種可近性使其有別於許多專有的 AI 圖像生成服務，也成為其廣泛普及的關鍵。能在本機執行代表使用者對作品擁有完整創作自由與掌控，不受部分線上平台內容限制或服務費用的約束。

Stable Diffusion 如何運作？

潛空間（latent）方法相較於像素空間擴散，大幅降低了記憶體與運算成本，這正是 Stable Diffusion 能在消費級 GPU 上實用化的原因。SDXL 與 3.x 系列等變體在多主體保真度、解析度與提示處理上有所提升；Stability 與社群也會定期發佈新版本。

關鍵組件：VAE、U‑Net 與文字編碼器

Stable Diffusion 由三個主要組件協同運作以生成圖像：

Variational Autoencoder (VAE)： VAE 負責把訓練資料中的高解析度圖像壓縮到較小的潛空間表示，並將生成出的潛向量解碼回完整解析度的圖像。

U‑Net： 模型的核心，是在潛空間中運作的神經網路。U‑Net 經過訓練，用來預測與移除在擴散過程中加入的雜訊。它接收含噪的潛向量與文字提示作為輸入，輸出較為去噪的潛向量。

文字編碼器（Text Encoder）： 將你的文字提示轉換為 U‑Net 可理解的數值表示。Stable Diffusion 通常使用預訓練的文字編碼器 CLIP（Contrastive Language-Image Pre-Training），該模型以龐大的圖片與說明資料訓練而成，能有效擷取文字語意並轉化為指引圖像生成的形式。

去噪流程

Stable Diffusion 的圖像生成流程可概述如下：

文字編碼： 將你的文字提示透過文字編碼器（CLIP）轉換為文字嵌入。
隨機噪聲生成： 在潛空間中生成一張隨機噪聲圖。
反覆去噪： U‑Net 在文字嵌入的指引下，對隨機噪聲圖進行多步去噪。在每一步中，U‑Net 預測潛圖中的噪聲並將其移除，逐步將圖像精煉為符合提示的結果。
圖像解碼： 去噪完成後，將最終的潛向量透過 VAE 解碼器生成高解析度的最終圖像。

我需要哪些硬體與軟體？

常見硬體建議

GPU： 強烈建議使用支援 CUDA 的 NVIDIA 顯示卡。若要流暢處理現代工作負載，建議 ≥8 GB VRAM 可跑中等解析度；12–24 GB 可在高解析度或混合精度模型下更舒適。透過各種優化，較低顯存的顯卡也能做小型實驗，但效能與最大圖像尺寸會受限。
CPU / RAM： 任一現代多核心 CPU 與 ≥16 GB RAM 為實用基準。
儲存： SSD（建議 NVMe）與 20–50 GB 可用空間，用於存放模型、快取與其他檔案。
OS： 進階使用者以 Linux（Ubuntu 系列）最便利；Windows 10/11 對 GUI 套件有完整支援；伺服器可採用 Docker。

軟體前置條件

Python 3.10+ 或 Conda 環境。
CUDA 工具鏈／對應的 NVIDIA 驅動與匹配的 PyTorch 套件（除非計劃僅用 CPU，但會非常慢）。
Git、Git LFS（部分模型下載需要），以及可選的 Hugging Face 帳號（對需接受授權條款的模型）。

重要——授權與安全： 許多 Stable Diffusion 檢查點採用 Stability AI 的社群授權或特定模型授權，下載前需先接受條款。託管於 Hugging Face 的模型常要求你登入帳號並明確同意條款；若未同意，自動化下載將失敗。

我該如何安裝 Stable Diffusion（逐步指南）？

以下提供三種實用安裝路線，請依需求選擇：

路線 A — 完整 GUI： AUTOMATIC1111 Stable Diffusion WebUI（互動性最佳，社群外掛眾多）。
路線 B — 程式化： Hugging Face diffusers 管線（適合整合與腳本化）。
路線 C — 雲端／Docker： 若你沒有本機 GPU，請使用雲端 VM 或容器。

如何下載模型權重並接受授權條款？

Stable Diffusion 的模型權重有多種發佈方式：

Stability AI 官方發佈 —— Stability 發佈核心模型並宣布主要版本（3.x、SDXL 等）。這些模型通常可在 Stability 官方網站與 Hugging Face 取得。
Hugging Face 模型頁 —— 許多官方與社群檢查點託管於 Hugging Face。對多數 SD 檢查點，你必須登入並接受模型授權後才能下載。diffusers API 會遵循此流程。
社群平台（Civitai、GitHub 等） —— 託管社群檢查點、嵌入與 LoRA；請檢視每個資產的授權條款。

實務下載步驟：

如有需要，先建立 Hugging Face 帳號。
造訪模型頁（例如 stabilityai/stable-diffusion-3-5），接受授權條款。
使用 huggingface-cli 或 WebUI 的模型下載對話框。對使用 Git LFS 的模型，請安裝 git lfs 並依說明 git clone。

如何在 Windows 或 Linux 安裝 AUTOMATIC1111 WebUI？

AUTOMATIC1111 的 WebUI 是熱門且持續維護的 GUI，擁有眾多擴充與設定選項。此倉庫提供發行說明與簡潔的啟動器。

1) 起步檢查（Windows）

為你的 GPU 安裝最新版 NVIDIA 驅動。
安裝 Git for Windows。
若偏好 Conda：安裝 Miniconda。

2) 下載並啟動（Windows）

開啟 PowerShell 或命令提示字元，然後執行：

# 下載 WebUI 原始碼
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 在 Windows 上，隨附的批次檔會處理相依套件。
# 使用以下命令取得所需資源並啟動：
.\webui-user.bat
# 或（較舊版本）：
# .\run.bat

此腳本會安裝 Python 套件、下載必要元件，並預設在 http://127.0.0.1:7860 開啟網頁介面。若專案需要模型檔，請見下方「模型下載」步驟。

3) 下載並啟動（Linux）

建議：建立 virtualenv 或 conda 環境。

# 系統前置需求：Python3、git、wget（以 Ubuntu 為例）
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 建立虛擬環境並啟用
python3 -m venv venv
source venv/bin/activate

# 啟動（啟動器將自動安裝需求套件）
python launch.py

在 Linux 上，通常需要先安裝對應 CUDA 的 PyTorch，以確保能使用 GPU 加速。

模型權重放置位置： 將 .ckpt、.safetensors 或 SDXL 檔案放入 models/Stable-diffusion/（如無此資料夾請建立）。WebUI 會自動偵測權重。

如何使用 Hugging Face Diffusers 安裝 Stable Diffusion？

若你希望擁有可程式化、可腳本化的管線，或要整合到應用中，此路線最適合。

1) 安裝 Python 套件

建立並啟用虛擬環境，然後安裝必要套件：

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# 核心套件（示例——請依官方 PyTorch 網站為你的系統調整 CUDA 版輪檔）
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

提示：請依官方 PyTorch 安裝頁選擇正確的 CUDA 版 PyTorch 輪檔。diffusers 文件亦列出相容的套件組合。

2) 驗證並下載模型（Hugging Face）

Hugging Face 上的許多 Stable Diffusion 檢查點需要你先登入並接受授權條款。在終端機中：

pip install huggingface_hub
huggingface-cli login
# 系統會提示你貼上 token（可於 Hugging Face 帳號設定頁取得）

以程式方式載入模型（以下示例為託管於 Hugging Face 的檢查點）：

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # 範例；請替換為你已同意授權的模型
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("一張日出時分山巒的專業攝影照片", num_inference_steps=25).images[0]
image.save("output.png")

若模型在舊版需要 use_auth_token=True，請提供 use_auth_token=HUGGINGFACE_TOKEN，或先完成 huggingface-cli login。請務必參考模型卡上的授權說明。

我要如何使用雲端主機或 Docker？

若你缺乏合適的本機 GPU，可使用具備 NVIDIA GPU 的雲端 VM（AWS、GCP、Azure）或專用 AI 方案。或者，許多 WebUI 倉庫提供 Dockerfile 或社群 Docker 映像。

簡單的 Docker 範例：

# 取得社群映像（使用前請驗證來源可信度）
docker pull automatic1111/stable-diffusion-webui:latest

# 執行（綁定 7860 埠）
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

雲端供應商通常按時計費；若用於正式環境或團隊合作，可評估如 Hugging Face Inference Endpoints 或 Stability 自家 API 等託管服務。這些為付費方案，但可降低營運負擔。

疑難排解與效能建議

常見問題

安裝在 torch 或 CUDA 不相容時失敗。 請確認所安裝的 PyTorch 輪檔與系統 CUDA（驅動）版本一致；使用官方 PyTorch 安裝頁提供的 pip 指令。
模型下載被阻擋／403。 確保已登入 Hugging Face 並接受模型授權。部分模型需要 Git LFS。
OOM（記憶體不足）。 降低推論解析度、切換為半精度（torch_dtype=torch.float16），或在 WebUI 啟用 xformers／記憶體高效注意力。

效能調校

安裝 xformers（若支援）以啟用記憶體高效注意力。
依穩定性需求選擇 --precision full 或 --precision fp16 旗標。
若 GPU 記憶體有限，可考慮 CPU offload，或使用 safetensors 格式以獲得更快且更安全的載入。

Stable Diffusion 3.5 有哪些新功能？

Stable Diffusion 3.5 帶來眾多改進與新功能，進一步提升此強大圖像生成模型的能力。

影像品質與提示遵循性提升

Stable Diffusion 3.5 在影像品質上有顯著提升，包括更佳的寫實度、光影與細節。它對複雜文字提示的理解也更到位，生成結果更契合使用者的創意意圖。文字渲染亦獲改進，能生成可辨識且清晰的文字。

新模型：Large 與 Turbo

Stable Diffusion 3.5 主要有兩種變體：

Stable Diffusion 3.5 Large：這是最強大的模型，能產出最高品質的影像。需要至少 16GB VRAM 的 GPU。
Stable Diffusion 3.5 Large Turbo: 此模型針對速度最佳化，可在僅有 8GB VRAM 的 GPU 上運行。與 Large 相比能更快生成圖像，同時維持高水準品質。

最佳化與合作

Stability AI 與 NVIDIA、AMD 合作，針對其硬體最佳化 Stable Diffusion 3.5 的效能。這些最佳化（包括對 NVIDIA RTX GPU 的 TensorRT 與 FP8 支援）帶來更快的生成速度與更低的記憶體占用，讓更多使用者能更輕鬆地使用 Stable Diffusion。

如果沒有本機 GPU，要如何執行 Stable Diffusion

若你缺乏足夠能力的 GPU，可使用 CometAPI，它提供用於圖像生成的 Stable Diffusion 雲端 API，以及其他影像生成 API，例如 GPT Image 1.5 API 與 Nano Banano Series API。

結語

Stable Diffusion 從根本上改變了我們創作與互動數位影像的方式。其開源特性與不斷擴張的能力，使全球創作者社群能探索全新的藝術邊界。隨著 Stable Diffusion 3.5 的發佈，這項強大的工具變得更易用且更多才多藝，讓我們一窺未來——唯一的限制，將是我們的想像力。無論你是資深藝術家、好奇的開發者，或只是想親身體驗 AI 力量的使用者，本指南都能為你打下使用 Stable Diffusion 的基礎，解鎖你的創意潛能。

要開始的話，可在 CometAPI 的 Playground 上創作。請先登入以取得你的 API key，立即開始打造你的作品。

Ready to start? → 透過 CometAPI 免費試用 Stable Diffusion!

如何下載 Stable Diffusion — 逐步指南