如何下载 Stable Diffusion——分步指南

Stable Diffusion 仍然是使用最广泛的开源文生图模型家族。Stability AI 持续迭代（尤其发布了 Stable Diffusion 3 系列并改进了 SDXL）。随着 Stable Diffusion 3.5 的最新发布，这项技术的能力进一步扩展，带来更高的图像质量、更好的提示理解以及更灵活的应用场景。本指南将从内部工作机制到分步安装，全面概览 Stable Diffusion，帮助你释放这项突破性 AI 的创意潜力。

CometAPI，它提供用于图像生成的 Stable Diffusion 云 API。

什么是 Stable Diffusion？

Stable Diffusion 是一种深度学习模型，可根据文本描述生成图像，这项技术称为文生图合成（text-to-image synthesis）。与许多其他 AI 图像生成器不同，Stable Diffusion 是开源的，任何人都可以使用、修改并在此基础上构建。

该模型在海量图像及其对应文本描述的数据集上进行训练，从而学习词汇与视觉概念之间的复杂关系。当你提供文本提示词时，Stable Diffusion 会利用所学知识生成与你描述匹配的独特图像。其可实现的细节与真实感令人瞩目，既可以生成照片级真实图像，也能创作各种风格的奇幻插图。

超越文生图的能力

虽然核心功能是从文本生成图像，但 Stable Diffusion 的能力远不止于此。其多样性使之成为适用于广泛创意任务的综合工具：

图生图（Image-to-Image）： 你可以提供一张现有图像与文本提示词，引导模型对原图进行转换。非常适合艺术风格化、概念探索与创意实验。
局部重绘与画布外延（Inpainting and Outpainting）： Stable Diffusion 允许选择性地修改图像的部分区域（局部重绘）或将图像扩展到原始边界之外（外延）。这对照片修复、对象移除与扩展创作画布非常有用。
视频创作： 随着近期进展，Stable Diffusion 也可用于制作视频与动画，为动态视觉叙事开启新可能。
ControlNets： 这些是附加模型，可对生成过程进行更精细的控制，允许你指定姿态、深度图和其他结构元素。

开源与可及性

Stable Diffusion 最重要的特点之一是其开源性质。代码与模型权重对公众开放，这意味着只要你的硬件满足要求，就可以在本地计算机上运行。与许多专有 AI 图像生成服务相比，这种可及性使其脱颖而出，并成为其广泛采用的关键因素。能够在本地运行模型，让用户对作品拥有完全的创作自由与掌控权，不受某些在线平台的内容限制或服务费用约束。

Stable Diffusion 如何工作？

潜空间（latent）方法与像素空间扩散相比，在内存与计算成本上大幅降低，这也是 Stable Diffusion 能在消费者级 GPU 上实际可用的原因。SDXL 与 3.x 等变体改进了多主体保真度、分辨率与提示词处理；Stability 与社区也会定期发布新版本。

关键组件：VAE、U-Net 与文本编码器

Stable Diffusion 由三个主要组件协同工作来生成图像：

变分自编码器（VAE）： VAE 负责将训练数据中的高分辨率图像压缩为更小的潜空间表征，并在生成完成后将潜表示解码回全分辨率图像。

U-Net： 模型的核心，是在潜空间中运行的神经网络。U-Net 经过训练用来预测并移除扩散过程中加入的噪声。它接收带噪的潜表示与文本提示词作为输入，输出去噪后的潜表示。

文本编码器： 文本编码器将你的提示词转换为 U-Net 可理解的数值表示。Stable Diffusion 通常使用预训练的文本编码器 CLIP（对比语言-图像预训练），它在海量图像与标题上训练，能够高效捕捉文本语义，并将其转化为可引导图像生成的格式。

去噪过程

Stable Diffusion 的图像生成过程可概括如下：

文本编码： 将文本提示词传入文本编码器（CLIP），生成文本嵌入。
随机噪声生成： 在潜空间中生成一张随机噪声图。
去噪循环： U-Net 在文本嵌入的引导下，迭代地对随机噪声图进行去噪。每一步中，U-Net 预测潜图中的噪声并将其减去，使图像逐步趋于与提示词相符。
图像解码： 去噪完成后，将最终的潜表示传入 VAE 解码器，生成最终的高分辨率图像。

我需要哪些硬件与软件？

常见硬件建议

GPU： 强烈建议使用支持 CUDA 的 NVIDIA 显卡。流畅、现代的使用体验建议 ≥8 GB VRAM 以应对中等分辨率；若需高分辨率或混合精度模型，12–24 GB 会更从容。较小实验可在更低 VRAM 显卡上通过优化实现，但性能与最大图像尺寸会受限。
CPU / RAM： 任何现代多核 CPU 与 ≥16 GB RAM 是实用基线。
存储： SSD（优选 NVMe），并预留 20–50 GB 空间用于存放模型、缓存与辅助文件。
操作系统： Linux（如 Ubuntu）对高级用户更便捷；Windows 10/11 对 GUI 套件完全支持；服务器可使用 Docker。

软件前置条件

Python 3.10+ 或 Conda 环境。
CUDA 工具包 / NVIDIA 驱动与匹配的 PyTorch 轮子（除非仅在 CPU 上运行，但会非常慢）。
Git、Git LFS（用于部分模型下载），以及可选的 Hugging Face 账号（下载需接受许可的模型时）。

重要——许可与安全： 许多 Stable Diffusion 检查点采用 Stability AI 的社区许可或特定模型许可，下载前需接受条款。Hugging Face 上托管的模型通常要求你登录并显式同意条款；若未同意，自动下载会失败。

如何安装 Stable Diffusion（分步指南）？

以下是三条实用安装路径。选择与你需求匹配的路线：

路径 A — 完整 GUI： AUTOMATIC1111 Stable Diffusion WebUI（交互体验最佳，社区插件众多）。
路径 B — 编程集成： Hugging Face diffusers 管道（适合集成与脚本化）。
路径 C — 云端 / Docker： 若本地缺少 GPU 资源，使用云主机或容器。

如何下载模型权重并接受许可协议？

Stable Diffusion 的模型权重分发方式包括：

Stability AI 官方发布 — Stability 发布核心模型并宣布重大版本（3.x、SDXL 等）。这些模型通常可在 Stability 官网与 Hugging Face 获取。
Hugging Face 模型卡 — 许多社区与官方检查点托管于 Hugging Face。多数 SD 检查点下载前需要登录并接受模型许可。diffusers API 会遵循该流程。
社区平台（Civitai、GitHub 等） — 托管社区检查点、嵌入与 LoRA；请查阅各资产的许可。

下载实践步骤：

如需，创建一个 Hugging Face 账号。
访问模型页面（例如 stabilityai/stable-diffusion-3-5）并接受许可。
使用 huggingface-cli 或 WebUI 的模型下载对话框。对于使用 Git LFS 的模型，安装 git lfs 并按说明 git clone。

如何在 Windows 或 Linux 上安装 AUTOMATIC1111 WebUI？

AUTOMATIC1111 的 WebUI 是一款流行且活跃维护的 GUI，拥有众多扩展与配置选项。仓库提供发行说明与简单的启动脚本。

1) 预检查（Windows）

安装与你 GPU 匹配的最新 NVIDIA 驱动。
安装 Git for Windows。
如需使用 Conda：安装 Miniconda。

2) 克隆并启动（Windows）

打开 Powershell 或命令提示符，然后运行：

# 克隆 WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 在 Windows 上，提供的批处理脚本会处理依赖项。
# 使用以下命令获取所有内容并启动：
.\webui-user.bat
# 或者，在较旧的版本中：
# .\run.bat

脚本会安装 Python 依赖、下载所需组件，并默认在 http://127.0.0.1:7860 打开 Web UI。若项目提示需要模型文件，请参见下文模型下载步骤。

3) 克隆并启动（Linux）

建议：创建 virtualenv 或 conda 环境。

# 系统前置条件：Python3、git、wget（示例：Ubuntu）
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 创建并激活虚拟环境
python3 -m venv venv
source venv/bin/activate

# 启动（启动器将安装依赖）
python launch.py

在 Linux 上通常需要先安装与你系统匹配的 CUDA 版 PyTorch，以确保 GPU 加速。

模型权重放置位置： 将 .ckpt、.safetensors 或 SDXL 文件放入 models/Stable-diffusion/（如无则创建）。WebUI 会自动检测权重。

如何使用 Hugging Face Diffusers 安装 Stable Diffusion？

若你希望获得可编程、可脚本化的管道，或要将生成功能集成至应用，此路线最佳。

1) 安装 Python 包

创建并激活虚拟环境，然后安装所需包：

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# 核心包（示例——请根据 PyTorch 官网为你的系统选择匹配的 CUDA 轮子）
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

提示：请通过 PyTorch 官网安装页选择与你 CUDA 版本匹配的 PyTorch 轮子。diffusers 文档会列出兼容的包组合。

2) 身份验证并下载模型（Hugging Face）

Hugging Face 上的许多 Stable Diffusion 检查点需要登录并接受许可。在终端中：

pip install huggingface_hub
huggingface-cli login
# 系统会提示粘贴你的 token（可在 Hugging Face 账户设置获取）

以编程方式加载模型（示例，使用托管在 Hugging Face 的检查点）：

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # 示例；请替换为你已同意条款的模型
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("一张日出时山峰的专业摄影照片", num_inference_steps=25).images[0]
image.save("output.png")

如果旧版本模型需要 use_auth_token=True，请提供 use_auth_token=HUGGINGFACE_TOKEN，或确保已执行 huggingface-cli login。请始终查看模型卡以了解许可说明。

如何使用云实例或 Docker？

如果你缺少合适的本地 GPU，可使用带 NVIDIA GPU 的云主机（AWS、GCP、Azure）或专用 AI 实例。或者，许多 WebUI 仓库提供 Dockerfile 或社区 Docker 镜像。

一个简单的 Docker 用法（示例）：

# 拉取社区镜像（使用前请验证其可信度）
docker pull automatic1111/stable-diffusion-webui:latest

# 运行（绑定 7860 端口）
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

云服务商通常按小时计费；若用于生产或团队协作，可评估 Hugging Face Inference Endpoints 或 Stability 自有 API 等托管服务。它们为付费服务，但能降低运维负担。

故障排查与性能优化建议

常见问题

安装在 torch 或 CUDA 不匹配处失败。 请检查你的 PyTorch 轮子是否与系统 CUDA（驱动）版本匹配；使用 PyTorch 官方安装器生成正确的 pip 命令。
模型下载被阻止 / 403。 确保你已登录 Hugging Face 并接受模型许可。有些模型需要 Git LFS。
OOM（内存不足）。 降低推理分辨率、切换为半精度（torch_dtype=torch.float16）、或在 WebUI 中启用 xformers / 内存高效注意力。

性能调优

安装 xformers（若受支持）以获得内存高效注意力。
根据稳定性选择 --precision full 或 --precision fp16。
如果 GPU 显存有限，考虑启用 CPU offload，或使用可能更快且更安全的 safetensors 格式。

Stable Diffusion 3.5 有哪些新特性？

Stable Diffusion 3.5 的发布带来了诸多改进与新功能，进一步增强了该强大图像生成模型的能力。

更佳的图像质量与提示跟随

Stable Diffusion 3.5 在图像质量上显著提升，包括更真实的光照与细节。同时对复杂文本提示的理解更到位，生成结果更贴合用户的创意意图。文本渲染也得到增强，能够生成可辨读的文字。

新模型：Large 与 Turbo

Stable Diffusion 3.5 提供两个主要变体：

Stable Diffusion 3.5 Large：功能最强，能生成最高质量图像。需要至少 16GB VRAM 的 GPU。
Stable Diffusion 3.5 Large Turbo： 该模型为速度优化，可在最低 8GB VRAM 的 GPU 上运行。相比 Large 模型生成更快，同时保持较高质量。

优化与合作

Stability AI 与 NVIDIA、AMD 合作，针对其硬件优化 Stable Diffusion 3.5 的性能。这些优化包括对 NVIDIA RTX GPU 上的 TensorRT 与 FP8 的支持，从而缩短生成时间、降低内存占用，使 Stable Diffusion 对更广泛用户更为可及。

没有本地 GPU 如何运行 Stable Diffusion

如果你缺少可用的 GPU，可使用 CometAPI，它提供 Stable Diffusion 的云端图像生成 API，以及 GPT Image 1.5 API、Nano Banano Series API 等其他图像生成 API。

结语

Stable Diffusion 从根本上改变了我们创作与交互数字图像的方式。其开源属性与持续扩展的能力，让全球创作者共同探索艺术新边界。随着 Stable Diffusion 3.5 的发布，这一强大工具变得更易用且更通用，预示着一个唯有想象力为限的创作未来。无论你是资深艺术家、好奇的开发者，或只是想体验 AI 力量的用户，本指南都能为你入门 Stable Diffusion、释放创意提供基础。

开始上手，可在 CometAPI 的 Playground 创作艺术。确保已登录以获取 API Key，今天就开始构建吧。