如何下载 Stable Diffusion——分步指南

CometAPI
AnnaJan 17, 2026
如何下载 Stable Diffusion——分步指南

Stable Diffusion 仍然是使用最广泛的开源文生图模型家族。Stability AI 持续迭代(尤其发布了 Stable Diffusion 3 系列并改进了 SDXL)。随着 Stable Diffusion 3.5 的最新发布,这项技术的能力进一步扩展,带来更高的图像质量、更好的提示理解以及更灵活的应用场景。本指南将从内部工作机制到分步安装,全面概览 Stable Diffusion,帮助你释放这项突破性 AI 的创意潜力。

CometAPI,它提供用于图像生成的 Stable Diffusion 云 API。

什么是 Stable Diffusion?

Stable Diffusion 是一种深度学习模型,可根据文本描述生成图像,这项技术称为文生图合成(text-to-image synthesis)。与许多其他 AI 图像生成器不同,Stable Diffusion 是开源的,任何人都可以使用、修改并在此基础上构建。

该模型在海量图像及其对应文本描述的数据集上进行训练,从而学习词汇与视觉概念之间的复杂关系。当你提供文本提示词时,Stable Diffusion 会利用所学知识生成与你描述匹配的独特图像。其可实现的细节与真实感令人瞩目,既可以生成照片级真实图像,也能创作各种风格的奇幻插图。

超越文生图的能力

虽然核心功能是从文本生成图像,但 Stable Diffusion 的能力远不止于此。其多样性使之成为适用于广泛创意任务的综合工具:

  • 图生图(Image-to-Image): 你可以提供一张现有图像与文本提示词,引导模型对原图进行转换。非常适合艺术风格化、概念探索与创意实验。
  • 局部重绘与画布外延(Inpainting and Outpainting): Stable Diffusion 允许选择性地修改图像的部分区域(局部重绘)或将图像扩展到原始边界之外(外延)。这对照片修复、对象移除与扩展创作画布非常有用。
  • 视频创作: 随着近期进展,Stable Diffusion 也可用于制作视频与动画,为动态视觉叙事开启新可能。
  • ControlNets: 这些是附加模型,可对生成过程进行更精细的控制,允许你指定姿态、深度图和其他结构元素。

开源与可及性

Stable Diffusion 最重要的特点之一是其开源性质。代码与模型权重对公众开放,这意味着只要你的硬件满足要求,就可以在本地计算机上运行。与许多专有 AI 图像生成服务相比,这种可及性使其脱颖而出,并成为其广泛采用的关键因素。能够在本地运行模型,让用户对作品拥有完全的创作自由与掌控权,不受某些在线平台的内容限制或服务费用约束。

Stable Diffusion 如何工作?

潜空间(latent)方法与像素空间扩散相比,在内存与计算成本上大幅降低,这也是 Stable Diffusion 能在消费者级 GPU 上实际可用的原因。SDXL 与 3.x 等变体改进了多主体保真度、分辨率与提示词处理;Stability 与社区也会定期发布新版本。

关键组件:VAE、U-Net 与文本编码器

Stable Diffusion 由三个主要组件协同工作来生成图像:

变分自编码器(VAE): VAE 负责将训练数据中的高分辨率图像压缩为更小的潜空间表征,并在生成完成后将潜表示解码回全分辨率图像。

U-Net: 模型的核心,是在潜空间中运行的神经网络。U-Net 经过训练用来预测并移除扩散过程中加入的噪声。它接收带噪的潜表示与文本提示词作为输入,输出去噪后的潜表示。

文本编码器: 文本编码器将你的提示词转换为 U-Net 可理解的数值表示。Stable Diffusion 通常使用预训练的文本编码器 CLIP(对比语言-图像预训练),它在海量图像与标题上训练,能够高效捕捉文本语义,并将其转化为可引导图像生成的格式。

去噪过程

Stable Diffusion 的图像生成过程可概括如下:

  1. 文本编码: 将文本提示词传入文本编码器(CLIP),生成文本嵌入。
  2. 随机噪声生成: 在潜空间中生成一张随机噪声图。
  3. 去噪循环: U-Net 在文本嵌入的引导下,迭代地对随机噪声图进行去噪。每一步中,U-Net 预测潜图中的噪声并将其减去,使图像逐步趋于与提示词相符。
  4. 图像解码: 去噪完成后,将最终的潜表示传入 VAE 解码器,生成最终的高分辨率图像。

我需要哪些硬件与软件?

常见硬件建议

  • GPU: 强烈建议使用支持 CUDA 的 NVIDIA 显卡。流畅、现代的使用体验建议 ≥8 GB VRAM 以应对中等分辨率;若需高分辨率或混合精度模型,12–24 GB 会更从容。较小实验可在更低 VRAM 显卡上通过优化实现,但性能与最大图像尺寸会受限。
  • CPU / RAM: 任何现代多核 CPU 与 ≥16 GB RAM 是实用基线。
  • 存储: SSD(优选 NVMe),并预留 20–50 GB 空间用于存放模型、缓存与辅助文件。
  • 操作系统: Linux(如 Ubuntu)对高级用户更便捷;Windows 10/11 对 GUI 套件完全支持;服务器可使用 Docker。

软件前置条件

  • Python 3.10+ 或 Conda 环境。
  • CUDA 工具包 / NVIDIA 驱动与匹配的 PyTorch 轮子(除非仅在 CPU 上运行,但会非常慢)。
  • Git、Git LFS(用于部分模型下载),以及可选的 Hugging Face 账号(下载需接受许可的模型时)。

重要——许可与安全: 许多 Stable Diffusion 检查点采用 Stability AI 的社区许可或特定模型许可,下载前需接受条款。Hugging Face 上托管的模型通常要求你登录并显式同意条款;若未同意,自动下载会失败。


如何安装 Stable Diffusion(分步指南)?

以下是三条实用安装路径。选择与你需求匹配的路线:

  • 路径 A — 完整 GUI: AUTOMATIC1111 Stable Diffusion WebUI(交互体验最佳,社区插件众多)。
  • 路径 B — 编程集成: Hugging Face diffusers 管道(适合集成与脚本化)。
  • 路径 C — 云端 / Docker: 若本地缺少 GPU 资源,使用云主机或容器。

如何下载模型权重并接受许可协议?

Stable Diffusion 的模型权重分发方式包括:

  1. Stability AI 官方发布 — Stability 发布核心模型并宣布重大版本(3.x、SDXL 等)。这些模型通常可在 Stability 官网与 Hugging Face 获取。
  2. Hugging Face 模型卡 — 许多社区与官方检查点托管于 Hugging Face。多数 SD 检查点下载前需要登录并接受模型许可。diffusers API 会遵循该流程。
  3. 社区平台(Civitai、GitHub 等) — 托管社区检查点、嵌入与 LoRA;请查阅各资产的许可。

下载实践步骤:

  • 如需,创建一个 Hugging Face 账号。
  • 访问模型页面(例如 stabilityai/stable-diffusion-3-5)并接受许可。
  • 使用 huggingface-cli 或 WebUI 的模型下载对话框。对于使用 Git LFS 的模型,安装 git lfs 并按说明 git clone

如何在 Windows 或 Linux 上安装 AUTOMATIC1111 WebUI?

AUTOMATIC1111 的 WebUI 是一款流行且活跃维护的 GUI,拥有众多扩展与配置选项。仓库提供发行说明与简单的启动脚本。

1) 预检查(Windows)

  • 安装与你 GPU 匹配的最新 NVIDIA 驱动。
  • 安装 Git for Windows。
  • 如需使用 Conda:安装 Miniconda。

2) 克隆并启动(Windows)

打开 Powershell 或命令提示符,然后运行:

# 克隆 WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 在 Windows 上,提供的批处理脚本会处理依赖项。
# 使用以下命令获取所有内容并启动:
.\webui-user.bat
# 或者,在较旧的版本中:
# .\run.bat

脚本会安装 Python 依赖、下载所需组件,并默认在 http://127.0.0.1:7860 打开 Web UI。若项目提示需要模型文件,请参见下文模型下载步骤。

3) 克隆并启动(Linux)

建议:创建 virtualenv 或 conda 环境。

# 系统前置条件:Python3、git、wget(示例:Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# 创建并激活虚拟环境
python3 -m venv venv
source venv/bin/activate

# 启动(启动器将安装依赖)
python launch.py

在 Linux 上通常需要先安装与你系统匹配的 CUDA 版 PyTorch,以确保 GPU 加速。

模型权重放置位置:.ckpt.safetensors 或 SDXL 文件放入 models/Stable-diffusion/(如无则创建)。WebUI 会自动检测权重。


如何使用 Hugging Face Diffusers 安装 Stable Diffusion?

若你希望获得可编程、可脚本化的管道,或要将生成功能集成至应用,此路线最佳。

1) 安装 Python 包

创建并激活虚拟环境,然后安装所需包:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# 核心包(示例——请根据 PyTorch 官网为你的系统选择匹配的 CUDA 轮子)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

提示:请通过 PyTorch 官网安装页选择与你 CUDA 版本匹配的 PyTorch 轮子。diffusers 文档会列出兼容的包组合。

2) 身份验证并下载模型(Hugging Face)

Hugging Face 上的许多 Stable Diffusion 检查点需要登录并接受许可。在终端中:

pip install huggingface_hub
huggingface-cli login
# 系统会提示粘贴你的 token(可在 Hugging Face 账户设置获取)

以编程方式加载模型(示例,使用托管在 Hugging Face 的检查点):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # 示例;请替换为你已同意条款的模型
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("一张日出时山峰的专业摄影照片", num_inference_steps=25).images[0]
image.save("output.png")

如果旧版本模型需要 use_auth_token=True,请提供 use_auth_token=HUGGINGFACE_TOKEN,或确保已执行 huggingface-cli login。请始终查看模型卡以了解许可说明。


如何使用云实例或 Docker?

如果你缺少合适的本地 GPU,可使用带 NVIDIA GPU 的云主机(AWS、GCP、Azure)或专用 AI 实例。或者,许多 WebUI 仓库提供 Dockerfile 或社区 Docker 镜像。

一个简单的 Docker 用法(示例):

# 拉取社区镜像(使用前请验证其可信度)
docker pull automatic1111/stable-diffusion-webui:latest

# 运行(绑定 7860 端口)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

云服务商通常按小时计费;若用于生产或团队协作,可评估 Hugging Face Inference Endpoints 或 Stability 自有 API 等托管服务。它们为付费服务,但能降低运维负担。


故障排查与性能优化建议

常见问题

  • 安装在 torch 或 CUDA 不匹配处失败。 请检查你的 PyTorch 轮子是否与系统 CUDA(驱动)版本匹配;使用 PyTorch 官方安装器生成正确的 pip 命令。
  • 模型下载被阻止 / 403。 确保你已登录 Hugging Face 并接受模型许可。有些模型需要 Git LFS。
  • OOM(内存不足)。 降低推理分辨率、切换为半精度(torch_dtype=torch.float16)、或在 WebUI 中启用 xformers / 内存高效注意力。

性能调优

  • 安装 xformers(若受支持)以获得内存高效注意力。
  • 根据稳定性选择 --precision full--precision fp16
  • 如果 GPU 显存有限,考虑启用 CPU offload,或使用可能更快且更安全的 safetensors 格式。

Stable Diffusion 3.5 有哪些新特性?

Stable Diffusion 3.5 的发布带来了诸多改进与新功能,进一步增强了该强大图像生成模型的能力。

更佳的图像质量与提示跟随

Stable Diffusion 3.5 在图像质量上显著提升,包括更真实的光照与细节。同时对复杂文本提示的理解更到位,生成结果更贴合用户的创意意图。文本渲染也得到增强,能够生成可辨读的文字。

新模型:Large 与 Turbo

Stable Diffusion 3.5 提供两个主要变体:

优化与合作

Stability AI 与 NVIDIA、AMD 合作,针对其硬件优化 Stable Diffusion 3.5 的性能。这些优化包括对 NVIDIA RTX GPU 上的 TensorRT 与 FP8 的支持,从而缩短生成时间、降低内存占用,使 Stable Diffusion 对更广泛用户更为可及。

没有本地 GPU 如何运行 Stable Diffusion

如果你缺少可用的 GPU,可使用 CometAPI,它提供 Stable Diffusion 的云端图像生成 API,以及 GPT Image 1.5 API、Nano Banano Series API 等其他图像生成 API。

结语

Stable Diffusion 从根本上改变了我们创作与交互数字图像的方式。其开源属性与持续扩展的能力,让全球创作者共同探索艺术新边界。随着 Stable Diffusion 3.5 的发布,这一强大工具变得更易用且更通用,预示着一个唯有想象力为限的创作未来。无论你是资深艺术家、好奇的开发者,或只是想体验 AI 力量的用户,本指南都能为你入门 Stable Diffusion、释放创意提供基础。

开始上手,可在 CometAPIPlayground 创作艺术。确保已登录以获取 API Key,今天就开始构建吧。

准备好开始了吗?→ 通过 CometAPI 免费试用 Stable Diffusion

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣