如何下载 Stable Diffusion——分步指南

CometAPI
AnnaJan 17, 2026
如何下载 Stable Diffusion——分步指南

Stable Diffusion 仍然是使用最广泛的开源文本生成图像模型家族。Stability AI 持续迭代(尤其发布了 Stable Diffusion 3 系列和 SDXL 的改进)。随着 Stable Diffusion 3.5 的最新发布,这项技术的能力进一步扩展,提供更高的图像质量、更好的提示理解以及更灵活的应用。本指南全面概述了 Stable Diffusion,从其内部工作机制到逐步安装指南,帮助你驾驭这项突破性 AI 的创造潜力。

CometAPI,它提供用于图像生成的 Stable Diffusion 云 API。

什么是 Stable Diffusion?

Stable Diffusion 是一种从文本描述生成图像的深度学习模型,这项技术被称为文本到图像合成。与许多其他 AI 图像生成器不同,Stable Diffusion 是开源的,任何人都可以使用、修改并在此基础上构建。

该模型在包含海量图像及其对应文本描述的数据集上训练,从而学习词语与视觉概念之间的复杂关系。当你提供一个文本提示时,Stable Diffusion 会利用这些学习到的知识来创建与你描述相匹配的独特图像。其可实现的细节与真实感程度令人惊叹,风格范围从照片级真实到奇幻插画。

超越文本生图的能力

尽管其主要功能是从文本生成图像,Stable Diffusion 的能力远不止于此。其多样性使其成为覆盖广泛创意任务的综合工具:

  • 图像到图像: 你可以提供一张现有图像并配合文本提示,引导模型对原图进行转化。此功能非常适合艺术风格化、概念探索与创意实验。
  • Inpainting 和 Outpainting: Stable Diffusion 允许你有选择地修改图像的部分(inpainting),或将图像扩展至原始边界之外(outpainting)。这对照片修复、对象移除以及扩展画布非常有用。
  • 视频创作: 随着近期的进步,Stable Diffusion 现已可用于创建视频与动画,为动态视觉叙事开启新的可能。
  • ControlNets: 这些是提供更精细控制的附加模型,允许你指定姿态、深度图等结构元素,从而更精准地控制生成过程。

开源与可及性

Stable Diffusion 最重要的方面之一就是其开源属性。代码与模型权重均公开可用,这意味着只要硬件满足条件,你就可以在自己的电脑上运行它。这种可及性使其有别于许多专有的 AI 图像生成服务,并成为其广泛采用的关键因素。在本地运行模型让用户对作品拥有完全的创作自由与控制权,不受某些在线平台的内容限制或服务费用影响。

Stable Diffusion 是如何工作的?

相较于像素空间扩散,潜空间方法大幅降低了内存与计算开销,这也使得 Stable Diffusion 在消费级 GPU 上变得可行。诸如 SDXL 与 3.x 系列的变体在多主体保真度、分辨率与提示处理方面有所提升;Stability 与社区也会定期发布新版本。

核心组件:VAE、U-Net 和文本编码器

Stable Diffusion 由三个主要组件协同工作以生成图像:

变分自编码器(VAE): VAE 负责将训练数据中的高分辨率图像压缩至较小的潜空间表示,并将生成的潜表示解码回全分辨率图像。

U-Net: 这是模型的核心,一个在潜空间中运行的神经网络。U-Net 被训练来预测并移除扩散过程中添加的噪声。它将带噪的潜表示与文本提示作为输入,输出去噪后的潜表示。

文本编码器: 文本编码器将你的文本提示转换为 U-Net 可理解的数值表示。Stable Diffusion 通常使用名为 CLIP(对比式语言-图像预训练)的预训练文本编码器,它在大量图像及其标题的数据集上训练。CLIP 在捕捉文本语义并将其转化为可引导图像生成的格式方面非常有效。

去噪过程

Stable Diffusion 的图像生成过程可概括为:

  1. 文本编码: 将你的文本提示输入文本编码器(CLIP)以生成文本嵌入。
  2. 随机噪声生成: 在潜空间中生成一张随机噪声图像。
  3. 去噪循环: U-Net 在文本嵌入的引导下迭代地对随机噪声图像进行去噪。在每一步,U-Net 预测潜图像中的噪声并将其减除,逐步将图像细化为与提示相匹配的结果。
  4. 图像解码: 去噪完成后,将最终的潜表示输入 VAE 的解码器,生成最终的高分辨率图像。

我需要哪些硬件与软件?

常见硬件建议

  • GPU: 强烈建议使用支持 CUDA 的 NVIDIA。为获得流畅、现代的使用体验,≥8 GB VRAM 可满足中等分辨率;12–24 GB 则更适合高分辨率或混合精度模型。通过优化,低显存卡也能进行小规模实验,但性能与最大图像尺寸会受限。
  • CPU / RAM: 任何现代多核 CPU 与 ≥16 GB RAM 是实用基线。
  • 存储: SSD(优选 NVMe)以及 20–50 GB 的可用空间,用于存放模型、缓存与辅助文件。
  • 操作系统: 对高级用户而言,Linux(如 Ubuntu)更为便利;Windows 10/11 对 GUI 套件提供完整支持;服务器可使用 Docker。

软件先决条件

  • Python 3.10+ 或 Conda 环境。
  • 针对你的 GPU 的 CUDA 工具包 / NVIDIA 驱动与匹配的 PyTorch 轮子(除非计划仅用 CPU,但会非常慢)。
  • Git、Git LFS(用于某些模型下载),以及可选的 Hugging Face 账号以下载需要许可同意的模型。

重要——许可证与安全: 许多 Stable Diffusion 检查点受 Stability AI 的社区许可或特定模型许可约束,下载前需要同意。托管在 Hugging Face 的模型常要求你登录并明确接受条款;若未批准,自动下载会失败。


我该如何安装 Stable Diffusion(分步指南)?

以下是三条实用安装路径。请选择与你需求相匹配的方式:

  • 路径 A — 完整 GUI: AUTOMATIC1111 Stable Diffusion WebUI(适合交互使用,拥有众多社区插件)。
  • 路径 B — 编程方式: Hugging Face 的 diffusers 流水线(适合集成与脚本化)。
  • 路径 C — 云端 / Docker: 若本地缺乏 GPU 资源,使用云端虚机或容器。

如何下载模型权重并接受许可?

Stable Diffusion 模型权重的分发方式包括:

  1. Stability AI 官方发布 —— Stability 发布核心模型并宣布主要版本(3.x、SDXL 等)。这些模型通常可从 Stability 官网与 Hugging Face 获取。
  2. Hugging Face 模型卡 —— 许多社区与官方检查点托管在 Hugging Face 上。大多数发布的 SD 检查点在下载前必须登录并接受模型许可。diffusers API 遵循该流程。
  3. 社区平台(Civitai、GitHub 等) —— 这些平台托管社区检查点、嵌入与 LoRA;请分别查看每个资源的许可证。

实际下载步骤:

  • 如有需要,创建一个 Hugging Face 账号。
  • 访问模型页面(例如 stabilityai/stable-diffusion-3-5)并接受许可。
  • 使用 huggingface-cli 或 WebUI 的模型下载对话框。对于由 Git LFS 支持的模型,安装 git lfs 并按说明执行 git clone

如何在 Windows 或 Linux 上安装 AUTOMATIC1111 WebUI?

AUTOMATIC1111 的 WebUI 是一个流行且积极维护的 GUI,拥有众多扩展与配置选项。该仓库提供发行说明与简洁的启动脚本。

1) 预备(Windows)

  • 安装你 GPU 的最新 NVIDIA 驱动。
  • 安装 Git for Windows。
  • 如偏好 Conda:安装 Miniconda。

2) 克隆并启动(Windows)

打开 PowerShell 或命令提示符,然后运行:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

脚本将安装 Python 包、下载所需组件,并默认在 http://127.0.0.1:7860 打开 Web UI。如果项目提示需要模型文件,请参见下方“模型下载”步骤。

3) 克隆并启动(Linux)

建议:创建 virtualenv 或 conda 环境。

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

在 Linux 上,通常需要在启动前安装与你系统匹配的、支持 CUDA 的 PyTorch,以确保 GPU 加速。

模型权重放置位置:.ckpt.safetensors 或 SDXL 文件放入 models/Stable-diffusion/(如需自行创建该文件夹)。WebUI 会自动检测权重。


如何通过 Hugging Face Diffusers 安装 Stable Diffusion ?

若你希望拥有可编程、可脚本化的流水线,或将生成集成到应用中,此路线最为合适。

1) 安装 Python 包

创建并激活虚拟环境,然后安装所需包:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

提示:请使用 PyTorch 官方安装页面为你的 CUDA 版本安装正确的 PyTorch 轮子。diffusers 文档列出了兼容的软件包组合。

2) 认证并下载模型(Hugging Face)

Hugging Face 上的许多 Stable Diffusion 检查点要求你登录并同意许可。在终端中:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

以编程方式加载模型(以托管在 Hugging Face 上的检查点为例):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

如果某些旧版本模型需要在加载时提供 use_auth_token=True,可传入 use_auth_token=HUGGINGFACE_TOKEN 或确保已执行 huggingface-cli login。始终查看模型卡以了解许可说明。


如何使用云实例或 Docker?

如果你缺少合适的本地 GPU,可在云端(AWS、GCP、Azure)使用带 NVIDIA GPU 的虚机或专用 AI 实例。或者,许多 WebUI 仓库提供 Dockerfile 或社区 Docker 镜像。

一个简单的 Docker 模式(示例):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

云服务商通常按小时计费;若用于生产或团队协作,可评估 Hugging Face Inference Endpoints 或 Stability 自有 API 等托管服务。这些服务需付费,但可降低运维开销。


故障排除与性能优化

常见问题

  • 安装在 torch 或 CUDA 不匹配处失败。 确保你的 PyTorch 轮子与系统的 CUDA(驱动)版本匹配;使用 PyTorch 官方安装器生成正确的 pip 命令。
  • 模型下载被阻止 / 403。 确保你已登录 Hugging Face 并接受模型许可。有些模型需要 Git LFS。
  • OOM(内存不足)。 降低推理分辨率,切换为半精度(torch_dtype=torch.float16),或在 WebUI 中启用 xformers / 内存高效注意力。

性能调优

  • 安装 xformers(若支持)以使用内存高效注意力。
  • 根据稳定性使用 --precision full--precision fp16 标志。
  • 若 GPU 显存有限,考虑 CPU 卸载或使用可能更快且更安全的 safetensors 格式。

Stable Diffusion 3.5 有哪些新变化?

Stable Diffusion 3.5 的发布带来了多项改进与新特性,进一步增强了这一强大图像生成模型的能力。

图像质量与提示遵循的提升

Stable Diffusion 3.5 在图像质量上有显著提升,具备更好的照片真实感、光照与细节表现。它对复杂文本提示的理解也大幅改进,生成结果更准确地反映用户的创意愿景。文本渲染同样得到改进,可生成可读性更强的文字图像。

新模型:Large 与 Turbo

Stable Diffusion 3.5 提供两个主要变体:

  • Stable Diffusion 3.5 Large 这是最强大的模型,能够产生最高质量的图像。它需要至少 16GB VRAM 的 GPU。
  • Stable Diffusion 3.5 Large Turbo: 此模型针对速度优化,可在仅 8GB VRAM 的 GPU 上运行。相较 Large 模型,它生成图像的速度更快,同时仍保持较高的质量水平。

优化与合作

Stability AI 与 NVIDIA、AMD 合作对 Stable Diffusion 3.5 在其各自硬件上的性能进行优化。这些优化包括对 NVIDIA RTX GPU 上的 TensorRT 与 FP8 的支持,从而带来更快的生成速度与更低的内存占用,使 Stable Diffusion 对更广泛用户群体更具可及性。

如何在没有本地 GPU 的情况下运行 Stable Diffusion

如果你缺少足够强大的 GPU,可使用 CometAPI,它提供 Stable Diffusion 的云端图像生成 API,以及其他图像生成 API,例如 GPT Image 1.5 API 和 Nano Banano Series API。

结论

Stable Diffusion 从根本上改变了我们创造与互动数字图像的方式。其开源特性与不断扩展的能力,赋能全球创作者社区探索新的艺术边界。随着 Stable Diffusion 3.5 的发布,这一强大工具变得更加易用且多才多艺,展现出一个创作边界只受想象力限制的未来。无论你是经验丰富的艺术家、好奇的开发者,还是仅仅想体验 AI 力量的人士,本指南都为你提供了上手 Stable Diffusion 并释放创意潜能所需的基础。

开始行动,可在 CometAPIPlayground 创作。请确保已登录以获取你的 API 密钥,今天就开始构建吧。

准备好开始了吗?→ 通过 CometAPI 免费试用 Stable Diffusion!

准备好将AI开发成本降低20%了吗?

几分钟内免费开始。包含免费试用额度。无需信用卡。

阅读更多