Stable Diffusion 仍然是使用最广泛的开源文本生成图像模型家族。Stability AI 持续迭代(尤其发布了 Stable Diffusion 3 系列和 SDXL 的改进)。随着 Stable Diffusion 3.5 的最新发布,这项技术的能力进一步扩展,提供更高的图像质量、更好的提示理解以及更灵活的应用。本指南全面概述了 Stable Diffusion,从其内部工作机制到逐步安装指南,帮助你驾驭这项突破性 AI 的创造潜力。
CometAPI,它提供用于图像生成的 Stable Diffusion 云 API。
什么是 Stable Diffusion?
Stable Diffusion 是一种从文本描述生成图像的深度学习模型,这项技术被称为文本到图像合成。与许多其他 AI 图像生成器不同,Stable Diffusion 是开源的,任何人都可以使用、修改并在此基础上构建。
该模型在包含海量图像及其对应文本描述的数据集上训练,从而学习词语与视觉概念之间的复杂关系。当你提供一个文本提示时,Stable Diffusion 会利用这些学习到的知识来创建与你描述相匹配的独特图像。其可实现的细节与真实感程度令人惊叹,风格范围从照片级真实到奇幻插画。
超越文本生图的能力
尽管其主要功能是从文本生成图像,Stable Diffusion 的能力远不止于此。其多样性使其成为覆盖广泛创意任务的综合工具:
- 图像到图像: 你可以提供一张现有图像并配合文本提示,引导模型对原图进行转化。此功能非常适合艺术风格化、概念探索与创意实验。
- Inpainting 和 Outpainting: Stable Diffusion 允许你有选择地修改图像的部分(inpainting),或将图像扩展至原始边界之外(outpainting)。这对照片修复、对象移除以及扩展画布非常有用。
- 视频创作: 随着近期的进步,Stable Diffusion 现已可用于创建视频与动画,为动态视觉叙事开启新的可能。
- ControlNets: 这些是提供更精细控制的附加模型,允许你指定姿态、深度图等结构元素,从而更精准地控制生成过程。
开源与可及性
Stable Diffusion 最重要的方面之一就是其开源属性。代码与模型权重均公开可用,这意味着只要硬件满足条件,你就可以在自己的电脑上运行它。这种可及性使其有别于许多专有的 AI 图像生成服务,并成为其广泛采用的关键因素。在本地运行模型让用户对作品拥有完全的创作自由与控制权,不受某些在线平台的内容限制或服务费用影响。
Stable Diffusion 是如何工作的?
相较于像素空间扩散,潜空间方法大幅降低了内存与计算开销,这也使得 Stable Diffusion 在消费级 GPU 上变得可行。诸如 SDXL 与 3.x 系列的变体在多主体保真度、分辨率与提示处理方面有所提升;Stability 与社区也会定期发布新版本。
核心组件:VAE、U-Net 和文本编码器
Stable Diffusion 由三个主要组件协同工作以生成图像:
变分自编码器(VAE): VAE 负责将训练数据中的高分辨率图像压缩至较小的潜空间表示,并将生成的潜表示解码回全分辨率图像。
U-Net: 这是模型的核心,一个在潜空间中运行的神经网络。U-Net 被训练来预测并移除扩散过程中添加的噪声。它将带噪的潜表示与文本提示作为输入,输出去噪后的潜表示。
文本编码器: 文本编码器将你的文本提示转换为 U-Net 可理解的数值表示。Stable Diffusion 通常使用名为 CLIP(对比式语言-图像预训练)的预训练文本编码器,它在大量图像及其标题的数据集上训练。CLIP 在捕捉文本语义并将其转化为可引导图像生成的格式方面非常有效。
去噪过程
Stable Diffusion 的图像生成过程可概括为:
- 文本编码: 将你的文本提示输入文本编码器(CLIP)以生成文本嵌入。
- 随机噪声生成: 在潜空间中生成一张随机噪声图像。
- 去噪循环: U-Net 在文本嵌入的引导下迭代地对随机噪声图像进行去噪。在每一步,U-Net 预测潜图像中的噪声并将其减除,逐步将图像细化为与提示相匹配的结果。
- 图像解码: 去噪完成后,将最终的潜表示输入 VAE 的解码器,生成最终的高分辨率图像。
我需要哪些硬件与软件?
常见硬件建议
- GPU: 强烈建议使用支持 CUDA 的 NVIDIA。为获得流畅、现代的使用体验,≥8 GB VRAM 可满足中等分辨率;12–24 GB 则更适合高分辨率或混合精度模型。通过优化,低显存卡也能进行小规模实验,但性能与最大图像尺寸会受限。
- CPU / RAM: 任何现代多核 CPU 与 ≥16 GB RAM 是实用基线。
- 存储: SSD(优选 NVMe)以及 20–50 GB 的可用空间,用于存放模型、缓存与辅助文件。
- 操作系统: 对高级用户而言,Linux(如 Ubuntu)更为便利;Windows 10/11 对 GUI 套件提供完整支持;服务器可使用 Docker。
软件先决条件
- Python 3.10+ 或 Conda 环境。
- 针对你的 GPU 的 CUDA 工具包 / NVIDIA 驱动与匹配的 PyTorch 轮子(除非计划仅用 CPU,但会非常慢)。
- Git、Git LFS(用于某些模型下载),以及可选的 Hugging Face 账号以下载需要许可同意的模型。
重要——许可证与安全: 许多 Stable Diffusion 检查点受 Stability AI 的社区许可或特定模型许可约束,下载前需要同意。托管在 Hugging Face 的模型常要求你登录并明确接受条款;若未批准,自动下载会失败。
我该如何安装 Stable Diffusion(分步指南)?
以下是三条实用安装路径。请选择与你需求相匹配的方式:
- 路径 A — 完整 GUI: AUTOMATIC1111 Stable Diffusion WebUI(适合交互使用,拥有众多社区插件)。
- 路径 B — 编程方式: Hugging Face 的
diffusers流水线(适合集成与脚本化)。 - 路径 C — 云端 / Docker: 若本地缺乏 GPU 资源,使用云端虚机或容器。
如何下载模型权重并接受许可?
Stable Diffusion 模型权重的分发方式包括:
- Stability AI 官方发布 —— Stability 发布核心模型并宣布主要版本(3.x、SDXL 等)。这些模型通常可从 Stability 官网与 Hugging Face 获取。
- Hugging Face 模型卡 —— 许多社区与官方检查点托管在 Hugging Face 上。大多数发布的 SD 检查点在下载前必须登录并接受模型许可。
diffusersAPI 遵循该流程。 - 社区平台(Civitai、GitHub 等) —— 这些平台托管社区检查点、嵌入与 LoRA;请分别查看每个资源的许可证。
实际下载步骤:
- 如有需要,创建一个 Hugging Face 账号。
- 访问模型页面(例如
stabilityai/stable-diffusion-3-5)并接受许可。 - 使用
huggingface-cli或 WebUI 的模型下载对话框。对于由 Git LFS 支持的模型,安装git lfs并按说明执行git clone。
如何在 Windows 或 Linux 上安装 AUTOMATIC1111 WebUI?
AUTOMATIC1111 的 WebUI 是一个流行且积极维护的 GUI,拥有众多扩展与配置选项。该仓库提供发行说明与简洁的启动脚本。
1) 预备(Windows)
- 安装你 GPU 的最新 NVIDIA 驱动。
- 安装 Git for Windows。
- 如偏好 Conda:安装 Miniconda。
2) 克隆并启动(Windows)
打开 PowerShell 或命令提示符,然后运行:
# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat
脚本将安装 Python 包、下载所需组件,并默认在 http://127.0.0.1:7860 打开 Web UI。如果项目提示需要模型文件,请参见下方“模型下载”步骤。
3) 克隆并启动(Linux)
建议:创建 virtualenv 或 conda 环境。
# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# Create a venv and activate
python3 -m venv venv
source venv/bin/activate
# Launch (the launcher will install requirements)
python launch.py
在 Linux 上,通常需要在启动前安装与你系统匹配的、支持 CUDA 的 PyTorch,以确保 GPU 加速。
模型权重放置位置: 将 .ckpt、.safetensors 或 SDXL 文件放入 models/Stable-diffusion/(如需自行创建该文件夹)。WebUI 会自动检测权重。
如何通过 Hugging Face Diffusers 安装 Stable Diffusion ?
若你希望拥有可编程、可脚本化的流水线,或将生成集成到应用中,此路线最为合适。
1) 安装 Python 包
创建并激活虚拟环境,然后安装所需包:
python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub
提示:请使用 PyTorch 官方安装页面为你的 CUDA 版本安装正确的 PyTorch 轮子。
diffusers文档列出了兼容的软件包组合。
2) 认证并下载模型(Hugging Face)
Hugging Face 上的许多 Stable Diffusion 检查点要求你登录并同意许可。在终端中:
pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)
以编程方式加载模型(以托管在 Hugging Face 上的检查点为例):
from diffusers import StableDiffusionPipeline
import torch
model_id = "stabilityai/stable-diffusion-3-5" # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")
image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")
如果某些旧版本模型需要在加载时提供 use_auth_token=True,可传入 use_auth_token=HUGGINGFACE_TOKEN 或确保已执行 huggingface-cli login。始终查看模型卡以了解许可说明。
如何使用云实例或 Docker?
如果你缺少合适的本地 GPU,可在云端(AWS、GCP、Azure)使用带 NVIDIA GPU 的虚机或专用 AI 实例。或者,许多 WebUI 仓库提供 Dockerfile 或社区 Docker 镜像。
一个简单的 Docker 模式(示例):
# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest
# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest
云服务商通常按小时计费;若用于生产或团队协作,可评估 Hugging Face Inference Endpoints 或 Stability 自有 API 等托管服务。这些服务需付费,但可降低运维开销。
故障排除与性能优化
常见问题
- 安装在
torch或 CUDA 不匹配处失败。 确保你的 PyTorch 轮子与系统的 CUDA(驱动)版本匹配;使用 PyTorch 官方安装器生成正确的 pip 命令。 - 模型下载被阻止 / 403。 确保你已登录 Hugging Face 并接受模型许可。有些模型需要 Git LFS。
- OOM(内存不足)。 降低推理分辨率,切换为半精度(
torch_dtype=torch.float16),或在 WebUI 中启用xformers/ 内存高效注意力。
性能调优
- 安装
xformers(若支持)以使用内存高效注意力。 - 根据稳定性使用
--precision full与--precision fp16标志。 - 若 GPU 显存有限,考虑 CPU 卸载或使用可能更快且更安全的
safetensors格式。
Stable Diffusion 3.5 有哪些新变化?
Stable Diffusion 3.5 的发布带来了多项改进与新特性,进一步增强了这一强大图像生成模型的能力。
图像质量与提示遵循的提升
Stable Diffusion 3.5 在图像质量上有显著提升,具备更好的照片真实感、光照与细节表现。它对复杂文本提示的理解也大幅改进,生成结果更准确地反映用户的创意愿景。文本渲染同样得到改进,可生成可读性更强的文字图像。
新模型:Large 与 Turbo
Stable Diffusion 3.5 提供两个主要变体:
- Stable Diffusion 3.5 Large: 这是最强大的模型,能够产生最高质量的图像。它需要至少 16GB VRAM 的 GPU。
- Stable Diffusion 3.5 Large Turbo: 此模型针对速度优化,可在仅 8GB VRAM 的 GPU 上运行。相较 Large 模型,它生成图像的速度更快,同时仍保持较高的质量水平。
优化与合作
Stability AI 与 NVIDIA、AMD 合作对 Stable Diffusion 3.5 在其各自硬件上的性能进行优化。这些优化包括对 NVIDIA RTX GPU 上的 TensorRT 与 FP8 的支持,从而带来更快的生成速度与更低的内存占用,使 Stable Diffusion 对更广泛用户群体更具可及性。
如何在没有本地 GPU 的情况下运行 Stable Diffusion
如果你缺少足够强大的 GPU,可使用 CometAPI,它提供 Stable Diffusion 的云端图像生成 API,以及其他图像生成 API,例如 GPT Image 1.5 API 和 Nano Banano Series API。
结论
Stable Diffusion 从根本上改变了我们创造与互动数字图像的方式。其开源特性与不断扩展的能力,赋能全球创作者社区探索新的艺术边界。随着 Stable Diffusion 3.5 的发布,这一强大工具变得更加易用且多才多艺,展现出一个创作边界只受想象力限制的未来。无论你是经验丰富的艺术家、好奇的开发者,还是仅仅想体验 AI 力量的人士,本指南都为你提供了上手 Stable Diffusion 并释放创意潜能所需的基础。
开始行动,可在 CometAPI 的 Playground 创作。请确保已登录以获取你的 API 密钥,今天就开始构建吧。
准备好开始了吗?→ 通过 CometAPI 免费试用 Stable Diffusion!
