Cách tải xuống Stable Diffusion — Hướng dẫn từng bước - CometAPI

Stable Diffusion vẫn là họ mô hình tạo ảnh từ văn bản mã nguồn mở được sử dụng rộng rãi nhất. Stability AI tiếp tục phát hành các bản lặp (đáng chú ý là loạt Stable Diffusion 3 và các cải tiến SDXL). Với lần ra mắt gần đây của Stable Diffusion 3.5, năng lực của công nghệ này còn được mở rộng hơn nữa, mang đến chất lượng hình ảnh nâng cao, khả năng hiểu prompt tốt hơn và ứng dụng linh hoạt hơn. Hướng dẫn này cung cấp tổng quan toàn diện về Stable Diffusion, từ cơ chế hoạt động đến hướng dẫn cài đặt từng bước, giúp bạn khai phóng tiềm năng sáng tạo của AI đột phá này.

CometAPI, cung cấp Cloud API của Stable Diffusion để tạo hình ảnh.

Stable Diffusion là gì?

Stable Diffusion là một mô hình học sâu tạo ra hình ảnh từ mô tả bằng văn bản, một công nghệ được gọi là tổng hợp văn bản thành hình ảnh (text-to-image). Khác nhiều trình tạo ảnh bằng AI khác, Stable Diffusion là mã nguồn mở, cho phép mọi người sử dụng, sửa đổi và phát triển dựa trên công nghệ này.

Mô hình được huấn luyện trên bộ dữ liệu khổng lồ gồm hình ảnh và mô tả văn bản tương ứng, giúp nó học các quan hệ phức tạp giữa từ ngữ và khái niệm thị giác. Khi bạn cung cấp một prompt văn bản, Stable Diffusion sử dụng tri thức đã học để tạo ra một hình ảnh độc đáo phù hợp với mô tả của bạn. Mức độ chi tiết và chân thực đạt được rất ấn tượng, từ ảnh chân thực đến minh họa mang tính hư cấu với nhiều phong cách đa dạng.

Khả năng vượt ra ngoài tạo hình ảnh từ văn bản

Dù chức năng chính là tạo ảnh từ văn bản, khả năng của Stable Diffusion vượt xa tính năng cốt lõi này. Tính linh hoạt khiến nó trở thành công cụ toàn diện cho nhiều nhiệm vụ sáng tạo:

Ảnh‑sang‑ảnh: Bạn có thể cung cấp một ảnh sẵn có và một prompt văn bản để dẫn dắt mô hình biến đổi ảnh gốc. Tính năng này lý tưởng cho phong cách hóa nghệ thuật, khám phá ý tưởng và thử nghiệm sáng tạo.
Inpainting và Outpainting: Stable Diffusion cho phép bạn chỉnh sửa chọn lọc các phần của ảnh (inpainting) hoặc mở rộng ảnh vượt ra ngoài khung gốc (outpainting). Điều này cực kỳ hữu ích cho khôi phục ảnh, loại bỏ vật thể và mở rộng “khung vẽ” cho tác phẩm.
Tạo video: Với các tiến bộ gần đây, Stable Diffusion nay có thể dùng để tạo video và hoạt hình, mở ra những khả năng mới cho kể chuyện thị giác động.
ControlNets: Đây là các mô hình bổ trợ giúp kiểm soát quá trình tạo ảnh chính xác hơn, cho phép bạn chỉ định tư thế, bản đồ độ sâu và các yếu tố cấu trúc khác.

Mã nguồn mở và khả năng tiếp cận

Một trong những khía cạnh quan trọng nhất của Stable Diffusion là tính mã nguồn mở. Mã và trọng số mô hình được công khai, nghĩa là bạn có thể chạy trên máy tính của riêng mình nếu có phần cứng cần thiết. Mức độ tiếp cận này giúp nó khác biệt với nhiều dịch vụ tạo ảnh AI độc quyền và là yếu tố chính cho việc được chấp nhận rộng rãi. Khả năng chạy mô hình cục bộ cho phép người dùng có toàn quyền sáng tạo và kiểm soát tác phẩm, không chịu hạn chế nội dung hay phí dịch vụ như một số nền tảng trực tuyến.

Stable Diffusion hoạt động như thế nào?

Cách tiếp cận tiềm ẩn (latent) giúp giảm đáng kể bộ nhớ và chi phí tính toán so với khuếch tán trong không gian điểm ảnh, nhờ đó Stable Diffusion trở nên khả thi trên GPU tiêu dùng. Các biến thể như SDXL và dòng 3.x cải thiện độ trung thực đa đối tượng, độ phân giải và xử lý prompt; Stability và cộng đồng thường xuyên phát hành bản mới.

Các thành phần chính: VAE, U‑Net và bộ mã hóa văn bản

Stable Diffusion bao gồm ba thành phần chính phối hợp để tạo ảnh:

Variational Autoencoder (VAE): VAE chịu trách nhiệm nén ảnh độ phân giải cao từ dữ liệu huấn luyện vào biểu diễn trong không gian tiềm ẩn nhỏ hơn và giải nén biểu diễn tiềm ẩn đã tạo trở lại thành ảnh độ phân giải đầy đủ.

U‑Net: Đây là lõi của mô hình, một mạng nơ‑ron hoạt động trong không gian tiềm ẩn. U‑Net được huấn luyện để dự đoán và loại bỏ nhiễu được thêm vào trong quá trình khuếch tán. Nó nhận biểu diễn tiềm ẩn nhiễu và prompt văn bản làm đầu vào, sau đó xuất ra biểu diễn tiềm ẩn đã khử nhiễu.

Bộ mã hóa văn bản: Bộ mã hóa văn bản biến prompt của bạn thành biểu diễn số mà U‑Net có thể hiểu. Stable Diffusion thường dùng một bộ mã hóa văn bản tiền huấn luyện gọi là CLIP (Contrastive Language‑Image Pre‑Training), được huấn luyện trên tập dữ liệu lớn gồm hình ảnh và chú thích. CLIP rất hiệu quả trong việc nắm bắt ngữ nghĩa của văn bản và chuyển nó thành định dạng có thể dẫn dắt quá trình tạo ảnh.

Quy trình khử nhiễu

Quá trình tạo ảnh trong Stable Diffusion có thể tóm tắt như sau:

Mã hóa văn bản: Prompt của bạn được đưa qua bộ mã hóa văn bản (CLIP) để tạo embedding văn bản.
Tạo nhiễu ngẫu nhiên: Sinh một ảnh nhiễu ngẫu nhiên trong không gian tiềm ẩn.
Vòng khử nhiễu: U‑Net lặp lại việc khử nhiễu ảnh ngẫu nhiên, được dẫn dắt bởi embedding văn bản. Ở mỗi bước, U‑Net dự đoán nhiễu trong ảnh tiềm ẩn và trừ đi, dần dần tinh chỉnh ảnh để khớp prompt.
Giải mã ảnh: Khi quá trình khử nhiễu hoàn tất, biểu diễn tiềm ẩn cuối cùng được đưa qua bộ giải mã của VAE để tạo ảnh độ phân giải cao cuối cùng.

Tôi cần phần cứng và phần mềm gì?

Hướng dẫn phần cứng điển hình

GPU: Nên dùng NVIDIA có hỗ trợ CUDA. Để sử dụng mượt mà, hiện đại, nhắm tới ≥8 GB VRAM cho độ phân giải khiêm tốn; 12–24 GB cho trải nghiệm thoải mái hơn ở độ phân giải cao hoặc mô hình mixed‑precision. Các thử nghiệm rất nhỏ có thể chạy trên GPU ít VRAM với tối ưu hóa, nhưng hiệu năng và kích thước ảnh tối đa sẽ bị giới hạn.
CPU / RAM: Bất kỳ CPU đa nhân hiện đại và ≥16 GB RAM là mức cơ bản thực tế.
Lưu trữ: SSD (ưu tiên NVMe) và 20–50 GB trống để lưu mô hình, bộ đệm và tệp phụ trợ.
OS: Linux (các biến thể Ubuntu) thuận tiện cho người dùng nâng cao; Windows 10/11 hỗ trợ đầy đủ cho các gói GUI; Docker phù hợp cho máy chủ.

Phần mềm cần thiết

Python 3.10+ hoặc môi trường Conda.
Bộ công cụ CUDA / trình điều khiển NVIDIA cho GPU của bạn và wheel PyTorch phù hợp (trừ khi bạn định chạy CPU‑only, sẽ rất chậm).
Git, Git LFS (cho một số tải mô hình), và tùy chọn tài khoản Hugging Face cho các mô hình yêu cầu chấp nhận giấy phép trước khi tải.

Quan trọng—giấy phép & an toàn: Nhiều checkpoint của Stable Diffusion được phát hành theo giấy phép cộng đồng của Stability AI hoặc giấy phép mô hình cụ thể và yêu cầu chấp nhận trước khi tải. Các mô hình được lưu trữ trên Hugging Face thường yêu cầu bạn đăng nhập tài khoản Hugging Face và chấp nhận điều khoản rõ ràng; việc tải tự động sẽ thất bại nếu không có chấp thuận đó.

Cài đặt Stable Diffusion như thế nào (Hướng dẫn từng bước)?

Dưới đây là ba lộ trình cài đặt thực tế. Chọn cách phù hợp với nhu cầu của bạn:

Lộ trình A — GUI đầy đủ: AUTOMATIC1111 Stable Diffusion WebUI (tốt cho sử dụng tương tác, nhiều plugin cộng đồng).
Lộ trình B — Lập trình: pipeline diffusers của Hugging Face (tốt cho tích hợp và scripting).
Lộ trình C — Cloud / Docker: Dùng máy ảo đám mây hoặc container nếu thiếu tài nguyên GPU cục bộ.

Tải trọng số mô hình và chấp nhận giấy phép như thế nào?

Trọng số mô hình Stable Diffusion được phân phối theo vài cách:

Phát hành chính thức của Stability AI — Stability công bố các mô hình cốt lõi và thông báo các bản phát hành lớn (3.x, SDXL, v.v.). Các mô hình này thường có trên trang của Stability và trên Hugging Face.
Model card trên Hugging Face — Nhiều checkpoint của cộng đồng và chính thức được lưu trên Hugging Face. Với hầu hết checkpoint SD đã công bố, bạn phải đăng nhập và chấp nhận giấy phép trước khi tải. API diffusers tuân theo quy trình này.
Cộng đồng (Civitai, GitHub, v.v.) — Lưu trữ checkpoint cộng đồng, embedding và LoRA; kiểm tra giấy phép của từng tài nguyên.

Các bước thực tế để tải:

Tạo tài khoản Hugging Face nếu cần.
Truy cập trang mô hình (ví dụ stabilityai/stable-diffusion-3-5) và chấp nhận giấy phép.
Dùng huggingface-cli hoặc hộp thoại tải mô hình của WebUI. Với mô hình dùng Git LFS, cài git lfs và git clone theo hướng dẫn.

Cài đặt AUTOMATIC1111 WebUI trên Windows hoặc Linux như thế nào?

WebUI của AUTOMATIC1111 là GUI phổ biến, được bảo trì tích cực với nhiều tiện ích mở rộng và tùy chọn cấu hình. Kho lưu trữ cung cấp ghi chú phát hành và trình khởi chạy trực quan.

1) Kiểm tra trước (Windows)

Cài trình điều khiển NVIDIA mới nhất cho GPU của bạn.
Cài Git for Windows.
Nếu bạn thích Conda: cài Miniconda.

2) Clone và khởi chạy (Windows)

Mở Powershell hoặc Command Prompt, sau đó chạy:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

Script sẽ cài gói Python, tải các thành phần cần thiết và mở giao diện web tại http://127.0.0.1:7860 theo mặc định. Nếu dự án yêu cầu tệp mô hình, xem bước Tải mô hình bên dưới.

3) Clone và khởi chạy (Linux)

Khuyến nghị: tạo virtualenv hoặc môi trường conda.

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

Trên Linux, bạn thường cần cài đặt PyTorch có hỗ trợ CUDA phù hợp trước khi khởi chạy để đảm bảo tăng tốc GPU.

Đặt trọng số mô hình ở đâu: Đặt các tệp mô hình .ckpt, .safetensors hoặc tệp SDXL vào models/Stable-diffusion/ (tạo thư mục nếu cần). WebUI sẽ tự động phát hiện trọng số.

Cài đặt Stable Diffusion bằng Hugging Face Diffusers như thế nào?

Lộ trình này phù hợp nếu bạn muốn pipeline có thể lập trình, script hoặc tích hợp vào ứng dụng.

1) Cài đặt gói Python

Tạo và kích hoạt môi trường ảo, sau đó cài các gói cần thiết:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

Mẹo: cài đúng wheel PyTorch cho phiên bản CUDA của bạn bằng trang cài đặt chính thức của PyTorch. Tài liệu diffusers liệt kê các bộ gói tương thích.

2) Xác thực và tải mô hình (Hugging Face)

Nhiều checkpoint Stable Diffusion trên Hugging Face yêu cầu bạn đăng nhập và chấp nhận giấy phép. Trong terminal:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

Để tải mô hình theo lập trình (ví dụ cho checkpoint lưu trên Hugging Face):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

Nếu một mô hình yêu cầu use_auth_token=True ở các phiên bản cũ, cung cấp use_auth_token=HUGGINGFACE_TOKEN hoặc đảm bảo đã chạy huggingface-cli login. Luôn xem model card để biết hướng dẫn giấy phép.

Dùng máy đám mây hoặc Docker như thế nào?

Nếu bạn thiếu GPU cục bộ phù hợp, hãy dùng máy ảo đám mây (AWS, GCP, Azure) có GPU NVIDIA hoặc máy chuyên dụng AI. Ngoài ra, nhiều kho WebUI cung cấp Dockerfile hoặc ảnh Docker từ cộng đồng.

Mẫu Docker đơn giản (ví dụ):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

Nhà cung cấp đám mây thường tính phí theo giờ; cho sản xuất hoặc dùng theo nhóm, hãy cân nhắc dịch vụ quản lý như Hugging Face Inference Endpoints hoặc API riêng của Stability. Đây là dịch vụ trả phí nhưng giảm chi phí vận hành.

Khắc phục sự cố và mẹo hiệu năng

Vấn đề thường gặp

Cài đặt thất bại do không khớp torch hoặc CUDA. Kiểm tra wheel PyTorch khớp với phiên bản CUDA (driver) của hệ thống; dùng trình cài chính thức của PyTorch để tạo lệnh pip phù hợp.
Tải mô hình bị chặn / 403. Đảm bảo bạn đã đăng nhập Hugging Face và chấp nhận giấy phép mô hình. Một số mô hình yêu cầu Git LFS.
OOM (hết bộ nhớ). Giảm độ phân giải suy luận, chuyển sang nửa chính xác (torch_dtype=torch.float16), hoặc bật xformers / attention tiết kiệm bộ nhớ trong WebUI.

Tinh chỉnh hiệu năng

Cài xformers (nếu được hỗ trợ) cho attention tiết kiệm bộ nhớ.
Dùng cờ --precision full hoặc --precision fp16 tùy theo độ ổn định.
Nếu bạn hạn chế VRAM, cân nhắc CPU offload hoặc dùng định dạng safetensors có thể nhanh và an toàn hơn.

Có gì mới với Stable Diffusion 3.5?

Bản phát hành Stable Diffusion 3.5 mang đến nhiều cải tiến và tính năng mới, tiếp tục nâng cao năng lực của mô hình tạo ảnh mạnh mẽ này.

Chất lượng ảnh và khả năng bám sát prompt được cải thiện

Stable Diffusion 3.5 cải thiện đáng kể chất lượng ảnh, với độ chân thực, ánh sáng và chi tiết tốt hơn. Nó cũng hiểu các prompt văn bản phức tạp tốt hơn nhiều, cho ra hình ảnh phản ánh chính xác hơn ý tưởng sáng tạo của người dùng. Khả năng dựng chữ cũng được cải thiện, giúp tạo ảnh có văn bản dễ đọc.

Mô hình mới: Large và Turbo

Stable Diffusion 3.5 có hai biến thể chính:

Stable Diffusion 3.5 Large: Đây là mô hình mạnh nhất, có khả năng tạo ra hình ảnh chất lượng cao nhất. Yêu cầu GPU với tối thiểu 16GB VRAM.
Stable Diffusion 3.5 Large Turbo: Mô hình này tối ưu cho tốc độ và có thể chạy trên GPU chỉ từ 8GB VRAM. Nó tạo ảnh nhanh hơn nhiều so với bản Large, đồng thời vẫn duy trì mức chất lượng cao.

Tối ưu hóa và hợp tác

Stability AI đã hợp tác với NVIDIA và AMD để tối ưu hiệu năng của Stable Diffusion 3.5 trên phần cứng tương ứng của họ. Các tối ưu này, bao gồm hỗ trợ TensorRT và FP8 trên GPU NVIDIA RTX, giúp rút ngắn thời gian tạo và giảm sử dụng bộ nhớ, khiến Stable Diffusion dễ tiếp cận hơn với nhiều người dùng.

Làm sao chạy Stable Diffusion khi không có GPU cục bộ

Nếu bạn thiếu GPU phù hợp, hãy dùng CometAPI, cung cấp Cloud API của Stable Diffusion để tạo ảnh, cùng các API tạo ảnh khác như GPT Image 1.5 API và Nano Banano Series API.

Kết luận

Stable Diffusion đã làm thay đổi căn bản cách chúng ta tạo và tương tác với hình ảnh số. Tính mã nguồn mở, cùng với khả năng không ngừng mở rộng, đã trao quyền cho cộng đồng sáng tạo toàn cầu khám phá những biên giới nghệ thuật mới. Với bản phát hành Stable Diffusion 3.5, công cụ mạnh mẽ này trở nên dễ tiếp cận và linh hoạt hơn nữa, hé lộ một tương lai nơi giới hạn duy nhất cho những gì ta có thể tạo ra là trí tưởng tượng của chính mình. Dù bạn là nghệ sĩ dày dạn, nhà phát triển tò mò hay chỉ muốn thử nghiệm sức mạnh của AI, hướng dẫn này cung cấp nền tảng để bạn bắt đầu với Stable Diffusion và mở khóa tiềm năng sáng tạo.

Để bắt đầu, hãy tạo tác phẩm trên CometAPI trong Playground. Hãy đảm bảo bạn đã đăng nhập để lấy API key và bắt đầu xây dựng ngay hôm nay.

Sẵn sàng bắt đầu? → Dùng thử miễn phí Stable Diffusion qua CometAPI!

Cách tải xuống Stable Diffusion — Hướng dẫn từng bước