Cách tải xuống Stable Diffusion — Hướng dẫn từng bước - CometAPI

Stable Diffusion vẫn là họ mô hình mã nguồn mở chuyển văn bản thành hình ảnh được sử dụng rộng rãi nhất. Stability AI tiếp tục lặp và cải tiến (đáng chú ý là phát hành dòng Stable Diffusion 3 và các cải tiến SDXL). Với việc ra mắt Stable Diffusion 3.5 gần đây, các khả năng của công nghệ này đã được mở rộng hơn nữa, mang đến chất lượng hình ảnh nâng cao, hiểu prompt tốt hơn và các ứng dụng linh hoạt hơn. Hướng dẫn này cung cấp cái nhìn tổng quan toàn diện về Stable Diffusion, từ cách hoạt động bên trong đến hướng dẫn cài đặt từng bước, giúp bạn khai thác tiềm năng sáng tạo của công nghệ AI đột phá này.

CometAPI, cung cấp cloud API của Stable Diffusion để tạo hình ảnh.

Stable Diffusion là gì?

Stable Diffusion là một mô hình học sâu tạo hình ảnh từ mô tả văn bản, một công nghệ được gọi là tổng hợp văn bản thành hình ảnh (text-to-image). Khác với nhiều trình tạo ảnh AI khác, Stable Diffusion là mã nguồn mở, cho phép bất kỳ ai sử dụng, chỉnh sửa và phát triển dựa trên công nghệ này.

Mô hình được huấn luyện trên một tập dữ liệu khổng lồ gồm hình ảnh và mô tả văn bản tương ứng, giúp nó học được các mối quan hệ phức tạp giữa từ ngữ và khái niệm thị giác. Khi bạn cung cấp một prompt văn bản, Stable Diffusion sử dụng tri thức đã học để tạo ra một hình ảnh độc đáo phù hợp với mô tả của bạn. Mức độ chi tiết và chân thực đạt được là đáng kinh ngạc, từ ảnh chân thực đến minh họa kỳ ảo với đa dạng phong cách.

Các khả năng vượt ra ngoài Text-to-Image

Mặc dù chức năng chính là tạo hình ảnh từ văn bản, các khả năng của Stable Diffusion vượt xa tính năng cốt lõi này. Tính linh hoạt khiến nó trở thành công cụ toàn diện cho nhiều tác vụ sáng tạo:

Image-to-Image: Bạn có thể cung cấp một hình ảnh hiện có và một prompt văn bản để hướng dẫn mô hình biến đổi hình ảnh ban đầu. Tính năng này hoàn hảo cho phong cách hóa nghệ thuật, khám phá ý tưởng và thử nghiệm sáng tạo.
Inpainting and Outpainting: Stable Diffusion cho phép bạn chỉnh sửa có chọn lọc các phần của hình ảnh (inpainting) hoặc mở rộng hình ảnh vượt ra ngoài viền gốc (outpainting). Điều này cực kỳ hữu ích cho phục chế ảnh, xóa đối tượng và mở rộng khung hình cho tác phẩm của bạn.
Video Creation: Với những tiến bộ gần đây, Stable Diffusion giờ có thể được sử dụng để tạo video và hoạt hình, mở ra khả năng mới cho kể chuyện hình ảnh động.
ControlNets: Đây là các mô hình bổ sung giúp kiểm soát chính xác hơn quá trình tạo ảnh, cho phép bạn chỉ định tư thế, bản đồ độ sâu và các yếu tố cấu trúc khác.

Mã nguồn mở và khả năng tiếp cận

Một trong những khía cạnh quan trọng nhất của Stable Diffusion là tính mã nguồn mở. Mã và trọng số mô hình được công khai, nghĩa là bạn có thể chạy trên máy tính của mình, miễn là có phần cứng cần thiết. Mức độ tiếp cận này khiến nó khác biệt với nhiều dịch vụ tạo ảnh AI độc quyền và là yếu tố then chốt dẫn đến mức độ phổ biến rộng rãi. Khả năng chạy mô hình cục bộ mang đến cho người dùng tự do sáng tạo và kiểm soát hoàn toàn đối với tác phẩm, không chịu các hạn chế nội dung hay phí dịch vụ như một số nền tảng trực tuyến.

Stable Diffusion hoạt động như thế nào?

Cách tiếp cận không gian tiềm ẩn (latent) giúp giảm đáng kể chi phí bộ nhớ và tính toán so với khuếch tán trong không gian điểm ảnh (pixel-space), nhờ đó Stable Diffusion trở nên khả thi trên các GPU phổ thông. Các biến thể như SDXL và dòng 3.x cải thiện độ trung thực đa đối tượng, độ phân giải và khả năng xử lý prompt; các bản phát hành mới xuất hiện định kỳ từ Stability và cộng đồng.

Các thành phần chính: VAE, U-Net và Bộ mã hóa văn bản

Stable Diffusion gồm ba thành phần chính phối hợp để tạo ảnh:

Variational Autoencoder (VAE): VAE chịu trách nhiệm nén các hình ảnh độ phân giải cao từ dữ liệu huấn luyện vào biểu diễn trong không gian tiềm ẩn nhỏ hơn và giải nén biểu diễn tiềm ẩn đã tạo thành ảnh độ phân giải đầy đủ.

U-Net: Đây là lõi của mô hình, một mạng nơ-ron hoạt động trong không gian tiềm ẩn. U-Net được huấn luyện để dự đoán và loại bỏ nhiễu được thêm vào trong quá trình khuếch tán. Nó nhận biểu diễn tiềm ẩn nhiễu và prompt văn bản làm đầu vào và xuất ra biểu diễn tiềm ẩn đã khử nhiễu.

Bộ mã hóa văn bản: Bộ mã hóa văn bản chuyển prompt của bạn thành một biểu diễn số mà U-Net có thể hiểu. Stable Diffusion thường sử dụng bộ mã hóa văn bản được huấn luyện sẵn gọi là CLIP (Contrastive Language-Image Pre-Training), được huấn luyện trên tập dữ liệu lớn gồm hình ảnh và chú thích. CLIP rất hiệu quả trong việc nắm bắt ý nghĩa ngữ nghĩa của văn bản và chuyển nó thành định dạng có thể dẫn dắt quá trình tạo ảnh.

Quy trình khử nhiễu

Quy trình tạo ảnh trong Stable Diffusion có thể tóm tắt như sau:

Mã hóa văn bản: Prompt văn bản của bạn được đưa qua bộ mã hóa văn bản (CLIP) để tạo vector nhúng văn bản.
Tạo nhiễu ngẫu nhiên: Một ảnh nhiễu ngẫu nhiên được tạo trong không gian tiềm ẩn.
Vòng lặp khử nhiễu: U-Net khử nhiễu ảnh ngẫu nhiên theo vòng lặp, được dẫn dắt bởi vector nhúng văn bản. Ở mỗi bước, U-Net dự đoán nhiễu trong ảnh tiềm ẩn và trừ bỏ nó, dần dần tinh chỉnh ảnh để khớp với prompt.
Giải mã ảnh: Khi quá trình khử nhiễu hoàn tất, biểu diễn tiềm ẩn cuối cùng được đưa qua bộ giải mã của VAE để tạo ra ảnh độ phân giải cao cuối cùng.

Tôi cần phần cứng và phần mềm gì?

Hướng dẫn phần cứng điển hình

GPU: Nên dùng NVIDIA hỗ trợ CUDA. Để sử dụng hiện đại, mượt mà, nên hướng tới ≥8 GB VRAM cho độ phân giải vừa phải; 12–24 GB giúp trải nghiệm thoải mái hơn với độ phân giải cao hoặc mô hình mixed-precision. Có thể thử nghiệm rất nhỏ trên các card VRAM thấp với tối ưu hóa, nhưng hiệu năng và kích thước ảnh tối đa sẽ bị giới hạn.
CPU / RAM: CPU đa nhân hiện đại và ≥16 GB RAM là mức nền tảng thực tế.
Lưu trữ: SSD (ưu tiên NVMe) và 20–50 GB trống để lưu mô hình, bộ nhớ đệm và tệp phụ trợ.
Hệ điều hành: Linux (các bản Ubuntu) thuận tiện cho người dùng nâng cao; Windows 10/11 hỗ trợ đầy đủ cho các gói GUI; Docker phù hợp cho máy chủ.

Phần mềm tiên quyết

Python 3.10+ hoặc môi trường Conda.
Bộ công cụ CUDA / trình điều khiển NVIDIA cho GPU của bạn và gói PyTorch wheel tương ứng (trừ khi bạn chạy chỉ CPU, sẽ rất chậm).
Git, Git LFS (cho một số tải mô hình), và tùy chọn tài khoản Hugging Face cho các mô hình yêu cầu chấp thuận giấy phép.

Quan trọng—giấy phép & an toàn: Nhiều checkpoint Stable Diffusion có sẵn theo giấy phép cộng đồng của Stability AI hoặc giấy phép mô hình cụ thể và yêu cầu chấp thuận trước khi tải. Các mô hình lưu trữ trên Hugging Face thường yêu cầu bạn đăng nhập tài khoản Hugging Face và chấp nhận điều khoản rõ ràng; tải tự động sẽ thất bại nếu không có chấp thuận đó.

Cài đặt Stable Diffusion như thế nào (Hướng dẫn từng bước)?

Dưới đây là ba lộ trình cài đặt thực tế. Chọn lộ trình phù hợp nhu cầu của bạn:

Lộ trình A — GUI đầy đủ: AUTOMATIC1111 Stable Diffusion WebUI (tốt cho sử dụng tương tác, nhiều plugin cộng đồng).
Lộ trình B — Lập trình: pipeline diffusers của Hugging Face (tốt cho tích hợp và viết script).
Lộ trình C — Đám mây / Docker: Dùng máy ảo đám mây hoặc container nếu bạn thiếu GPU cục bộ.

Làm thế nào để tải trọng số mô hình và chấp thuận giấy phép?

Trọng số mô hình Stable Diffusion được phân phối theo nhiều cách:

Phát hành chính thức từ Stability AI — Stability công bố các mô hình lõi và thông báo các bản phát hành lớn (3.x, SDXL, v.v.). Các mô hình này thường có trên trang của Stability và trên Hugging Face.
Thẻ mô hình trên Hugging Face — Nhiều checkpoint cộng đồng và chính thức được lưu trữ trên Hugging Face. Với hầu hết các checkpoint SD được công bố, bạn phải đăng nhập và chấp nhận giấy phép trước khi tải. API diffusers tuân theo quy trình này.
Trung tâm cộng đồng (Civitai, GitHub, v.v.) — Lưu trữ checkpoint cộng đồng, embedding và LoRA; hãy kiểm tra giấy phép của từng tài nguyên.

Các bước thực tế để tải:

Tạo tài khoản Hugging Face nếu cần.
Truy cập trang mô hình (ví dụ stabilityai/stable-diffusion-3-5) và chấp nhận giấy phép.
Dùng huggingface-cli hoặc hộp thoại tải model của WebUI. Với mô hình dùng Git LFS, cài git lfs và git clone theo hướng dẫn.

Cài đặt AUTOMATIC1111 WebUI trên Windows hoặc Linux như thế nào?

WebUI của AUTOMATIC1111 là GUI phổ biến, được duy trì tích cực với nhiều tiện ích mở rộng và tùy chọn cấu hình. Repo cung cấp ghi chú phát hành và trình khởi chạy đơn giản.

1) Chuẩn bị trước (Windows)

Cài trình điều khiển NVIDIA mới nhất cho GPU của bạn.
Cài Git for Windows.
Nếu bạn thích Conda: cài Miniconda.

2) Sao chép và khởi chạy (Windows)

Mở Powershell hoặc Command Prompt, sau đó chạy:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

Script sẽ cài gói Python, tải các thành phần cần thiết và mở giao diện web tại http://127.0.0.1:7860 theo mặc định. Nếu dự án yêu cầu tệp mô hình, xem bước Tải mô hình bên dưới.

3) Sao chép và khởi chạy (Linux)

Khuyến nghị: tạo virtualenv hoặc môi trường conda.

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

Trên Linux, bạn thường cần cài đặt PyTorch hỗ trợ CUDA phù hợp trước khi khởi chạy để đảm bảo tăng tốc GPU.

Đặt trọng số mô hình ở đâu: Đặt tệp mô hình .ckpt, .safetensors hoặc tệp SDXL vào models/Stable-diffusion/ (tạo thư mục nếu cần). WebUI sẽ tự động nhận diện trọng số.

Cài đặt Stable Diffusion với Hugging Face Diffusers như thế nào?

Lộ trình này phù hợp nếu bạn muốn pipeline có thể lập trình, viết script hoặc tích hợp vào ứng dụng.

1) Cài các gói Python

Tạo và kích hoạt môi trường ảo, sau đó cài gói cần thiết:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

Mẹo: cài đúng gói PyTorch wheel cho phiên bản CUDA của bạn bằng trang cài đặt chính thức của PyTorch. Tài liệu diffusers liệt kê các bộ gói tương thích.

2) Xác thực và tải mô hình (Hugging Face)

Nhiều checkpoint Stable Diffusion trên Hugging Face yêu cầu bạn đã đăng nhập và chấp nhận giấy phép. Trong terminal:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

Để tải mô hình bằng lập trình (ví dụ cho một checkpoint lưu trữ trên Hugging Face):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

Nếu một mô hình yêu cầu use_auth_token=True ở các phiên bản cũ, hãy cung cấp use_auth_token=HUGGINGFACE_TOKEN hoặc đảm bảo đã chạy huggingface-cli login. Luôn xem thẻ mô hình để biết hướng dẫn giấy phép.

Sử dụng máy đám mây hoặc Docker như thế nào?

Nếu bạn thiếu GPU phù hợp cục bộ, hãy dùng máy ảo đám mây (AWS, GCP, Azure) với GPU NVIDIA hoặc phiên bản AI chuyên dụng. Ngoài ra, nhiều repo WebUI công bố Dockerfile hoặc image Docker của cộng đồng.

Mẫu Docker đơn giản (ví dụ):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

Nhà cung cấp đám mây thường tính phí theo giờ; cho sản xuất hoặc dùng theo nhóm, hãy cân nhắc các dịch vụ quản lý như Hugging Face Inference Endpoints hoặc API của chính Stability. Đây là dịch vụ trả phí nhưng giảm gánh nặng vận hành.

Khắc phục sự cố và mẹo hiệu năng

Vấn đề thường gặp

Cài đặt thất bại do torch hoặc không khớp CUDA. Kiểm tra gói PyTorch wheel khớp với phiên bản CUDA (trình điều khiển) của hệ thống; dùng trình cài đặt chính thức của PyTorch để tạo lệnh pip phù hợp.
Tải mô hình bị chặn / 403. Đảm bảo bạn đã đăng nhập Hugging Face và chấp nhận giấy phép mô hình. Một số mô hình cần Git LFS.
OOM (hết bộ nhớ). Giảm độ phân giải suy luận, chuyển sang half precision (torch_dtype=torch.float16), hoặc bật xformers / attention tiết kiệm bộ nhớ trong WebUI.

Tối ưu hiệu năng

Cài xformers (nếu hỗ trợ) cho attention tiết kiệm bộ nhớ.
Dùng cờ --precision full so với --precision fp16 tùy theo độ ổn định.
Nếu GPU bộ nhớ hạn chế, cân nhắc offload sang CPU hoặc dùng định dạng safetensors có thể nhanh và an toàn hơn.

Có gì mới với Stable Diffusion 3.5?

Bản phát hành Stable Diffusion 3.5 mang đến nhiều cải tiến và tính năng mới, tiếp tục nâng cao năng lực của mô hình tạo ảnh mạnh mẽ này.

Chất lượng hình ảnh và khả năng theo sát prompt được nâng cao

Stable Diffusion 3.5 cải thiện đáng kể chất lượng hình ảnh, với độ chân thực, ánh sáng và chi tiết tốt hơn. Nó cũng hiểu các prompt văn bản phức tạp tốt hơn, tạo ra hình ảnh phản ánh chính xác hơn tầm nhìn sáng tạo của người dùng. Khả năng hiển thị chữ cũng được cải thiện, giúp tạo hình ảnh với chữ dễ đọc.

Mô hình mới: Large và Turbo

Stable Diffusion 3.5 có hai biến thể chính:

Stable Diffusion 3.5 Large: Đây là mô hình mạnh nhất, có khả năng tạo ra hình ảnh chất lượng cao nhất. Cần GPU với ít nhất 16GB VRAM.
Stable Diffusion 3.5 Large Turbo: Mô hình này được tối ưu cho tốc độ và có thể chạy trên GPU chỉ với 8GB VRAM. Nó tạo ảnh nhanh hơn nhiều so với bản Large, trong khi vẫn duy trì mức chất lượng cao.

Tối ưu hóa và hợp tác

Stability AI đã hợp tác với NVIDIA và AMD để tối ưu hiệu năng của Stable Diffusion 3.5 trên phần cứng tương ứng của họ. Các tối ưu hóa này, bao gồm hỗ trợ TensorRT và FP8 trên GPU NVIDIA RTX, giúp thời gian tạo nhanh hơn và giảm sử dụng bộ nhớ, khiến Stable Diffusion dễ tiếp cận với nhiều người dùng hơn.

Làm thế nào để chạy Stable Diffusion khi không có GPU cục bộ

Nếu bạn thiếu GPU phù hợp, hãy dùng CometAPI, nền tảng cung cấp cloud API của Stable Diffusion để tạo hình ảnh, cùng các API tạo ảnh khác như GPT Image 1.5 API và Nano Banano Series API.

Kết luận

Stable Diffusion đã thay đổi căn bản cách chúng ta tạo ra và tương tác với hình ảnh số. Tính mã nguồn mở, kết hợp với các khả năng không ngừng mở rộng, đã trao quyền cho cộng đồng sáng tạo toàn cầu khám phá những biên giới nghệ thuật mới. Với bản phát hành Stable Diffusion 3.5, công cụ mạnh mẽ này trở nên dễ tiếp cận và linh hoạt hơn nữa, hé lộ tương lai nơi giới hạn duy nhất của những gì ta có thể tạo ra chính là trí tưởng tượng của mình. Dù bạn là nghệ sĩ dày dạn, nhà phát triển tò mò hay chỉ là người muốn thử nghiệm sức mạnh của AI, hướng dẫn này cung cấp nền tảng cần thiết để bắt đầu với Stable Diffusion và mở khóa tiềm năng sáng tạo của bạn.

Để bắt đầu, hãy tạo tác phẩm trên CometAPI trong Playground. Hãy đảm bảo bạn đã đăng nhập để lấy khóa API và bắt đầu xây dựng ngay hôm nay.

Sẵn sàng bắt đầu? → Dùng thử miễn phí Stable Diffusion qua CometAPI!

Cách tải xuống Stable Diffusion — Hướng dẫn từng bước