Stable Diffusion をダウンロードする方法 — ステップバイステップガイド - CometAPI

Stable Diffusion は、テキストから画像へのモデルのオープンソース系統として最も広く使われ続けています。Stability AI は継続的に改良を重ねており（とりわけ Stable Diffusion 3 シリーズや SDXL の改良を公開）。最近の Stable Diffusion 3.5 のリリースにより、機能がさらに拡張され、画像品質の向上、プロンプト理解の強化、より柔軟な応用が可能になりました。本ガイドは、内部動作からステップバイステップのインストール手順まで Stable Diffusion を網羅的に解説し、この革新的な AI の創造的可能性を活用できるようにします。

CometAPI、Stable Diffusion の画像生成用クラウド API を提供します。

What is Stable Diffusion?

Stable Diffusion は、テキスト記述から画像を生成するディープラーニングモデルです。多くの AI 画像生成器と異なり、Stable Diffusion はオープンソースで、誰でもこの技術を使用・改変・発展させることができます。

このモデルは大量の画像と対応するテキスト記述のデータセットで学習され、語と視覚概念の複雑な関係を学習しています。テキストプロンプトを与えると、Stable Diffusion はその学習した知識を用いて、記述に合致する独自の画像を生成します。到達できる細部表現やリアリズムの水準は目を見張るものがあり、フォトリアリスティックな画像から幻想的なイラストまで、多彩なスタイルに対応します。

Capabilities Beyond Text-to-Image

主機能はテキストからの画像生成ですが、その能力はそれを大きく超えます。多様な創作タスクに対応する汎用的なツールです。

Image-to-Image: 既存の画像とテキストプロンプトを渡して、元画像の変換をガイドできます。芸術的なスタイライズ、コンセプト探索、創造的な実験に最適です。
Inpainting and Outpainting: 画像の一部を選択的に編集（インペインティング）したり、元の境界を越えて画像を拡張（アウトペインティング）できます。これは写真修復、オブジェクト除去、キャンバスの拡張に非常に有用です。
Video Creation: 近年の進歩により、動画やアニメーションの生成にも利用でき、動的なビジュアルストーリーテリングの新たな可能性が開かれています。
ControlNets: 生成プロセスをより厳密に制御するための追加モデルで、ポーズ、デプスマップ、その他の構造要素を指定できます。

Open Source and Accessibility

Stable Diffusion の最も重要な側面のひとつはオープンソース性です。コードとモデル重みが公開されており、必要なハードウェアがあれば自分のコンピュータで実行できます。この高いアクセス性は、多くのプロプライエタリな AI 画像生成サービスと一線を画しており、広く普及した大きな理由となっています。ローカルでモデルを実行できることにより、オンラインプラットフォームにありがちなコンテンツ制限や利用料金に縛られることなく、創作の自由と作業の完全なコントロールを得られます。

How does Stable Diffusion work?

潜在空間での手法は、ピクセル空間での拡散に比べてメモリと計算コストを大幅に削減し、Stable Diffusion が一般消費者向け GPU でも実用的になりました。SDXL や 3.x 系などの派生は複数被写体の忠実度、解像度、プロンプト処理を改善しており、Stability やコミュニティから新しいリリースが定期的に登場しています。

The Key Components: VAE, U-Net, and Text Encoder

Stable Diffusion は連携して画像を生成する 3 つの主要コンポーネントで構成されています。

Variational Autoencoder (VAE): VAE は、学習データの高解像度画像を小さな潜在表現に圧縮し、生成された潜在表現をフル解像度の画像へ伸長する役割を担います。

U-Net: 潜在空間で動作する中核のニューラルネットワークです。U-Net は、拡散過程で加えられたノイズを予測・除去するよう学習されており、ノイズを含む潜在表現とテキストプロンプトを入力し、ノイズの少ない潜在表現を出力します。

Text Encoder: テキストエンコーダは、テキストプロンプトを U-Net が理解できる数値表現へ変換します。Stable Diffusion では一般に、CLIP（Contrastive Language-Image Pre-Training）と呼ばれる事前学習済みテキストエンコーダを用います。CLIP は大量の画像とキャプションで学習され、テキストの意味を的確に捉え、画像生成を誘導できる形式に変換するのに優れています。

The Denoising Process

Stable Diffusion の画像生成プロセスは次のように要約できます。

Text Encoding: テキストプロンプトをテキストエンコーダ（CLIP）に通してテキスト埋め込みを作成します。
Random Noise Generation: 潜在空間でランダムノイズ画像を生成します。
Denoising Loop: テキスト埋め込みに導かれながら、U-Net がランダムノイズ画像を反復的にデノイズします。各ステップで、U-Net は潜在画像中のノイズを予測して差し引き、プロンプトに一致するよう徐々に画像を洗練します。
Image Decoding: デノイジングが完了したら、最終的な潜在表現を VAE のデコーダに通し、最終的な高解像度画像を生成します。

What Hardware and Software Do I Need?

Typical hardware guidance

GPU: CUDA 対応の NVIDIA を強く推奨。快適な最新運用には控えめな解像度で ≥8 GB VRAM、高解像度や混合精度モデルでは 12–24 GB が望ましい。最適化を用いればより少ない VRAM のカードでも小規模な実験は可能ですが、性能や最大画像サイズは制限されます。
CPU / RAM: 最新のマルチコア CPU と ≥16 GB RAM が実用的なベースライン。
Storage: SSD（NVMe 推奨）およびモデル、キャッシュ、補助ファイル用に 20–50 GB の空き容量。
OS: 上級ユーザーには Linux（Ubuntu 系）が便利。GUI パッケージは Windows 10/11 で完全サポート。サーバー用途には Docker が機能します。

Software prerequisites

Python 3.10+ または Conda 環境。
GPU を使う場合は CUDA Toolkit／NVIDIA ドライバと一致する PyTorch ホイール（CPU のみも可能ですが非常に遅い）。
Git、Git LFS（一部モデルのダウンロードに必要）、および必要に応じて Hugging Face アカウント（ライセンス同意が必要なモデルのダウンロード用）。

Important—license & safety: 多くの Stable Diffusion のチェックポイントは Stability AI のコミュニティライセンスまたは個別のモデルライセンスの下で提供され、ダウンロード前の同意が必要です。Hugging Face にホストされたモデルは、Hugging Face アカウントへのログインと明示的な同意を要求することが多く、承認なしの自動ダウンロードは失敗します。

How Do I Install Stable Diffusion (Step-by-Step Guide)?

以下に 3 つの実用的なインストール経路を示します。用途に合うものを選んでください。

Path A — Full GUI: AUTOMATIC1111 Stable Diffusion WebUI（対話的な利用に最適、コミュニティ製プラグイン多数）。
Path B — Programmatic: Hugging Face diffusers パイプライン（統合やスクリプト化に最適）。
Path C — Cloud / Docker: ローカル GPU がない場合はクラウド VM またはコンテナを使用。

How Do I Download Model Weights and Accept Licenses?

Stable Diffusion のモデル重みは次の方法で配布されています。

Official Stability AI releases — Stability は中核モデルを公開し、主要リリース（3.x、SDXL など）を告知します。これらのモデルは Stability のサイトや Hugging Face から入手できることが多いです。
Hugging Face model cards — 多くの公式・コミュニティのチェックポイントが Hugging Face にホストされています。公開されている SD のチェックポイントの多くは、ダウンロード前にログインとライセンス同意が必要です。diffusers API はこのフローに対応しています。
Community hubs (Civitai, GitHub, etc.) — コミュニティ製のチェックポイント、埋め込み、LoRA などが配布されています。各アセットのライセンスを確認してください。

Practical steps to download:

必要に応じて Hugging Face アカウントを作成。
モデルページ（例 stabilityai/stable-diffusion-3-5）でライセンスに同意。
huggingface-cli か WebUI のモデルダウンロードダイアログを使用。Git LFS 管理のモデルは git lfs をインストールし、案内に従って git clone。

How Do I Install the AUTOMATIC1111 WebUI on Windows or Linux?

AUTOMATIC1111 の WebUI は、拡張機能や設定が豊富な人気の GUI です。リポジトリにはリリースノートと簡便なランチャーが用意されています。

1) Preflight (Windows)

GPU 用の最新の NVIDIA ドライバをインストール。
Git for Windows をインストール。
Conda を使う場合は Miniconda をインストール。

2) Clone and launch (Windows)

PowerShell またはコマンドプロンプトを開き、以下を実行します:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

スクリプトが Python パッケージをインストールし、必要なコンポーネントをダウンロードして、既定で http://127.0.0.1:7860 に Web UI を開きます。プロジェクトからモデルファイルを要求された場合は、後述のモデルダウンロード手順を参照してください。

3) Clone and launch (Linux)

推奨: virtualenv か conda 環境を作成。

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

Linux では GPU 加速のために、起動前に適切な CUDA 対応の PyTorch をインストールする必要がある場合がよくあります。

Where to place model weights: モデルの .ckpt、.safetensors、または SDXL のファイルを models/Stable-diffusion/ に配置します（必要に応じてフォルダを作成）。WebUI は重みを自動検出します。

How Do I Install Stable Diffusion with Hugging Face Diffusers ?

この方法は、プログラムから扱えるスクリプト可能なパイプラインが必要な場合や、アプリケーションに組み込む場合に最適です。

1) Install Python packages

仮想環境を作成・有効化し、必要なパッケージをインストールします:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

Tip: 公式の PyTorch インストールページを使って、お使いの CUDA バージョンに合った PyTorch ホイールをインストールしてください。diffusers のドキュメントに互換パッケージの組み合わせが記載されています。

2) Authenticate and download models (Hugging Face)

Hugging Face 上の多くの Stable Diffusion チェックポイントは、ログインとライセンス同意が必要です。ターミナルで:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

プログラムからモデルを読み込む例（Hugging Face にホストされたチェックポイント）:

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

古いバージョンで use_auth_token=True が必要なモデルは、use_auth_token=HUGGINGFACE_TOKEN を指定するか、huggingface-cli login を実行済みであることを確認してください。ライセンスに関する指示は常にモデルカードを参照してください。

How Do I Use a Cloud Instance or Docker?

適切なローカル GPU がない場合は、NVIDIA GPU 搭載のクラウド VM（AWS、GCP、Azure）や専用の AI インスタンスを利用してください。代替として、多くの WebUI リポジトリが Dockerfile やコミュニティ製 Docker イメージを提供しています。

シンプルな Docker の実行パターン（例）:

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

クラウド事業者は時間課金が一般的です。プロダクションやチーム利用では、Hugging Face Inference Endpoints や Stability の API などのマネージドサービスを検討するとよいでしょう。有償ですが運用負荷を低減できます。

Troubleshooting and Performance Tips

Common issues

Installation fails on torch or CUDA mismatch. PyTorch ホイールがシステムの CUDA（ドライバ）バージョンと一致しているか確認してください。公式の PyTorch インストーラで正しい pip コマンドを生成しましょう。
Model download blocked / 403. Hugging Face にログインし、モデルライセンスに同意したか確認してください。一部モデルは Git LFS が必要です。
OOM (out of memory). 生成解像度を下げる、半精度（torch_dtype=torch.float16）に切り替える、または WebUI で xformers／省メモリアテンションを有効化します。

Performance tuning

xformers（対応している場合）を導入して省メモリなアテンションを有効化。
安定性に応じて --precision full と --precision fp16 のフラグを使い分ける。
GPU メモリが限られる場合は、CPU オフロードや、より高速かつ安全になり得る safetensors 形式の利用を検討。

What's New with Stable Diffusion 3.5?

Stable Diffusion 3.5 のリリースにより、この強力な画像生成モデルの機能がさらに強化され、多くの改善と新機能が追加されました。

Enhanced Image Quality and Prompt Following

Stable Diffusion 3.5 は、フォトリアリズム、ライティング、ディテールといった画像品質が大幅に改善されています。複雑なテキストプロンプトの理解力も大きく向上し、ユーザーの創作意図をより正確に反映した画像が得られます。テキストの描画も改善され、可読な文字を含む画像の生成が可能になりました。

New Models: Large and Turbo

Stable Diffusion 3.5 には主に 2 つのバリアントがあります。

Stable Diffusion 3.5 Large: 最も強力なモデルで、最高品質の画像を生成できます。少なくとも 16GB の VRAM を備えた GPU が必要です。
Stable Diffusion 3.5 Large Turbo: このモデルは速度に最適化されており、8GB の VRAM しかない GPU でも動作します。Large モデルよりはるかに高速に画像を生成しつつ、高い品質を維持します。

Optimizations and Collaborations

Stability AI は NVIDIA と AMD と連携し、それぞれのハードウェア上で Stable Diffusion 3.5 の性能を最適化しました。NVIDIA RTX GPU 上の TensorRT や FP8 対応などの最適化により、生成時間の短縮とメモリ使用量の削減が実現し、より幅広いユーザーにとって使いやすくなっています。

How can I run Stable Diffusion without local GPU

高性能な GPU がない場合は CometAPI を利用してください。Stable Diffusion の画像生成用クラウド API のほか、GPT Image 1.5 API や Nano Banano Series API などの画像生成 API も提供しています。

Conclusion

Stable Diffusion は、デジタルイメージの作成と関わり方を根本から変えました。オープンソースであることと拡張し続ける機能の組み合わせにより、世界中のクリエイターが新たな芸術的フロンティアを探求できるようになりました。Stable Diffusion 3.5 の登場で、さらにアクセスしやすく多用途となり、私たちが創造できるものの限界は想像力だけ、という未来の一端を示しています。熟練のアーティストでも、好奇心旺盛な開発者でも、AI の力を試したい方でも、このガイドは Stable Diffusion を始め、創造性を解き放つための基盤を提供します。

まずは、CometAPI の Playground で作品を作成してみましょう。ログインして API キーを取得し、今日から構築を始めてください。

Ready to start? → CometAPI 経由の Stable Diffusion 無料トライアル!

Stable Diffusion をダウンロードする方法 — ステップバイステップガイド