Stable Diffusion nasıl indirilir — Adım adım kılavuz - CometAPI

Stable Diffusion, metinden görsele modellerin en yaygın kullanılan açık kaynaklı ailesi olmaya devam ediyor. Stability AI yinelemeyi sürdürdü (özellikle Stable Diffusion 3 serisini yayımlayıp SDXL iyileştirmelerini sunarak). Stable Diffusion 3.5’in yakın zamanda piyasaya çıkmasıyla bu teknolojinin yetenekleri daha da genişledi; gelişmiş görüntü kalitesi, istemi (prompt) daha iyi anlama ve daha esnek uygulamalar sunuyor. Bu kılavuz, Stable Diffusion’a içeriden bir bakıştan adım adım kurulum rehberine kadar kapsamlı bir genel bakış sağlar ve bu çığır açan yapay zekânın yaratıcı potansiyelinden yararlanmanızı sağlar.

CometAPI, Stable Diffusion için görüntü üretimine yönelik bir bulut API’si sağlar.

Stable Diffusion nedir?

Stable Diffusion, metin açıklamalarından görüntüler üreten bir derin öğrenme modelidir; bu teknoloji “metinden görsele sentez” olarak bilinir. Pek çok diğer yapay zeka görüntü üreticisinin aksine, Stable Diffusion açık kaynaklıdır; bu da herkesin teknolojiyi kullanmasına, değiştirmesine ve üzerine inşa etmesine olanak tanır.

Model, görüntüler ve bunlara karşılık gelen metin açıklamalarından oluşan devasa bir veri kümesi üzerinde eğitilir; böylece kelimeler ile görsel kavramlar arasındaki karmaşık ilişkileri öğrenir. Bir metin istemi verdiğinizde, Stable Diffusion bu öğrendiği bilgiyi kullanarak açıklamanıza uyan benzersiz bir görüntü oluşturur. Elde edilebilen ayrıntı ve gerçekçilik düzeyi dikkat çekicidir; fotogerçekçi görüntülerden çok çeşitli stillerde fantastik illüstrasyonlara kadar uzanır.

Metinden görsele’nin ötesindeki yetenekler

Birincil işlevi metinden görüntü üretmek olsa da Stable Diffusion’ın yetenekleri bu çekirdek özelliğin çok ötesine uzanır. Çok yönlülüğü, onu geniş bir yaratıcı görev yelpazesi için kapsamlı bir araç haline getirir:

Image-to-Image: Var olan bir görüntü ve modeli yönlendirmek için bir metin istemi sağlayarak orijinal görüntünün dönüştürülmesini isteyebilirsiniz. Bu özellik, sanatsal stillendirme, konsept keşfi ve yaratıcı denemeler için idealdir.
Inpainting ve Outpainting: Stable Diffusion, bir görüntünün belirli bölümlerini seçerek değiştirmenize (inpainting) veya görüntüyü orijinal sınırlarının ötesine genişletmenize (outpainting) olanak tanır. Bu; fotoğraf restorasyonu, nesne kaldırma ve tuvali genişletme için son derece kullanışlıdır.
Video Oluşturma: Son gelişmelerle birlikte, Stable Diffusion artık videolar ve animasyonlar oluşturmak için de kullanılabiliyor; bu da dinamik görsel hikaye anlatımı için yeni olanaklar açıyor.
ControlNets: Bunlar, görüntü üretim süreci üzerinde daha hassas kontrol sağlayan ek modellere verilen addır; pozlar, derinlik haritaları ve diğer yapısal unsurları belirtmenize olanak tanır.

Açık kaynak ve erişilebilirlik

Stable Diffusion’ın en önemli yönlerinden biri açık kaynak doğasıdır. Kod ve model ağırlıkları herkese açıktır; gerekli donanıma sahip olmanız koşuluyla kendi bilgisayarınızda çalıştırabilirsiniz. Bu düzeyde erişilebilirlik, onu birçok tescilli yapay zeka görüntü üretim hizmetinden ayırır ve yaygın olarak benimsenmesinde kilit rol oynamıştır. Modeli yerelde çalıştırabilmek, kullanıcıya çalışmalarında tam yaratıcı özgürlük ve kontrol sağlar; bazı çevrimiçi platformlarla ilişkili içerik kısıtlamaları veya servis ücretleri olmadan.

Stable Diffusion nasıl çalışır?

Gizil (latent) yaklaşım, piksel uzayında difüzyona kıyasla bellek ve hesaplama maliyetini dramatik biçimde azaltır; Stable Diffusion’ın tüketici GPU’larında pratik hale gelmesi bu sayede mümkün olmuştur. SDXL ve 3.x ailesi gibi varyantlar çoklu özne doğruluğunu, çözünürlüğü ve istem işleme kabiliyetini iyileştirir; Stability ve topluluktan periyodik olarak yeni sürümler gelir.

Temel bileşenler: VAE, U-Net ve metin kodlayıcı

Stable Diffusion, birlikte çalışarak görüntüler üreten üç ana bileşenden oluşur:

Variational Autoencoder (VAE): VAE, eğitim verilerindeki yüksek çözünürlüklü görüntüleri daha küçük bir gizil uzay temsiline sıkıştırmaktan ve üretilen gizil temsili tekrar tam çözünürlüklü bir görüntüye açmaktan sorumludur.

U-Net: Modelin çekirdeğidir ve gizil uzayda çalışır. U-Net, difüzyon sürecinde eklenen gürültüyü tahmin edip giderecek şekilde eğitilmiştir. Gürültülü gizil temsili ve metin istemini giriş olarak alır ve gürültüsü giderilmiş bir gizil temsil üretir.

Metin kodlayıcı: Metin kodlayıcı, metin isteminizi U-Net’in anlayabileceği sayısal bir temsile dönüştürür. Stable Diffusion genellikle CLIP (Contrastive Language-Image Pre-Training) adlı, görüntüler ve altyazılarından oluşan çok büyük bir veri kümesinde önceden eğitilmiş bir metin kodlayıcı kullanır. CLIP, metnin anlamsal içeriğini yakalamada ve bunu görüntü üretim sürecini yönlendirebilecek bir biçime çevirmede son derece etkilidir.

Gürültü giderme süreci

Stable Diffusion’da görüntü üretim süreci kısaca şu şekilde özetlenebilir:

Metin kodlama: Metin isteminiz, bir metin gömüsü oluşturmak üzere metin kodlayıcıdan (CLIP) geçirilir.
Rastgele gürültü üretimi: Gizil uzayda rastgele bir gürültü görüntüsü üretilir.
Gürültü giderme döngüsü: U-Net, metin gömüsünün rehberliğinde rastgele gürültü görüntüsünü yinelemeli olarak gürültüsüzleştirir. Her adımda U-Net, gizil görüntüdeki gürültüyü tahmin eder ve çıkarır; görüntü isteme doğru kademeli olarak iyileştirilir.
Görüntü kod çözme: Gürültü giderme tamamlandığında, nihai gizil temsil VAE’nin kod çözücüsünden geçirilerek son, yüksek çözünürlüklü görüntü üretilir.

Hangi donanım ve yazılıma ihtiyacım var?

Tipik donanım rehberi

GPU: CUDA destekli NVIDIA şiddetle önerilir. Sorunsuz, modern kullanım için mütevazı çözünürlüklerde ≥8 GB VRAM hedefleyin; 12–24 GB, yüksek çözünürlük veya karma hassasiyetli modeller için çok daha konforlu bir deneyim sağlar. Düşük VRAM’li kartlarda optimizasyonlarla çok küçük denemeler mümkün olsa da performans ve maksimum görüntü boyutu sınırlı olacaktır.
CPU / RAM: Modern çok çekirdekli bir CPU ve pratik alt seviye olarak ≥16 GB RAM.
Depolama: SSD (tercihen NVMe) ve modelleri, önbellekleri ve yardımcı dosyaları depolamak için 20–50 GB boş alan.
OS: Gelişmiş kullanıcılar için Linux (Ubuntu türevleri) en rahatı; GUI paketleri için Windows 10/11 tamamen desteklenir; sunucular için Docker çalışır.

Yazılım önkoşulları

Python 3.10+ veya Conda ortamı.
GPU’nuz için CUDA toolkit / NVIDIA sürücüsü ve uyumlu PyTorch tekerleği (yalnızca CPU planlıyorsanız çok yavaştır).
Git, bazı model indirmeleri için Git LFS ve lisans kabulü gerektiren model indirmeleri için isteğe bağlı olarak bir Hugging Face hesabı.

Önemli—lisans ve güvenlik: Pek çok Stable Diffusion kontrol noktası Stability AI’nin topluluk lisansı veya belirli model lisansları altında mevcuttur ve indirmeden önce kabul gerektirir. Hugging Face’te barındırılan modeller genellikle bir Hugging Face hesabına giriş yapmanızı ve koşulları açıkça kabul etmenizi gerektirir; bu onay olmadan otomatik indirmeler başarısız olur.

Stable Diffusion’ı nasıl kurarım (adım adım rehber)?

Aşağıda üç pratik kurulum yolu yer alıyor. İhtiyacınıza en uygun rotayı seçin:

Yol A — Tam GUI: AUTOMATIC1111 Stable Diffusion WebUI (etkileşimli kullanım için en iyisi, birçok topluluk eklentisi).
Yol B — Programatik: Hugging Face diffusers pipeline’ı (entegrasyon ve betikleme için en iyisi).
Yol C — Bulut / Docker: Yerel GPU kaynaklarınız yoksa bir bulut VM’si veya konteyner kullanın.

Model ağırlıklarını nasıl indirir ve lisansları kabul ederim?

Stable Diffusion model ağırlıkları birkaç şekilde dağıtılır:

Resmi Stability AI yayınları — Stability çekirdek modelleri yayınlar ve büyük sürümleri duyurur (3.x, SDXL vb.). Bu modeller genellikle Stability’nin web sitesinden ve Hugging Face’ten temin edilebilir.
Hugging Face model kartları — Pek çok topluluk ve resmi kontrol noktası Hugging Face’te barındırılır. Çoğu SD kontrol noktası için indirmeden önce oturum açmanız ve model lisansını kabul etmeniz gerekir. diffusers API’si bu akışa uyar.
Topluluk merkezleri (Civitai, GitHub vb.) — Topluluk kontrol noktaları, gömüler ve LoRA’lar burada barındırılır; her varlığın lisansını kontrol edin.

İndirme için pratik adımlar:

Gerekirse bir Hugging Face hesabı oluşturun.
Model sayfasını ziyaret edin (örneğin stabilityai/stable-diffusion-3-5) ve lisansı kabul edin.
huggingface-cli veya WebUI’ın model indirme penceresini kullanın. Git LFS ile desteklenen modeller için git lfs kurun ve yönergeler doğrultusunda git clone yapın.

AUTOMATIC1111 WebUI’ı Windows veya Linux’ta nasıl kurarım?

AUTOMATIC1111’ın WebUI’ı birçok uzantı ve yapılandırma seçeneğine sahip, popüler ve aktif olarak bakımı yapılan bir GUI’dir. Depo sürüm notları ve basit bir başlatıcı sunar.

1) Ön hazırlık (Windows)

GPU’nuz için en güncel NVIDIA sürücüsünü kurun.
Windows için Git’i kurun.
Tercihiniz Conda ise: Miniconda’yı kurun.

2) Klonla ve başlat (Windows)

Bir PowerShell veya Komut İstemi açın, ardından şunları çalıştırın:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

Komut dosyası Python paketlerini kuracak, gerekli bileşenleri indirecek ve varsayılan olarak http://127.0.0.1:7860 adresinde web UI’ı açacaktır. Proje bir model dosyası isterse aşağıdaki Model indirme adımına bakın.

3) Klonla ve başlat (Linux)

Öneri: bir virtualenv veya conda ortamı oluşturun.

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

Linux’ta genellikle GPU hızlandırmayı sağlamak için başlatmadan önce uygun CUDA özellikli PyTorch’u kurmanız gerekir.

Model ağırlıkları nereye konur: .ckpt, .safetensors veya SDXL dosyalarını models/Stable-diffusion/ içine yerleştirin (gerekirse klasörü oluşturun). WebUI ağırlıkları otomatik olarak algılar.

Hugging Face Diffusers ile Stable Diffusion’ı nasıl kurarım?

Bu yol, programatik, betiklenebilir bir pipeline isterseniz veya üretimi bir uygulamaya entegre ediyorsanız en uygunudur.

1) Python paketlerini kurun

Bir sanal ortam oluşturup etkinleştirin, ardından gerekli paketleri kurun:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

İpucu: Resmi PyTorch kurulum sayfasını kullanarak CUDA sürümünüze uygun doğru PyTorch tekerleğini kurun. diffusers dokümantasyonu uyumlu paket setlerini listeler.

2) Kimlik doğrulama ve modelleri indirme (Hugging Face)

Hugging Face’teki birçok Stable Diffusion kontrol noktası, oturum açmış olmanızı ve bir lisansı kabul etmenizi gerektirir. Terminalde:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

Bir modeli programatik olarak yüklemek için (Hugging Face’te barındırılan bir kontrol noktası örneği):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

Bir model eski sürümlerde use_auth_token=True gerektiriyorsa, use_auth_token=HUGGINGFACE_TOKEN sağlayın veya huggingface-cli login çalıştırdığınızdan emin olun. Lisans talimatları için her zaman model kartına bakın.

Bulut örneği veya Docker’ı nasıl kullanırım?

Uygun bir yerel GPU’nuz yoksa NVIDIA GPU’lu bir bulut VM’si (AWS, GCP, Azure) veya uzmanlaşmış bir yapay zeka örneği kullanın. Alternatif olarak, pek çok WebUI deposu Dockerfile’lar veya topluluk Docker imajları yayınlar.

Basit bir Docker deseni (örnek):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

Bulut sağlayıcıları genellikle saat başına ücretlendirir; üretim veya ekip kullanımı için Hugging Face Inference Endpoints veya Stability’nin kendi API’leri gibi yönetilen hizmetleri değerlendirin. Ücretlidirler ancak operasyonel yükü azaltırlar.

Sorun giderme ve performans ipuçları

Yaygın sorunlar

Kurulum torch veya CUDA uyumsuzluğunda başarısız. PyTorch tekerleğinizin sistemin CUDA (sürücü) sürümüyle eşleştiğini kontrol edin; doğru pip komutunu üretmek için resmi PyTorch yükleyicisini kullanın.
Model indirme engellendi / 403. Hugging Face’e giriş yaptığınızdan ve model lisansını kabul ettiğinizden emin olun. Bazı modeller Git LFS gerektirir.
OOM (bellek taşması). Çıkarım çözünürlüğünü düşürün, yarım hassasiyete geçin (torch_dtype=torch.float16) veya WebUI’da xformers / bellek verimli dikkat’i etkinleştirin.

Performans ayarı

Bellek verimli dikkat için (destekleniyorsa) xformers kurun.
Kararlılığa bağlı olarak --precision full ve --precision fp16 bayraklarını kullanın.
Sınırlı GPU belleğiniz varsa CPU offload’u veya daha hızlı ve güvenli olabilen safetensors formatını düşünün.

Stable Diffusion 3.5 ile neler yeni?

Stable Diffusion 3.5’in yayımlanması, bu güçlü görüntü üretim modelinin yeteneklerini daha da geliştiren bir dizi iyileştirme ve yeni özellik getiriyor.

Geliştirilmiş görüntü kalitesi ve isteme uyum

Stable Diffusion 3.5, daha iyi fotogerçekçilik, aydınlatma ve detay ile görüntü kalitesinde önemli iyileştirmeler sunar. Ayrıca karmaşık metin istemlerini çok daha iyi anlar; bunun sonucu olarak kullanıcı vizyonunu daha doğru yansıtan görüntüler üretir. Metin yazımı da iyileştirilmiştir; okunabilir metin içeren görüntüler üretmek artık mümkün.

Yeni modeller: Large ve Turbo

Stable Diffusion 3.5 iki ana varyantta sunulur:

Stable Diffusion 3.5 Large: En yüksek kaliteyi üretebilen en güçlü modeldir. En az 16GB VRAM’e sahip bir GPU gerektirir.
Stable Diffusion 3.5 Large Turbo: Hız için optimize edilmiştir ve yalnızca 8GB VRAM’e sahip GPU’larda çalışabilir. Large modele kıyasla çok daha hızlı görüntü üretir ve yine de yüksek bir kalite düzeyi korur.

Optimizasyonlar ve iş birlikleri

Stability AI, Stable Diffusion 3.5’in ilgili donanımlarında performansını optimize etmek için NVIDIA ve AMD ile iş birliği yaptı. NVIDIA RTX GPU’larda TensorRT ve FP8 desteği gibi optimizasyonlar, daha hızlı üretim süreleri ve azaltılmış bellek kullanımına yol açar; böylece Stable Diffusion daha geniş bir kullanıcı kitlesi için erişilebilir hale gelir.

Yerel GPU olmadan Stable Diffusion’ı nasıl çalıştırabilirim

Uygun bir GPU’nuz yoksa CometAPI kullanın; Stable Diffusion için görüntü üretimi amaçlı bulut API’si ve GPT Image 1.5 API ile Nano Banano Series API gibi diğer görüntü üretimi API’lerini sağlar.

Sonuç

Stable Diffusion, dijital görselleri oluşturma ve onlarla etkileşim kurma biçimimizi kökten değiştirdi. Açık kaynak doğası ve sürekli genişleyen yetenekleri, dünya çapında bir yaratıcı topluluğuna yeni sanatsal ufuklar keşfetme gücü verdi. Stable Diffusion 3.5’in yayımlanmasıyla bu güçlü araç daha da erişilebilir ve çok yönlü hale geldi; neler yaratabileceğimizin tek sınırının hayal gücümüz olduğu bir geleceğe pencere açıyor. İster deneyimli bir sanatçı, ister meraklı bir geliştirici, ister yalnızca yapay zekanın gücüyle denemeler yapmak isteyen biri olun; bu kılavuz Stable Diffusion ile başlamanız ve yaratıcı potansiyelinizi açığa çıkarmanız için gereken temeli sunar.

Başlamak için, CometAPI üzerindeki Playground’da eserler oluşturun. API anahtarınızı almak için giriş yaptığınızdan emin olun ve bugün inşa etmeye başlayın.

Hazır mısınız? → CometAPI aracılığıyla Stable Diffusion’ı ücretsiz deneyin!

Stable Diffusion nasıl indirilir — Adım adım kılavuz