كيفية تنزيل Stable Diffusion — دليل خطوة بخطوة - CometAPI -جميع نماذج الذكاء الاصطناعي في واجهة برمجة تطبيقات واحدة

لا يزال Stable Diffusion الأسرة مفتوحة المصدر الأكثر استخدامًا لنماذج تحويل النص إلى صورة. تواصل Stability AI التطوير (لا سيما نشر سلسلة Stable Diffusion 3 وتحسينات SDXL). ومع الإطلاق الأخير لـ Stable Diffusion 3.5، توسعت قدرات هذه التقنية بشكل أكبر، لتقدّم جودة صورة محسّنة، وفهمًا أفضل للمطالبات النصية، وتطبيقات أكثر مرونة. يقدّم هذا الدليل نظرة شاملة على Stable Diffusion، من آلية عمله الداخلية إلى دليل تثبيت خطوة بخطوة، لتمكينك من تسخير الإمكانات الإبداعية لهذا الذكاء الاصطناعي الرائد.

CometAPI، فهو يوفر واجهة برمجية سحابية لـ Stable Diffusion لتوليد الصور.

ما هو Stable Diffusion؟

Stable Diffusion هو نموذج تعلّم عميق يُولّد صورًا من أوصاف نصية، وهي تقنية تُعرف بالتركيب النصي إلى صورة. وعلى عكس العديد من مولّدات الصور بالذكاء الاصطناعي الأخرى، فإن Stable Diffusion مفتوح المصدر، ما يمكّن أي شخص من الاستخدام والتعديل والبناء فوق هذه التقنية.

يُدرَّب النموذج على مجموعة بيانات ضخمة من الصور وأوصافها النصية المقابلة، ما يمكّنه من تعلّم العلاقات المعقدة بين الكلمات والمفاهيم البصرية. عند تقديم مطالبة نصية، يستخدم Stable Diffusion هذه المعرفة المكتسبة لإنشاء صورة فريدة تطابق وصفك. مستوى التفاصيل والواقعية المُتحقق مذهل، ويتراوح بين صور فوتوغرافية واقعية ورسومات خيالية بمختلف الأساليب.

إمكانات تتجاوز النص إلى صورة

بينما تتمثل وظيفته الأساسية في توليد الصور من النص، تمتد قدرات Stable Diffusion إلى ما هو أبعد من هذه الميزة الجوهرية. تعدّ مرونته أداة شاملة لمجموعة واسعة من المهام الإبداعية:

صورة إلى صورة: يمكنك تقديم صورة موجودة ومطالبة نصية لتوجيه النموذج في تحويل الصورة الأصلية. هذه الميزة مثالية للأسلبة الفنية، واستكشاف المفاهيم، والتجريب الإبداعي.
الاستكمال داخل الصورة وخارجها: يتيح لك Stable Diffusion تعديل أجزاء محددة من الصورة (استكمال داخل الصورة) أو توسيع الصورة إلى ما بعد حدودها الأصلية (الاستكمال خارجها). هذا مفيد للغاية في ترميم الصور، وإزالة العناصر، وتوسيع مساحة العمل لابتكاراتك.
إنشاء الفيديو: بفضل التطورات الحديثة، يمكن استخدام Stable Diffusion الآن لإنشاء الفيديوهات والرسوم المتحركة، ما يفتح آفاقًا جديدة لسرد بصري ديناميكي.
ControlNets: وهي نماذج إضافية توفر تحكمًا أدق في عملية توليد الصور، مما يتيح لك تحديد الوضعيات وخرائط العمق وعناصر بنيوية أخرى.

مفتوح المصدر وسهل الوصول

أحد الجوانب الأهم في Stable Diffusion هو طبيعته المفتوحة المصدر. الكود وأوزان النماذج متاحة علنًا، ما يعني أنه يمكنك تشغيله على جهازك الخاص إذا كان لديك العتاد اللازم. يميّزه هذا المستوى من الإتاحة عن العديد من خدمات توليد الصور الاحتكارية وقد كان عاملًا أساسيًا في انتشاره الواسع. تمكّن القدرة على تشغيل النموذج محليًا المستخدمين من حرية إبداعية كاملة والتحكم بعملهم، دون القيود على المحتوى أو الرسوم المفروضة المرتبطة ببعض المنصات عبر الإنترنت.

كيف يعمل Stable Diffusion؟

يقلّل النهج الكامن بصورة كبيرة من استهلاك الذاكرة والحوسبة مقارنة بنشر الانتشار في مساحة البكسل، وهذا ما جعل Stable Diffusion عمليًا على وحدات معالجة الرسوميات الاستهلاكية. تعمل نسخ مثل SDXL وعائلة 3.x على تحسين دقة تعدد الموضوعات والدقة والتعامل مع المطالبات؛ وتظهر إصدارات جديدة دوريًا من Stability والمجتمع.

المكونات الأساسية: VAE وU‑Net ومشفر النص

يتكوّن Stable Diffusion من ثلاثة مكونات رئيسية تعمل معًا لتوليد الصور:

المُشفِّر-المُفكِّك التبايني (VAE): يتولى VAE ضغط الصور عالية الدقة من بيانات التدريب إلى تمثيل في فضاء كامن أصغر، ثم فك ضغط التمثيل الكامن المُولَّد إلى صورة كاملة الدقة.

U‑Net: هذا هو قلب النموذج، وهو شبكة عصبية تعمل في الفضاء الكامن. تُدرَّب U‑Net على توقع وإزالة الضوضاء المُضافة خلال عملية الانتشار. يأخذ التمثيل الكامن المليء بالضوضاء والمطالبة النصية كمدخل، ويخرج تمثيلًا كامنًا مُنقّى.

مشفر النص: يحوّل مشفر النص مطالبتك النصية إلى تمثيل عددي يمكن لـ U‑Net فهمه. عادةً ما يستخدم Stable Diffusion مشفرًا نصيًا مُدرّبًا مسبقًا يُعرف باسم CLIP (Contrastive Language-Image Pre-Training)، وقد تم تدريبه على مجموعة ضخمة من الصور وتسمياتها. يبرع CLIP في التقاط المعنى الدلالي للنص وترجمته إلى صيغة تُوجّه عملية توليد الصورة.

عملية إزالة الضوضاء

يمكن تلخيص عملية توليد الصور في Stable Diffusion كما يلي:

ترميز النص: تُمرَّر مطالبتك النصية عبر مشفر النص (CLIP) لإنشاء تضمين نصي.
إنشاء ضوضاء عشوائية: تُولَّد صورة ضوضاء عشوائية في الفضاء الكامن.
حلقة إزالة الضوضاء: تقوم U‑Net بتنقية صورة الضوضاء العشوائية تكراريًا، مسترشدة بالتضمين النصي. في كل خطوة، تتنبأ U‑Net بالضوضاء في الصورة الكامنة وتطرحها، لتصقل الصورة تدريجيًا لتطابق المطالبة.
فك ترميز الصورة: عند اكتمال عملية إزالة الضوضاء، يُمرَّر التمثيل الكامن النهائي عبر مفكّك VAE لإنتاج الصورة النهائية عالية الدقة.

ما العتاد والبرمجيات المطلوبة؟

إرشادات العتاد المعتادة

GPU: يُنصح بشدة بوحدات NVIDIA مع دعم CUDA. لاستخدام سلس وحديث استهدف ≥8 GB VRAM للدقات المتواضعة؛ توفّر 12–24 GB تجربة أكثر راحة للدقة العالية أو النماذج ذات الدقة المختلطة. يمكن إجراء تجارب صغيرة جدًا على بطاقات ذات ذاكرة فيديو أقل مع تحسينات، لكن الأداء والحجم الأقصى للصورة سيكونان محدودين.
CPU / RAM: أي معالج متعدد النوى حديث و**≥16 GB RAM** خط أساس عملي.
Storage: وحدة SSD (ويُفضّل NVMe) و20–50 GB مساحة خالية لتخزين النماذج والذاكرات المؤقتة والملفات المساعدة.
OS: Linux (توزيعات Ubuntu) هو الأسهل للمستخدمين المتقدمين؛ Windows 10/11 مدعوم بالكامل لحزم الواجهات الرسومية؛ يعمل Docker للخوادم.

المتطلبات البرمجية

Python 3.10+ أو بيئة Conda.
مجموعة أدوات CUDA / برنامج تشغيل NVIDIA لبطاقتك الرسومية وعجلة PyTorch المطابقة (إلا إذا كنت تخطط للاستخدام عبر المعالج فقط، وهو بطيء جدًا).
Git وGit LFS (لبعض تنزيلات النماذج)، وحساب Hugging Face اختياري لتنزيل النماذج التي تتطلب قبول الترخيص.

مهم — الترخيص والسلامة: العديد من نقاط ضبط Stable Diffusion متاحة بموجب ترخيص المجتمع الخاص بـ Stability AI أو تراخيص نماذج محددة وتتطلب القبول قبل التنزيل. غالبًا ما تتطلب النماذج المُستضافة على Hugging Face أن تسجّل الدخول إلى حساب Hugging Face وتقبل الشروط صراحةً؛ سيفشل التنزيل الآلي بدون هذا القبول.

كيف أثبّت Stable Diffusion (دليل خطوة بخطوة)؟

في ما يلي ثلاثة مسارات تثبيت عملية. اختر المسار الذي يناسب احتياجاتك:

المسار A — واجهة رسومية كاملة: AUTOMATIC1111 Stable Diffusion WebUI (أفضل للاستخدام التفاعلي، العديد من الإضافات المجتمعية).
المسار B — برمجي: بايبلاين Hugging Face diffusers (أفضل للتكامل والبرمجة النصية).
المسار C — السحابة / Docker: استخدم آلة افتراضية سحابية أو حاوية إذا كنت تفتقر إلى موارد GPU محلية.

كيف أحمل أوزان النماذج وأقبل التراخيص؟

تُوزَّع أوزان نماذج Stable Diffusion بعدة طرق:

إصدارات Stability AI الرسمية — تنشر Stability النماذج الأساسية وتُعلن الإصدارات الكبرى (3.x، SDXL، وغيرها). غالبًا ما تتوفر هذه النماذج على موقع Stability وعلى Hugging Face.
بطاقات نماذج Hugging Face — تُستضاف العديد من نقاط الضبط المجتمعية والرسمية على Hugging Face. بالنسبة لمعظم نقاط ضبط SD المنشورة يجب أن تسجّل الدخول وتقبل ترخيص النموذج قبل التنزيل. تتبع واجهة diffusers هذا التدفق.
مراكز المجتمع (Civitai وGitHub وغيرها) — تستضيف نقاط ضبط المجتمع، والضمائم، وLoRAs؛ تحقّق من ترخيص كل أصل.

خطوات عملية للتنزيل:

أنشئ حسابًا على Hugging Face إذا لزم الأمر.
زر صفحة النموذج (على سبيل المثال stabilityai/stable-diffusion-3-5) واقبل الترخيص.
استخدم huggingface-cli أو مربع حوار تنزيل النماذج في الواجهة. بالنسبة للنماذج المعتمدة على Git LFS، ثبّت git lfs واتّبع تعليمات git clone.

كيف أثبّت واجهة AUTOMATIC1111 WebUI على Windows أو Linux؟

تُعدّ واجهة WebUI الخاصة بـ AUTOMATIC1111 واجهة رسومية شائعة ونشطة الصيانة مع العديد من الإضافات وخيارات التكوين. يوفّر المستودع ملاحظات إصدار ومُشغّلًا مباشرًا.

1) التحضير المسبق (Windows)

ثبّت أحدث برنامج تشغيل NVIDIA لبطاقتك الرسومية.
ثبّت Git لـ Windows.
إذا فضّلت Conda: ثبّت Miniconda.

2) الاستنساخ والتشغيل (Windows)

افتح Powershell أو موجه الأوامر، ثم نفّذ:

# clone the WebUI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# On Windows, the provided batch scripts will handle dependencies.
# Use the following to fetch everything and launch:
.\webui-user.bat
# or, in older releases:
# .\run.bat

سيُثبّت البرنامج النصي حزم Python، وينزّل المكونات المطلوبة، ويفتح واجهة الويب افتراضيًا على http://127.0.0.1:7860. إذا طلب المشروع ملف نموذج، راجع خطوة تنزيل النموذج أدناه.

3) الاستنساخ والتشغيل (Linux)

مُستحسن: أنشئ بيئة افتراضية أو بيئة conda.

# system prerequisites: Python3, git, wget (example: Ubuntu)
sudo apt update && sudo apt install -y git python3-venv

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

# Create a venv and activate
python3 -m venv venv
source venv/bin/activate

# Launch (the launcher will install requirements)
python launch.py

على Linux ستحتاج غالبًا إلى تثبيت نسخة PyTorch الداعمة لـ CUDA المناسبة قبل الإطلاق لضمان تسريع GPU.

أين تضع أوزان النماذج: ضع ملفات النموذج .ckpt و.safetensors أو ملفات SDXL داخل models/Stable-diffusion/ (أنشئ المجلد إذا لزم الأمر). تلتقط الواجهة الأوزان تلقائيًا.

كيف أثبّت Stable Diffusion باستخدام Hugging Face Diffusers ؟

هذا المسار الأفضل إذا كنت تريد بايبلاين قابلًا للبرمجة والسكربتة أو كنت تُدمج التوليد في تطبيق.

1) تثبيت حزم Python

أنشئ وفعّل بيئة افتراضية، ثم ثبّت الحزم المطلوبة:

python -m venv sdenv
source sdenv/bin/activate
pip install --upgrade pip
# Core packages (example - adjust CUDA wheel for your system per PyTorch's site)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install diffusers transformers accelerate safetensors transformers[torch] huggingface-hub

نصيحة: ثبّت عجلة PyTorch الصحيحة لإصدار CUDA لديك باستخدام صفحة تثبيت PyTorch الرسمية. توضح وثائق diffusers مجموعات الحزم المتوافقة.

2) المصادقة وتنزيل النماذج (Hugging Face)

تتطلب العديد من نقاط ضبط Stable Diffusion على Hugging Face أن تكون مسجّل الدخول وأن تقبل ترخيصًا. في الطرفية:

pip install huggingface_hub
huggingface-cli login
# you will be prompted to paste your token (get it from your Hugging Face account settings)

لتحميل نموذج برمجيًا (مثال لنقطة ضبط مُستضافة على Hugging Face):

from diffusers import StableDiffusionPipeline
import torch

model_id = "stabilityai/stable-diffusion-3-5"  # example; replace with the model you agreed to
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True)
pipe = pipe.to("cuda")

image = pipe("A professional photograph of a mountain at sunrise", num_inference_steps=25).images[0]
image.save("output.png")

إذا كان النموذج يتطلب use_auth_token=True في الإصدارات الأقدم، قدّم use_auth_token=HUGGINGFACE_TOKEN أو تأكد من تنفيذ huggingface-cli login. راجع دائمًا بطاقة النموذج للحصول على تعليمات الترخيص.

كيف أستخدم مثيلًا سحابيًا أو Docker؟

إذا كنت تفتقر إلى GPU محلي مناسب، استخدم آلة افتراضية سحابية (AWS أو GCP أو Azure) مع وحدة NVIDIA أو مثيل ذكاء اصطناعي متخصص. بديلًا لذلك، تنشر العديد من مستودعات الواجهة رسومات Dockerfiles أو صور Docker مجتمعية.

نمط Docker بسيط (مثال):

# pull a community image (verify authenticity before use)
docker pull automatic1111/stable-diffusion-webui:latest

# run (bind port 7860)
docker run --gpus all -p 7860:7860 -v /local/models:/data/models automatic1111/stable-diffusion-webui:latest

غالبًا ما تُحاسب مزوّدات السحابة بالساعة؛ من أجل الإنتاج أو الاستخدام الجماعي قيّم الخدمات المُدارة مثل Hugging Face Inference Endpoints أو واجهات Stability الخاصة. هذه مدفوعة لكنها تُقلّل العبء التشغيلي.

استكشاف الأخطاء وإصلاحها ونصائح الأداء

مشكلات شائعة

فشل التثبيت بسبب torch أو عدم تطابق CUDA. تحقق من أن عجلة PyTorch تطابق إصدار CUDA (برنامج التشغيل) على النظام؛ استخدم مُثبّت PyTorch الرسمي لتوليد أمر pip الصحيح.
حظر تنزيل النموذج / 403. تأكد من تسجيل الدخول إلى Hugging Face وقبول ترخيص النموذج. بعض النماذج تتطلب Git LFS.
OOM (نفاد الذاكرة). قلّل دقة الاستدلال، أو بدّل إلى نصف الدقة (torch_dtype=torch.float16)، أو فعّل xformers / انتباه موفّر للذاكرة في الواجهة.

ضبط الأداء

ثبّت xformers (إذا كان مدعومًا) لاهتمام موفّر للذاكرة.
استخدم أعلام --precision full مقابل --precision fp16 وفقًا للاستقرار.
إذا كانت لديك ذاكرة GPU محدودة، فكّر في إزاحة إلى CPU أو استخدام صيغة safetensors التي قد تكون أسرع وأكثر أمانًا.

ما الجديد في Stable Diffusion 3.5؟

يوفّر إصدار Stable Diffusion 3.5 مجموعة من التحسينات والميزات الجديدة التي تعزز قدرات هذا النموذج القوي لتوليد الصور.

جودة صورة محسّنة واتباع أفضل للمطالبات

يتباهى Stable Diffusion 3.5 بتحسينات كبيرة في جودة الصورة، مع واقعية ضوئية وتفاصيل أفضل. كما أنه يفهم المطالبات النصية المعقدة بشكل أفضل بكثير، ما يفضي إلى صور تعكس بدقة أكبر الرؤية الإبداعية للمستخدم. تم تحسين عرض النص أيضًا، ما يجعل من الممكن توليد صور بنصوص مقروءة.

نماذج جديدة: Large وTurbo

يتوفر Stable Diffusion 3.5 في نسختين رئيسيتين:

Stable Diffusion 3.5 Large: هذا هو النموذج الأقوى، القادر على إنتاج أعلى جودة للصور. يتطلب GPU بسعة لا تقل عن 16GB من VRAM.
Stable Diffusion 3.5 Large Turbo: هذا النموذج مُحسَّن للسرعة ويمكنه العمل على وحدات GPU بسعة 8GB فقط من VRAM. يُولّد الصور أسرع بكثير من نموذج Large مع الحفاظ على مستوى عالٍ من الجودة.

تحسينات وتعاونات

تعاونت Stability AI مع NVIDIA وAMD لتحسين أداء Stable Diffusion 3.5 على عتادهما. تشمل هذه التحسينات دعم TensorRT وFP8 على وحدات NVIDIA RTX، مما يؤدي إلى أزمنة توليد أسرع واستخدام أقل للذاكرة، ما يجعل Stable Diffusion أكثر وصولًا لشريحة أوسع من المستخدمين.

كيف يمكنني تشغيل Stable Diffusion بدون GPU محلي

إذا كنت تفتقر إلى GPU قادر، استخدم CometAPI، فهو يوفر واجهة برمجية سحابية لـ Stable Diffusion لتوليد الصور، وواجهات برمجية أخرى لتوليد الصور مثل GPT Image 1.5 API وNano Banano Series API.

الخلاصة

لقد غيّر Stable Diffusion جذريًا الطريقة التي ننشئ بها الصور الرقمية ونتفاعل معها. إن طبيعته المفتوحة المصدر، مقرونةً بقدراته الآخذة في التوسع، مكّنت مجتمعًا عالميًا من المبدعين من استكشاف آفاق فنية جديدة. مع إصدار Stable Diffusion 3.5، أصبح هذا الأدوات القوي أكثر إتاحةً وتنوعًا، مقدّمًا لمحة عن مستقبل يكون فيه الخيال هو الحد الوحيد لما يمكننا ابتكاره. سواء كنت فنانًا متمرّسًا، أو مطوّرًا فضوليًا، أو مجرد شخص يريد التجربة بقوة الذكاء الاصطناعي، يوفّر هذا الدليل الأساس الذي تحتاجه للبدء بـ Stable Diffusion وإطلاق إمكاناتك الإبداعية.

للبدء، أنشئ أعمالًا فنية على CometAPI في Playground. تأكد من تسجيل الدخول للحصول على مفتاحك البرمجي وابدأ البناء اليوم.

هل أنت جاهز للانطلاق؟ → نسخة تجريبية مجانية من Stable Diffusion عبر CometAPI!

كيفية تنزيل Stable Diffusion — دليل خطوة بخطوة