هل يمكنني تشغيل انتشار مستقر بدون وحدة معالجة الرسومات (GPU)؟

أحدثت تقنية Stable Diffusion ثورةً في مجال الذكاء الاصطناعي التوليدي، مما جعل توليف النصوص إلى الصور عالي الجودة متاحًا لمجموعة واسعة من المستخدمين. تقليديًا، كان تشغيل Stable Diffusion محليًا يتطلب وحدة معالجة رسوميات منفصلة (GPU) نظرًا للمتطلبات الحسابية الثقيلة لهذا النموذج. إلا أن التطورات الحديثة في أدوات البرمجيات، وبنيات الأجهزة، والتحسينات التي يقودها المجتمع قد بدأت تُغير هذا النموذج. تستكشف هذه المقالة إمكانية تشغيل Stable Diffusion بدون وحدة معالجة رسوميات مخصصة، وكيفية ذلك، حيث تجمع أحدث الأخبار والأبحاث لتوفير دليل شامل واحترافي.

ما هو Stable Diffusion ولماذا يتطلب عادةً وحدة معالجة الرسوميات (GPU)؟

نظرة عامة على بنية الانتشار المستقر

الانتشار المستقر هو نموذج انتشار كامن طُرح عام ٢٠٢٢، قادر على توليد صور عالية الدقة من المحفزات النصية. يعمل هذا النموذج عن طريق تحسين الضوضاء بشكل متكرر في تمثيل كامن باستخدام شبكة عصبية قائمة على UNet، موجهة بواسطة مُرمِّز نصي (غالبًا ما يكون قائمًا على CLIP). تتضمن العملية آلاف خطوات إزالة الضوضاء، تتطلب كل منها عمليات ضرب وتلافيف كبيرة للمصفوفات عبر موتر عالي الأبعاد.

دور وحدات معالجة الرسوميات في استدلال التعلم الآلي

تتميز وحدات معالجة الرسومات (GPUs) بالمعالجة المتوازية، حيث تضم آلاف الأنوية المُحسّنة لعمليات المصفوفات والمتجهات. تُسرّع هذه البنية بشكل كبير عمليات حساب الموتر، وهي جوهر النماذج القائمة على الانتشار. بدون وحدة معالجة رسومات (GPUs)، قد يكون الاستدلال على وحدة المعالجة المركزية (CPU) أبطأ بكثير، مما يجعل الاستخدام الفوري أو التفاعلي غير عملي في كثير من الأحيان. وكمثال توضيحي، قد تستغرق التطبيقات المبكرة لتقنية الانتشار المستقر، المعتمدة على وحدة المعالجة المركزية فقط، أكثر من 30 ثانية لكل خطوة إزالة ضوضاء، مقارنةً بأقل من ثانيتين في وحدات معالجة الرسومات الحديثة.

هل يمكنني تشغيل Stable Diffusion بدون وحدة معالجة الرسوميات (GPU)؟

الأساليب التقليدية المعتمدة على وحدة المعالجة المركزية فقط

في بدايات النموذج، حاول أعضاء المجتمع تشغيل خاصية الانتشار المستقر على وحدات المعالجة المركزية (CPU) باستخدام مكتبة "الموزعات" الافتراضية في PyTorch. ورغم إمكانية استخدامها عمليًا، عانت هذه الطريقة من بطء شديد في الاستجابة: فقد يستغرق إنشاء صورة واحدة بدقة 512×512 عدة دقائق على وحدة معالجة مركزية متعددة الأنوية عالية الأداء، مما يجعلها غير عملية لمعظم المستخدمين.

تحسينات مجموعة الأدوات الأخيرة

دعم OpenVINO 2025.2 للانتشار المستقر

أصدرت مجموعة أدوات الذكاء الاصطناعي OpenVINO من Intel الإصدار 2025.2 في يونيو 2025، مُضيفةً دعمًا للعديد من نماذج الذكاء الاصطناعي التوليدية - بما في ذلك Stable Diffusion 3.5 Large Turbo وSD-XL Inpainting - على كلٍّ من وحدات المعالجة المركزية (CPU) ووحدات المعالجة العصبية (NPU) المدمجة. يُتيح هذا التحديث استدلالًا مُحسَّنًا مع تحسينات الكميات والرسوم البيانية المُصممة خصيصًا لبنى Intel.

تحسينات الواجهة الخلفية لـ PyTorch Inductor CPP

دأب مجتمع تطوير PyTorch على تحسين أداء استنتاج وحدة المعالجة المركزية (CPU). تستهدف الواجهة الخلفية لـ Inductor CPP الآن تنفيذ أحدث النماذج الرئيسية (SOTA)، بما في ذلك تقنية Stable Diffusion، على وحدات معالجة Intel المركزية. تشير المعايير إلى أداء GEMM تنافسي وتحسين في استخدام الذاكرة، مما يُقلل الفجوة مع الاستنتاج المعتمد على وحدة معالجة الرسومات (GPU).

مشاريع تسريع وحدة المعالجة المركزية المخصصة

FastSD CPU، وهو مشروع مفتوح المصدر، يُعيد تطبيق استدلال الانتشار المستقر باستخدام نماذج الاتساق الكامن وتقطير الانتشار العدائي. يحقق المشروع تسريعات ملحوظة من خلال تقليص عملية أخذ العينات إلى خطوات أقل وأكثر كفاءة، مصممة خصيصًا لوحدات المعالجة المركزية متعددة الأنوية.

ما هي الأجهزة والبرامج التي تدعم خاصية Stable Diffusion المعتمدة على وحدة المعالجة المركزية فقط؟

Intel OpenVINO ووحدات المعالجة العصبية المدمجة

يُسهّل OpenVINO™ تحويل النماذج من PyTorch أو ONNX إلى صيغة مُحسّنة لاستنتاج وحدة المعالجة المركزية، مستفيدًا من تعليمات المتجهات (مثل AVX‑512) وتحسينات الرسوم البيانية. إضافةً إلى ذلك، تُدمج أنظمة SoC الحديثة من Intel، سواءً للأجهزة المحمولة أو المكتبية، وحدات المعالجة العصبية (NPUs) القادرة على تخفيف أعباء عمل الموتر، مما يُحسّن الأداء على الأجهزة المتوافقة.

وحدة معالجة الرسومات AMD Ryzen AI Max+395 APU

يدمج معالج Ryzen AI Max+395 من AMD، المعروف باسم Strix Halo، أنوية وحدة المعالجة المركزية عالية الأداء مع وحدة معالجة عصبية مخصصة وذاكرة موحدة كبيرة. تستهدف وحدة المعالجة المسرعة هذه تطبيقات الذكاء الاصطناعي التوليدية، مدعيةً تحقيق أفضل أداء في فئتها لاستدلال الانتشار المستقر المحلي دون الحاجة إلى وحدات معالجة رسومية منفصلة.

المشاريع التي يقودها المجتمع: stable-diffusion.cpp والاستدلال الهجين

شهد تطبيق C++ خفيف الوزن، stable‑diffusion.cpp، المصمم لوحدة المعالجة المركزية، تحسينات أكاديمية مثل تحسينات الالتفاف ثنائية الأبعاد المستندة إلى Winograd، مما أدى إلى زيادة في السرعة تصل إلى 2x على أجهزة Apple M4.8 Pro. هذه الأدوات متعددة المنصات وذات الاعتمادية المحدودة تجعل النشر على وحدة المعالجة المركزية فقط أكثر جدوى (arxiv.orgتكتسب الاستراتيجيات الهجينة التي تجمع بين موارد وحدة المعالجة المركزية ووحدة معالجة الرسومات أو وحدة المعالجة العصبية (NPU) الصغيرة الحجم أيضًا زخمًا لتحقيق التوازن بين التكلفة والأداء.

دعم أدوات OEM واللوحة الأم

توفر أدوات OEM مثل ASRock AI QuickSet v1.0.3i الآن تثبيت Stable Diffusion WebUI بنقرة واحدة مع تحسينات OpenVINO، مما يبسط عملية الإعداد على اللوحات الأم المستندة إلى Intel للمستخدمين الذين لا يمتلكون خبرة تقنية عميقة.

ما هي التضحيات المتعلقة بالأداء عند التشغيل بدون وحدة معالجة رسومية؟

مقارنات السرعة والإنتاجية

حتى مع أدوات مُحسّنة، يظل استدلال وحدة المعالجة المركزية أبطأ من وحدة معالجة الرسومات. على سبيل المثال، قد يُنتج استخدام OpenVINO 2025.2 على معالج Intel Xeon ذي 16 نواة ما بين 0.5 و1 صورة في الدقيقة، مقارنةً بـ 5 إلى 10 صور في الدقيقة على بطاقة RTX 4090. يُمكن لوحدة المعالجة المركزية FastSD ووحدات المعالجة العصبية المتخصصة تضييق هذه الفجوة إلى حد ما، ولكن لا يزال توليد التفاعل الفوري بعيد المنال.

اعتبارات الجودة والدقة

غالبًا ما تعتمد خطوط الأنابيب المُحسّنة لوحدات المعالجة المركزية على التكميم (مثل FP16 وINT8) لتقليل عرض نطاق الذاكرة، مما قد يُسبب عيوبًا طفيفة مقارنةً بعمليات وحدة معالجة الرسومات عالية الدقة. أظهرت دقة FP16 في OpenVINO على معالجات Xeon انخفاضًا في زمن الوصول يصل إلى 10% في بعض عمليات الرموز، مما يُشير إلى ضرورة الضبط المستمر.

اعتبارات التكلفة وإمكانية الوصول

في حين أن وحدات معالجة الرسومات (GPUs) قد تتطلب تكاليف أولية كبيرة، خاصةً في الأجهزة عالية الأداء، إلا أن وحدات المعالجة المركزية (CPUs) الحديثة تأتي قياسية في معظم أجهزة الكمبيوتر المكتبية والمحمولة. يُقلل استخدام أجهزة وحدة المعالجة المركزية الحالية من العوائق أمام الهواة والمعلمين والمستخدمين المهتمين بالخصوصية الذين لا يستطيعون أو يفضلون عدم استخدام خدمات وحدات معالجة الرسومات السحابية.

متى يكون الاستدلال على وحدة المعالجة المركزية فقط مناسبًا؟

النمذجة الأولية والتجريب

يمكن أن تتحمل مهام التجارب المبكرة أو توليد الحجم المنخفض السرعات الأبطأ لاستنتاج وحدة المعالجة المركزية، وخاصة عند استكشاف الهندسة السريعة أو تعديلات النموذج دون تكبد تكاليف إضافية للأجهزة.

النشر منخفض التكلفة أو النشر على الحافة

تستفيد الأجهزة الطرفية التي تفتقر إلى وحدات معالجة رسومية منفصلة - مثل أجهزة الكمبيوتر الصناعية والأنظمة المدمجة ومحطات العمل المتنقلة - من إعدادات تعتمد على وحدة المعالجة المركزية فقط. كما تُمكّن وحدات المعالجة العصبية (NPU) ومجموعات التعليمات المتخصصة من النشر في بيئات محدودة.

الخصوصية ومتطلبات عدم الاتصال بالإنترنت

يضمن التشغيل المحلي بالكامل على وحدة المعالجة المركزية عدم خروج البيانات الحساسة من الجهاز مطلقًا، وهو أمر بالغ الأهمية للتطبيقات في مجال الرعاية الصحية أو الدفاع أو أي سياق يتطلب حوكمة صارمة للبيانات.

كيفية إعداد وتحسين Stable Diffusion لاستدلال وحدة المعالجة المركزية؟

إعداد البيئة باستخدام Diffusers وPyTorch

تثبيت PyTorch مع دعم وحدة المعالجة المركزية:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu

قم بتثبيت موزعات الوجه المعانقة:

pip install diffusers transformers accelerate

تحويل النماذج باستخدام OpenVINO

تصدير النموذج إلى ONNX:

 from diffusers import StableDiffusionPipeline 
pipe = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3-5-large-turbo") pipe.save_pretrained("sd-3.5-turbo") 
pipe.to_onnx("sd3.5_turbo.onnx", opset=14, provider="CPUExecutionProvider")

تحسين مع OpenVINO:

mo --input_model sd3.5_turbo.onnx --data_type FP16 --output_dir openvino_model

الاستفادة من الدقة المختلطة والكمية

استخدم FP16 حيثما كان مدعومًا؛ ارجع إلى BF16 أو INT8 على وحدات المعالجة المركزية الأقدم.
تتضمن أدوات مثل ONNX Runtime وOpenVINO مجموعات أدوات التكميم لتقليل فقدان الدقة.

الترابط وتحسين الذاكرة

قم بتثبيت خيط التقارب على النوى المادية.
القيمة الاسمية intra_op_parallelism_threads و inter_op_parallelism_threads في PyTorch torch.set_num_threads() لتتناسب مع عدد نوى وحدة المعالجة المركزية.
راقب استخدام الذاكرة لتجنب التبديل، والذي قد يؤدي إلى تدهور الأداء بشكل كبير.

كيف تبدأ

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

يمكن للمطورين الوصول واجهة برمجة التطبيقات للانتشار المستقر (انتشار مستقر 3.5 واجهة برمجة تطبيقات كبيرة الخ) من خلال كوميت ايه بي اي.

مزيد من التفاصيل حول واجهة برمجة التطبيقات Stable-Diffusion XL 1.0 و انتشار مستقر 3.5 واجهة برمجة تطبيقات كبيرة إلخ، لمزيد من المعلومات حول النموذج في Comet API، يرجى الاطلاع على وثيقة API.السعر في CometAPI:

استقرار الذكاء الاصطناعي/انتشار مستقر 3.5 كبير:0.208 دولارًا لكل مكالمة API للإنشاء.
استقرار-ai/انتشار-ثابت-3.5-متوسط:0.112 دولارًا لكل مكالمة.
استقرار-ذكاء اصطناعي/انتشار-مستقر-3.5-توربو كبير:0.128 دولارًا لكل مكالمة API للإنشاء.
الاستقرار-الذكاء الاصطناعي/الانتشار-المستقر-3: 0.112 دولار لكل مكالمة
استقرار الذكاء الاصطناعي/انتشار الاستقرار: 0.016 دولار لكل مكالمة

يتيح هيكل التسعير هذا للمطورين توسيع نطاق مشاريعهم بكفاءة دون الإفراط في الإنفاق.

الخاتمة

كان تشغيل تقنية Stable Diffusion بدون وحدة معالجة رسومية (GPU) مجرد تمرين نظري، أما اليوم، فقد أصبح واقعًا عمليًا للعديد من المستخدمين. وقد ساهمت التطورات في مجموعات الأدوات، مثل OpenVINO 2025.2 من Intel، وواجهة Inductor الخلفية من PyTorch، ووحدات المعالجة المسرعة (APUs) المدعومة بالذكاء الاصطناعي من AMD، والمشاريع المجتمعية مثل FastSD CPU وstable-diffusion.cpp، في تسهيل الوصول إلى الذكاء الاصطناعي التوليدي. وبينما لا تزال هناك تناقضات بين الأداء والدقة، فإن الاستدلال باستخدام وحدة المعالجة المركزية فقط يفتح آفاقًا جديدة حيث تكون التكلفة وسهولة الوصول والخصوصية في غاية الأهمية. من خلال فهم الأجهزة والبرامج المتاحة، واستراتيجيات التحسين، يمكنك تصميم نشر Stable Diffusion باستخدام وحدة المعالجة المركزية فقط، بما يلبي احتياجاتك الخاصة، مما يتيح لك الاستفادة من قوة توليف الصور المدعوم بالذكاء الاصطناعي في أي جهاز تقريبًا.