Stable Diffusion 徹底改變了生成式人工智慧領域,使廣大用戶能夠輕鬆實現高品質的文字轉圖像合成。傳統上,由於 Stable Diffusion 模型的運算需求龐大,在本地運行需要獨立的圖形處理單元 (GPU)。然而,軟體工具包、硬體架構和社群驅動的最佳化方面的最新進展已經開始改變這種模式。本文探討如何在沒有專用 GPU 的情況下運行 Stable Diffusion,並綜合最新的新聞和研究成果,提供全面專業的指南。
什麼是穩定擴散?為什麼它通常需要 GPU?
穩定擴散架構概述
穩定擴散 (Stable Diffusion) 是一種潛在擴散模型,於 2022 年推出,能夠根據文字提示產生高保真度影像。該模型使用基於 UNet 的神經網絡,在文字編碼器(通常基於 CLIP)的引導下,迭代地細化潛在表徵中的雜訊。這個過程涉及數千個去雜訊步驟,每個步驟都需要在高維張量上進行大規模矩陣乘法和卷積運算。
GPU 在機器學習推理中的作用
GPU 擅長並行處理,擁有數千個針對矩陣和向量運算最佳化的核心。這種架構顯著加速了基於擴散的模型的核心張量計算。如果沒有 GPU,在 CPU 上進行推理的速度可能會慢幾個數量級,這通常會使即時或互動式使用變得不切實際。作為說明性基準,早期僅基於 CPU 的穩定擴散實現每個去噪步驟可能需要超過 30 秒,而現代 GPU 則只需不到 XNUMX 秒。
我可以在沒有 GPU 的情況下執行 Stable Diffusion 嗎?
傳統的僅 CPU 方法
在這個模型的早期階段,社群成員嘗試使用預設的 PyTorch “diffusers” 函式庫在 CPU 上運行穩定擴散。雖然功能上可行,但這種方法存在極大的延遲:在高階多核心 CPU 上產生 512×512 的映像可能需要幾分鐘,這對大多數使用者來說並不實用。
最近的工具包增強功能
OpenVINO 2025.2 支持穩定擴散
英特爾 OpenVINO AI 工具包於 2025.2 年 2025 月發布 3.5 版本,新增對多種生成式 AI 模型的支持,包括穩定擴散 XNUMX 大型 Turbo 和 SD-XL 影像修復,適用於 CPU 和整合 NPU。此次更新透過針對英特爾架構量身定制的量化和圖形優化,實現了優化的推理。
PyTorch Inductor CPP 後端改進
PyTorch 開發社群一直在積極提升 CPU 推理效能。 Inductor CPP 後端現在致力於在 Intel CPU 上實現包括 Stable Diffusion 在內的關鍵模型的 SOTA 執行。基準測試表明,其 GEMM 性能極具競爭力,記憶體利用率也得到提升,從而縮小了與基於 GPU 的推理性能的差距。
專用 CPU 加速項目
開源專案 FastSD CPU 使用潛在一致性模型和對抗擴散蒸餾重新實現了穩定擴散推理。它透過將採樣過程提煉為更少、更有效率的步驟,並針對多核心 CPU 進行了量身定制,實現了顯著的加速。
哪些硬體和軟體支援僅 CPU 穩定擴散?
英特爾 OpenVINO 和片上 NPU
OpenVINO™ 簡化了從 PyTorch 或 ONNX 模型到最佳化的 CPU 推理格式的轉換,並利用向量指令(例如 AVX-512)和圖形最佳化。此外,英特爾最新的行動和桌面 SoC 整合了能夠卸載張量工作負載的神經處理單元 (NPU),從而進一步提升了相容硬體的效能。
AMD 銳龍 AI Max+395 APU
AMD 的 Ryzen AI Max+395(代號 Strix Halo)將高效能 CPU 核心與專用 NPU 和大型統一記憶體融為一體。這款 APU 面向生成式 AI 應用,聲稱無需獨立 GPU 即可實現本地穩定擴散推理的同類最佳性能。
社群驅動專案:stable-diffusion.cpp 和混合推理
輕量級 C++ 實現 stable-diffusion.cpp 專為 CPU 設計,並已實現多項學術增強,例如基於 Winograd 的二維卷積優化,在 Apple M2 Pro 設備上實現了高達 4.8 倍的加速。此類跨平台、低依賴性的工具使僅 CPU 部署更加可行。arxiv.org)。為了平衡成本和效能,結合 CPU 和小規模 GPU 或 NPU 資源的混合策略也越來越受到關注。
OEM 和主機板實用程式支援
像 ASRock AI QuickSet v1.0.3i 這樣的 OEM 實用程式現在提供一鍵安裝具有 OpenVINO 優化的 Stable Diffusion WebUI,從而簡化了沒有深厚技術專業知識的用戶在基於英特爾主機板上的設定。
不使用 GPU 運作時的效能損失有哪些?
速度和吞吐量比較
即使使用最佳化的工具包,CPU 推理速度仍然比 GPU 慢。例如,在 2025.2 核心 Intel Xeon 處理器上使用 OpenVINO 16 時,每分鐘可以產生 0.5 到 1 張影像,而在 RTX 5 上每分鐘可以產生 10 到 4090 張影像。 FastSD CPU 和專用 NPU 可以在一定程度上縮小這一差距,但即時互動式產生仍然遙不可及。
品質和精度考慮
CPU 優化的管線通常依賴量化(例如 FP16、INT8)來減少記憶體頻寬,與全精度 GPU 運作相比,這可能會引入輕微的偽影。 OpenVINO 在 Xeon CPU 上的 FP16 精度在某些令牌操作中顯示延遲下降高達 10%,這表明需要持續進行調整。
成本和可訪問性考慮
雖然 GPU 的前期成本可能很高(尤其是在高階 GPU 上),但現代 CPU 已成為大多數桌上型電腦和筆記型電腦的標配。利用現有的 CPU 硬體可以降低業餘愛好者、教育工作者以及那些無法或不願使用雲端 GPU 服務的注重隱私的用戶的門檻。
何時僅適合進行 CPU 推理?
原型設計與實驗
早期實驗或小批量生成任務可以容忍較慢的 CPU 推理速度,尤其是在探索快速工程或模型修改而不會產生額外的硬體成本時。
低成本或邊緣部署
缺乏獨立 GPU 的邊緣設備(例如工業 PC、嵌入式系統和行動工作站)受益於僅採用 CPU 的配置。 NPU 和專用指令集進一步支援在受限環境中的部署。
隱私和離線要求
完全在 CPU 上本地運行可確保敏感資料永遠不會離開設備,這對於醫療保健、國防或任何需要嚴格資料治理的環境中的應用至關重要。
如何設定和最佳化 CPU 推理的穩定擴散?
使用 Diffusers 和 PyTorch 設定環境
安裝支援 CPU 的 PyTorch:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu
安裝 Hugging Face 擴散器:
pip install diffusers transformers accelerate
使用 OpenVINO 轉換模型
將模型匯出到 ONNX:
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-3-5-large-turbo") pipe.save_pretrained("sd-3.5-turbo")
pipe.to_onnx("sd3.5_turbo.onnx", opset=14, provider="CPUExecutionProvider")
使用 OpenVINO 進行最佳化:
mo --input_model sd3.5_turbo.onnx --data_type FP16 --output_dir openvino_model
利用混合精度和量化
- 在支援的地方使用 FP16;在較舊的 CPU 上回退到 BF16 或 INT8。
- ONNX Runtime 和 OpenVINO 等工具包含量化工具包,以最大限度地減少準確性損失。
線程和記憶體優化
- 將線程親和性固定到物理核心。
- 提高
intra_op_parallelism_threadsinter_op_parallelism_threads在 PyTorch 的torch.set_num_threads()以匹配 CPU 的核心數。 - 監視記憶體使用情況以避免交換,因為交換會嚴重降低效能。
入門
CometAPI 是一個統一的 API 平台,它將來自領先供應商(例如 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude、Midjourney、Suno 等)的 500 多個 AI 模型聚合到一個開發者友好的介面中。透過提供一致的身份驗證、請求格式和回應處理,CometAPI 顯著簡化了將 AI 功能整合到您的應用程式中的過程。無論您是建立聊天機器人、影像產生器、音樂作曲家,還是資料驅動的分析流程,CometAPI 都能讓您更快地迭代、控製成本,並保持與供應商的兼容性——同時也能充分利用整個 AI 生態系統的最新突破。
開發人員可以訪問 穩定擴散 API (穩定擴散 3.5 大 API 等)透過 彗星API.
關於的更多細節 穩定擴散 XL 1.0 API 穩定擴散 3.5 大 API 等等,有關 Comet API 中的更多模型信息,請參閱 API 文件CometAPI中的價格:
- 穩定性-ai/穩定擴散-3.5-大:每次建立 API 呼叫 0.208 美元。 號
- 穩定性-ai/穩定擴散-3.5-介質:每次通話 0.112 美元。號
- 穩定性-ai/穩定擴散-3.5-大型渦輪:每次建立 API 呼叫 0.128 美元。號
- 穩定性-ai/穩定擴散-3:每次通話 0.112 美元
- 穩定性-ai/穩定擴散:每次通話 0.016 美元
這種定價結構允許開發人員有效地擴展他們的專案而不會超支。
結論
在沒有 GPU 的情況下運行穩定擴散曾經只是一種理論練習;如今,它已成為許多用戶的現實。英特爾 OpenVINO 2025.2、PyTorch 的電感器後端、AMD 的 AI 賦能 APU 等工具包的進步,以及 FastSD CPU 和 stable-diffusion.cpp 等社群項目,共同推動了生成式 AI 的普及。雖然效能和精確度之間仍然存在權衡,但僅使用 CPU 進行推理在成本、可訪問性和隱私至關重要的領域開啟了新的可能性。透過了解可用的硬體、軟體工具包和最佳化策略,您可以自訂滿足您特定需求的僅使用 CPU 的穩定擴散部署,從而將 AI 驅動的影像合成功能帶到幾乎任何裝置上。
