أعلنت مختبر Tongyi التابع لـ Alibaba رسميًا عن إطلاق Z-Image، وهو نموذج مفتوح المصدر لتوليد الصور يحتوي على 6 مليارات مُعامل، ويجتاح حاليًا مجتمع الذكاء الاصطناعي. منذ إطلاقه في أواخر 2025، أطاح Z-Image بسرعة بالمفضّلات السابقة مثل Flux وSDXL في نظر العديد من المستخدمين المحليين.
وعلى الرغم من كفاءته التقنية وقدراته الثنائية اللغة اللافتة، فإن أكبر ضجة حول Z-Image تتعلق بصفة مختلفة تمامًا: إمكانيته في إنشاء محتوى غير مقيّد وغير خاضع للرقابة. وعلى عكس النماذج السحابية الاحتكارية المقيدة بمرشحات أمان صارمة، فإن الأوزان المفتوحة تتيح للمستخدمين تشغيل النموذج محليًا على عتاد المستهلكين، مما يمنحهم حرية كاملة في المحتوى الذي ينتجونه — بما في ذلك مواد NSFW (Not Safe For Work).
ما هو Z-Image ولماذا يُحدث اضطرابًا في السوق؟
Z-Image (أو ZaoXiang) هو نموذج أساس طوره مختبر Tongyi التابع لـ Alibaba. وعلى خلاف النماذج الضخمة والثقيلة في الماضي التي كانت تتطلب وحدات GPU بمستوى المؤسسات، صُمّم Z-Image من أجل الكفاءة. ويستخدم بنية مبتكرة تُدعى محول الانتشار أحادي السلسلة القابل للتوسع (S3-DiT).
الاختراق التقني: S3-DiT
اعتمدت معظم مولدات الصور السابقة، مثل Stable Diffusion XL (SDXL)، نهج السلسلتين (معالجة البيانات النصية والصورية بشكل منفصل) أو نهجًا هجينًا مثل Flux. يُبسّط Z-Image ذلك من خلال ضمّ النص ورموز الدلالات البصرية ورموز VAE الخاصة بالصورة في تسلسل موحد واحد. يتيح ذلك للنموذج التعامل مع العلاقات بين النص والصورة بشكل مباشر وأكثر كفاءة.
والنتيجة؟ نموذج يحتوي على 6 مليارات مُعامل يتفوّق بشكل ملحوظ على فئته من حيث الأداء.
- متطلبات VRAM منخفضة: يمكن تشغيله على وحدات GPU بذاكرة VRAM تتراوح بين 6GB و8GB فقط، ما يجعله متاحًا للمستخدمين الذين يمتلكون بطاقات أقدم مثل NVIDIA RTX 2060 أو 3060.
- سرعة مذهلة: إصدار Z-Image-Turbo يستخدم عملية استدلال مُقطّرة من 8 خطوات، وقادر على توليد صور بدقة 1024x1024 في أقل من ثانية على H800، أو خلال ثوانٍ معدودة على بطاقات المستهلكين.
- إتقان ثنائي اللغة: يقدّم نصًا داخل الصور باللغتين الإنجليزية والصينية بدقة عالية، وهي ميزة غالبًا ما تفتقر إليها النماذج المتمركزة في الغرب.
الإصدارات
- Z-Image-Turbo: الأسرع. مُحسّن للتوليد بـ 8 خطوات، مثالي للتكرار السريع وسير العمل الفوري. هذا هو الإصدار الذي يستخدمه معظم المستخدمين حاليًا بشكل محلي.
- Z-Image-Base: النموذج الأساسي الخام. رغم أنه أبطأ، إلا أنه الخيار المفضّل لضبط المجتمع الدقيق وتدريب LoRAs (تكييفات منخفضة الرتبة)، لأنه يحتفظ بمزيد من المعرفة التفصيلية.
- Z-Image-Edit: إصدار مُتخصص مصمم لتحرير الصور باتباع التعليمات (مثل «اجعل الشخص يبتسم»، «غيّر الخلفية إلى الشتاء»).
لماذا يتجه المستخدمون إلى Z-Image للمحتوى غير المقيّد؟
على خلاف نماذج الانتشار التقليدية التي تتطلب عشرات الخطوات لتوليف الصورة، يتفوّق Z-Image في الكفاءة. يحقق إصدار Turbo، وهو الأكثر شيوعًا، زمن استجابة شبه فوري على وحدات GPU عالية المستوى مثل H800، باستخدام ثماني عمليات تقييم للدالة (Number of Function Evaluations - NFEs) فقط. تُعد هذه السرعة مفيدة بشكل خاص لمنشئي محتوى NSFW الذين غالبًا ما يُجرون تعديلات متكررة على المطالبات لصقل التفاصيل الصريحة. تشمل الميزات التصيير الفوتوغرافي مع تحكم دقيق في الإضاءة والقوام والتراكيب؛ وإظهار النص ثنائي اللغة بالإنجليزية والصينية؛ وقدرات قوية على اتباع التعليمات. بالنسبة لتطبيقات NSFW، فإن حالة عدم الرقابة في Z-Image — لافتقاره إلى مرشحات الأمان الموجودة في نماذج مثل DALL-E أو Midjourney — تتيح إنشاء محتوى للبالغين دون قيود، كما أكدته اختبارات المجتمع على منصات مثل Reddit وYouTube في أواخر 2025.
يدعم النموذج الأساسي الضبط الدقيق لتطبيقات مخصصة، بينما يمكّن إصدار Edit من إجراء تعديلات دقيقة على الصور عبر مطالبات باللغة الطبيعية.
لماذا يُعد Z-Image مثاليًا لإنشاء محتوى NSFW؟
بالنسبة للفنانين المحترفين ومطوّري الألعاب المستقلين والهواة، فإن القدرة على إنشاء محتوى غير مقيّد أمر بالغ الأهمية. سواء كان ذلك للعُري الفني أو موضوعات الرعب القاسية أو المحتوى الخاص بالبالغين، فقد توافد المستخدمون إلى Z-Image لأنه لا يعظهم أخلاقيًا.
وبما أن النموذج مفتوح المصدر (ترخيص Apache 2.0)، يمكن للمطورين تدريب مُحوّلات صغيرة لتوجيه النموذج نحو أنماط أو شخصيات أو موضوعات صريحة محددة دون قيود.
يتطلب إنشاء محتوى NSFW مرونة ودقة في التفاصيل وخصوصية — وهي صفات يُوفّرها Z-Image بشكل كبير. غالبًا ما تُقيّد الأدوات التقليدية المطالبات الصريحة، مما يحدّ من التعبير الفني. أما Z-Image فيُعالج المدخلات غير الخاضعة للرقابة، مما يمكّن من توليد مشاهد إيروتيكية وشخصيات خيالية أو رسومات ذات موضوعات للبالغين بدرجة عالية من الإخلاص. يتفوّق في الفوتوغرافية لمحتوى NSFW، وغالبًا ما يتجاوز نماذج مثل Stable Diffusion من حيث الالتزام بالمطالبات في السيناريوهات المعقّدة التي تتضمن تشريحًا ووضعيات وأجواء. ينسجم هذا النهج غير الخاضع للرقابة مع إنشاء محتوى للكبار بصورة أخلاقية، شريطة أن يلتزم المستخدمون بالمعايير القانونية وإرشادات المنصات.
كيف يمكن الوصول إلى Z-Image؟
يعد الوصول إلى Z-Image أمرًا مباشرًا، مع خيارات لكلٍ من الإعدادات السحابية والمحلية لتناسب احتياجات المستخدمين المختلفة.
أين يمكنك العثور على Z-Image عبر الإنترنت؟
نقطة الوصول الأساسية عبر الإنترنت هي العرض التجريبي الرسمي على Hugging Face Spaces، حيث يمكنك توليد الصور مباشرة في المتصفح دون تثبيت. للحصول على تجربة ويب أكثر صقلًا، قم بزيارة z-image.ai، وهي خدمة مستقلة تنشر نماذج Z-Image. هناك، يسجّل المستخدمون الدخول للوصول إلى معرض الصور المُولّدة، واختيار نسب الأبعاد (مثل 16:9 للمشاهد الواسعة ذات طابع NSFW)، واستخدام أرصدة مجانية يومية.
للمستخدمين المتقدمين، تتوفر نقاط التحقق الخاصة بالنموذج على Hugging Face (https://huggingface.co/Tongyi-MAI/Z-Image-Turbo) وModelScope.
ما هي الخيارات المجانية والمدفوعة لـ Z-Image؟
يشمل الوصول المجاني أرصدة يومية محدودة على z-image.ai، وهي كافية لاختبار مطالبات NSFW. توفّر الخطط المدفوعة أرصدة إضافية للتوليد عالي الحجم، بدءًا من مستويات بأسعار معقولة. بالنسبة لعشّاق المصدر المفتوح، فإن الوصول المحلي عبر GitHub (https://github.com/Tongyi-MAI/Z-Image) مجاني تمامًا، وإن كان يتطلب استثمارًا في العتاد.
كيف تثبّت Z-Image محليًا؟
يفتح التثبيت المحلي باب التحكم الكامل، وهو أمر أساسي لإنشاء محتوى NSFW مع مراعاة الخصوصية. وبما أنه مفتوح المصدر، فهو ليس «تطبيقًا» تُنزّله من متجر، بل نموذج تشغّله داخل بيئة عمل.
ما العتاد والبرمجيات التي تحتاجها؟
يعمل Z-Image Turbo بكفاءة على وحدات GPU بذاكرة VRAM بين 6 و12GB، مثل NVIDIA RTX 3060 أو أعلى. تشمل المتطلبات البرمجية Python 3.10+ وPyTorch 2.0+ وCUDA لوحدات NVIDIA.
دليل التثبيت خطوة بخطوة
- استنسخ المستودع:
git clonehttps://github.com/Tongyi-MAI/Z-Image.gitثم انتقل إلى الدليل. - ثبّت الاعتمادات:
pip install -e .للاستدلال الأصلي، أوpip install git+https://github.com/huggingface/diffusersلدعم Diffusers. - نزّل النماذج: احصل على
Z-Image-Turboمن Hugging Face وضعه في مجلد النماذج لديك. - من أجل التكامل مع ComfyUI (موصى به لسير عمل قائم على العقد): ثبّت ComfyUI، حدّثه، ونزّل ملفات safetensors المطلوبة مثل
z_image_turbo_bf16.safetensors.
كيف تُنشئ محتوى NSFW باستخدام Z-Image؟
يتطلب إنشاء محتوى NSFW صياغة مطالبات فعّالة وضبط المعاملات بدقة.
ما المطالبات الأنسب لصور NSFW؟
يجب أن تكون مطالبات NSFW الفعّالة تفصيلية: حدّد التشريح والوضعات والإضاءة والمزاج. على سبيل المثال: «امرأة ممتلئة ترتدي ملابس داخلية، وضعية مغرية، إضاءة غرفة نوم خافتة، فوتوغرافية.» يتيح الدعم الثنائي اللغة مزج اللغات للحصول على نتائج فريدة. تشير نصائح دليل fal.ai في ديسمبر 2025 إلى تجنّب المصطلحات المبهمة لتعزيز الالتزام بالمطالبات.
كيف تستخدم كود Python لتوليد محتوى NSFW؟
import torch
from diffusers import ZImagePipeline
# Load the pipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# Enable optimizations (optional)
# pipe.transformer.compile()
# pipe.enable_model_cpu_offload()
# NSFW prompt example
prompt = "Erotic scene of a nude couple embracing passionately, soft candlelight, detailed anatomy, high resolution, photorealistic."
# Generate image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # Optimal for Turbo
guidance_scale=0.0, # No guidance for uncensored output
generator=torch.Generator("cuda").manual_seed(69),
).images[0]
image.save("nsfw_example.png")
تقنيات متقدمة: تحرير الصور لمحتوى NSFW
استخدم Z-Image-Edit لتعديل الصور القائمة: ارفع صورة أساسية واكتب مطالبة «عزِّز العُري بمزيد من التفاصيل الصريحة». هذا الإصدار المضبوط بدقة، والمقرر إطلاقه الكامل في أوائل 2026 بحسب التحديثات الإخبارية، يتفوّق في التحريرات الإبداعية.
كيف ينبغي للمستخدمين كتابة المطالبات للحصول على أفضل النتائج؟
تختلف كتابة المطالبات لـ Z-Image قليلًا عن النماذج الأقدم مثل Stable Diffusion 1.5. وبما أنه يستخدم هيكلية Transformer مشابهة لنماذج اللغة الكبيرة (LLMs)، فإنه يفهم اللغة الطبيعية بشكل أفضل.
1. اللغة الطبيعية مقابل «سلطة الوسوم»
- الطريقة القديمة (SD1.5):
masterpiece, best quality, 1girl, red dress, standing, city street, bokeh - طريقة Z-Image:
A high-quality photo of a woman wearing a red dress standing on a busy city street with blurred lights in the background.
وعلى الرغم من أنه يستطيع فهم الوسوم المفصولة بفواصل، إلا أنه يتفوّق عندما تصف المشهد بجمل. يكون ذلك مفيدًا بشكل خاص عند توليد مشاهد معقّدة غير مقيّدة حيث تكون العلاقة بين الكائنات (مثل «X يمسك Y») جوهرية.
2. الاستفادة من القدرات الثنائية اللغة
إحدى ميزات Z-Image الفريدة هي قدرته على عرض النص داخل الصورة. إذا أردت نصًا في الصورة، فقط ضعه بين علامتي اقتباس.
- المطالبة:
A movie poster for a horror film titled "THE UNKNOWN", dark atmosphere, skulls. - النتيجة: من المرجح أن يعرض النموذج النص "THE UNKNOWN" بشكل صحيح، وهو أمر يربك معظم النماذج الأخرى.
3. استخدام المطالبات السلبية
بالنسبة لإصدار Turbo، تكون المطالبات السلبية (إخبار النموذج بما لا يجب توليده) أقل فاعلية لأن النموذج لديه عدد خطوات أقل «لتصحيح» نفسه.
نصيحة: ركّز على مطالبة إيجابية قوية. إذا احتجت إلى إزالة عناصر محددة (مثل «أيدٍ مشوّهة»)، فغالبًا ما يكون استخدام النموذج الأساسي Base أو تنقيح الصورة عبر سير عمل img2img خيارًا أفضل.
الخلاصة
يمثّل إطلاق Z-Image لحظة مفصلية. فهو يثبت أن النماذج مفتوحة المصدر القادمة من الصين لا تكتفي بمجاراة النماذج المغلقة في الغرب، بل تتفوّق عليها في الكفاءة وسهولة الوصول.
بالنسبة للمستخدم المهتم بالمحتوى غير المقيّد، يمثّل Z-Image الحرية. إنه يكسر الاعتماد على الخدمات القائمة على الاشتراك التي تراقب المدخلات وتفرض الرقابة عليها. ومع ذلك، تأتي هذه الحرية بمسؤولية.
تقدّم CometAPI نماذج Grok الأقل تقييدًا بالمثل (هل يتيح Grok محتوى NSFW؟ كل ما تحتاج معرفته)، بالإضافة إلى نماذج مثل Nano Banana Pro، GPT- image 1.5، Sora 2 (هل يمكن لـ Sora 2 توليد محتوى NSFW؟ كيف يمكننا تجربته؟) وغيرها — بشرط أن تمتلك نصائح وحِيَلاً NSFW المناسبة لتجاوز القيود والبدء في الإنشاء بحرية. قبل الوصول، يرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح الـ API. تقدّم CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على الدمج.
جاهز للانطلاق؟ → تجربة مجانية للإنشاء !
