سرعان ما أصبح Midjourney أحد أكثر برامج توليد الصور بالذكاء الاصطناعي شهرةً، إذ يجمع بين أحدث نماذج الانتشار وواجهة Discord سهلة الاستخدام. في هذه المقالة، نستكشف تفاصيل Midjourney، مستعرضين أحدث التطورات في سلسلة الإصدار 7.
ما هو Midjourney ولماذا هو مهم؟
ميدجورني منصة ذكاء اصطناعي توليدية تُحوّل الرسائل النصية إلى صور عالية الجودة. أُطلقت في إصدار تجريبي مفتوح في 12 يوليو 2022 من قِبل شركة ميدجورني، ومقرها سان فرانسيسكو، وسرعان ما اكتسبت شعبية واسعة بين المبدعين والهواة والشركات بفضل سهولة استخدامها عبر ديسكورد ومجموعة ميزاتها المتقدمة المتنامية. على عكس أدوات الذكاء الاصطناعي الفنية السابقة، تُركز ميدجورني على التحسين التكراري، حيث تُوفر للمستخدمين تنويعات متعددة من الرسائل النصية ومجموعة قوية من المعلمات لتخصيص الأسلوب والتكوين والتفاصيل.
تنبع أهمية المنصة من براعتها التقنية وتأثيرها الثقافي. في غضون ثلاث سنوات من إطلاقها التجريبي، استقطبت منصة Midjourney ملايين المستخدمين، مما أثار جدلاً واسعاً حول براعة الذكاء الاصطناعي، والملكية الفكرية، ومستقبل المهن الإبداعية. واعتباراً من 3 أبريل 2025، أصدرت Midjourney الإصدار 7، وهو أحدث إصدار لها حتى الآن، مقدمةً إمكانيات رائدة مثل وضع المسودة ومرجع Omni.
كيف يقوم Midjourney بتفسير مطالبات المستخدم؟
تحليل اللغة الطبيعية
عندما يقوم المستخدم بإدخال مطالبة - مثل /imagine a futuristic cityscape at dusk—يستخدم Midjourney في البداية مُشفِّر نصٍّ قائمًا على نماذج لغوية واسعة النطاق. يُحوِّل هذا المُشفِّر السلسلة إلى تمثيلٍ مُجرَّد (سلسلة من التضمينات) يُجسِّد المعنى الدلالي، والإشارات الأسلوبية، والسمات القابلة للقياس الكمي، مثل اللون وشدة الإضاءة.
التضمين متعدد الوسائط
بما أن الإصدار 7 يدعم كلاً من إدخالات النصوص والصور في سير عمل موحد، فإن خط أنابيب Midjourney يدمج تضمين الرسائل مع تضمينات الصور الاختيارية. تتيح ميزة Omni Reference، المُقدمة في الإصدار 7، للمستخدمين الرجوع إلى صور متعددة في آنٍ واحد، مع ترجيح كل صورة وفقًا لمعايير يحددها المستخدم، مما يتيح مزيجًا أسلوبيًا عالي التخصيص.
تحسين سريع
يقوم Midjourney أيضًا بتحليل بنية المطالبة، والتعرف على بناء الجملة "الترجيحية" (على سبيل المثال، --iw لوزن الصورة أو --ar بالنسبة لنسبة العرض إلى الارتفاع) والمعلمات المتخصصة مثل --stylize لتعديل درجة التفسير الفني. تضمن هذه المعالجة المسبقة أن تتلقى نماذج الانتشار اللاحقة المخطط الدلالي والقيود الأسلوبية الدقيقة التي يرغب بها المستخدم.
ما هي عملية الانتشار الأساسية؟
نموذج الانتشار الكامن
يعتمد توليد الصور في ميدجورني على نموذج الانتشار الكامن (LDM). باختصار، يُزيل نموذج الانتشار الكامن تدريجيًا ضوضاء متجه ضوضاء عشوائي في مساحة كامنة عالية الأبعاد، مسترشدًا بالتضمين الفوري. تُعدّل كل خطوة من خطوات إزالة الضوضاء التمثيل الكامن قليلًا نحو صورة متماسكة، مستفيدةً من بنية عصبية على غرار U-Net للتنبؤ بالضوضاء وإزالتها.
توجيه الانتباه المتبادل
خلال كل تكرار، تسمح طبقات الانتباه المتقاطع للشبكة بـ"الاهتمام" بأجزاء محددة من النص المُضمّن، مما يضمن أن يكون للكلمات المُحددة (مثل "كاتدرائية قوطية") تأثير أوضح على الصورة الناشئة. تُعزز هذه الآلية دقة قصد المستخدم وتدعم التراكيب المُعقدة دون الحاجة إلى ضبط يدوي للمعلمات.
فك التشفير إلى مساحة البكسل
بمجرد اكتمال خطوات الانتشار في الفضاء الكامن، تُحوّل شبكة فك التشفير التمثيل الكامن النهائي إلى فضاء بكسل، مما يُنتج صورة كاملة الدقة. يُدرّب فك التشفير هذا بالاشتراك مع نموذج الانتشار لضمان الاتساق بين عمليات التلاعب الكامن والمخرجات المرئية، مما يُنتج صورًا تجمع بين الدقة المفاهيمية والدقة الجمالية.
كيف يتم تنظيم هندسة Midjourney المعمارية؟
مشفر النص
مُشفِّر النصوص هو عادةً مُحوِّل مُدرَّب على مجموعات ضخمة من التعليقات التوضيحية ومجموعات بيانات النصوص والصور المُقترنة. في الإصدار 7، أفادت التقارير أن Midjourney تحوّل إلى بنية أكثر كفاءة، مما قلل من زمن الوصول مع تحسين التوافق الدلالي بين المطالبات والصور.
العمود الفقري لانتشار U‑Net
يتكون هيكل انتشار شبكة U-Net من مسارات متعددة لخفض وترقية العينات، متداخلة مع الكتل المتبقية ووحدات الانتباه. وهو مسؤول عن عملية إزالة الضوضاء التكرارية، مع دمج التوجيه الفوري عند كل مقياس دقة للحفاظ على التماسك الشامل والتفاصيل الدقيقة.
فك الصورة
يقوم مُفكك الصورة النهائي بربط المتجهات الكامنة بقيم بكسل RGB. في التحديثات الأخيرة، تم تحسين مُفكك Midjourney للتعامل مع دقة أعلى (حتى 2048×2048) دون زيادة متناسبة في استهلاك ذاكرة وحدة معالجة الرسومات، وذلك بفضل آليات الانتباه الموفرة للذاكرة المُقدمة في الإصدار 7.
كيف تتم عملية إنشاء الصورة خطوة بخطوة؟
التحليل والترميز الفوري
عند الاستلام /imagine a serene mountain lake at sunriseيقوم بوت ديسكورد الخاص بـ Midjourney بإعادة توجيه النص إلى الواجهة الخلفية. يقوم المُجزئ بتقسيم الرسالة إلى رموز، والتي يقوم المُحوّل بتحويلها بعد ذلك إلى تضمينات. أي علامات معلمات (مثل، --ar 16:9) يتم تحليلها بشكل منفصل وإضافتها كمدخلات للأسلوب.
عملية الانتشار
- التهيئة:يتم إنشاء موتر ضوضاء عشوائي في الفضاء الكامن.
- حلقة إزالة الضوضاءلكل خطوة زمنية، يتنبأ UNet ببقايا الضوضاء المشروطة بتضمين النص. يطرح النموذج هذه البقايا من الكامن الحالي، ويُحسّنها تدريجيًا للحصول على صورة نقية.
- أخذ العينات:بعد خطوة إزالة الضوضاء النهائية، يتم فك تشفير الصورة الكامنة مرة أخرى إلى مساحة البكسل، مما ينتج صورة بدقة 512×512 (أو مخصصة).
الارتقاء والتحسينات
يختار المستخدمون بعد ذلك "تحسين" خياراتهم المُولَّدة الأربعة المُفضَّلة. يستخدم Midjourney شبكة فائقة الدقة - وهي نسخة مُشتقة من ESRGAN - لتحسين التفاصيل وتقليل العيوب. كما تدعم المنصة إعادة التدوير، ومزج مناطق مُحدَّدة، ورفع دقة الطباعة إلى ما يتجاوز الدقة الأصلية للحصول على مُخرجات بجودة طباعة عالية.
ما هي الميزات الجديدة التي تميز الإصدار 7؟
مرجع أومني
Omni Reference هو تحسين شامل للنظام، يتيح للمستخدمين دمج مراجع متعددة للصور والنصوص في نافذة واحدة. بتعيين قيم وزنية لكل مرجع، يكتسب المستخدمون تحكمًا غير مسبوق في دمج الأنماط، مما يتيح مخرجات تدمج بسلاسة العناصر المرئية المتباينة.
وضع المسودة
يوفر وضع المسودة معاينات سريعة ودقيقة للصور المُولَّدة. يتيح ذلك تكرارًا سريعًا، حيث يمكن للمستخدمين مراجعة المسودة، وتعديل إعداداتها أو معلماتها، والالتزام بتقديم عرض عالي الجودة بمجرد رضاهم. غالبًا ما يكون تنفيذ وضع المسودة أسرع بثلاث إلى خمس مرات من عمليات العرض الكاملة، مما يُحسّن كفاءة سير العمل بشكل كبير.
تحسين التفاصيل والتماسك
كما قدّم الإصدار 7 برنامج تدريب مُحدّثًا يُركّز على تناسق عرض الجسم والأشياء. ونتيجةً لذلك، انخفضت بشكل ملحوظ مشاكل تشوّه الأيدي أو عدم تناسق القوام - التي كانت تُعاني منها النماذج السابقة - مما يُنتج صورًا نهائية أكثر موثوقية في التطبيقات الإبداعية والتجارية على حدٍ سواء.
استخدم MidJourney في CometAPI
يتيح CometAPI الوصول إلى أكثر من 500 نموذج ذكاء اصطناعي، بما في ذلك نماذج مفتوحة المصدر ونماذج متعددة الوسائط متخصصة للدردشة والصور والأكواد البرمجية وغيرها. تكمن قوته الأساسية في تبسيط عملية دمج الذكاء الاصطناعي المعقدة تقليديًا.
كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل منتصف الرحلة API و واجهة برمجة تطبيقات فيديو منتصف الرحلةيمكنك تجربته مجانًا في حسابك بعد التسجيل وتسجيل الدخول! مرحبًا بك في التسجيل وتجربة CometAPI. CometAPI يدفع حسب الاستخدام.
استخدم v7 لإنشاء الصورة: قبل استخدام MidJourney V7 لإنشاء صورة، تحتاج إلى البدء في البناء عليها CometAPI اليوم - سجل الآن هنا للوصول المجاني. يرجى زيارة مستندات. البدء باستخدام MidJourney V7 بسيط للغاية - فقط أضف --v 7 هذا الأمر البسيط يُوجِّه CometAPI لاستخدام أحدث إصدار V7 لإنشاء صورتك.
باختصار، يُمكّن الأساس التكنولوجي لمنصة ميدجورني - المرتكز على ترميز النصوص المتقدم، ونمذجة الانتشار، والتكرار المجتمعي - منصةً متعددة الاستخدامات تُوسّع آفاقها الإبداعية باستمرار. يُمثّل مُولّد الفيديو المُزوّد بالذكاء الاصطناعي خطوةً محوريةً نحو الوسائط التوليدية الغامرة، حتى في ظلّ التحديات القانونية البارزة التي تُحفّز على التفكير النقدي في التطوير المسؤول للذكاء الاصطناعي. يُسلّط فهم آليات ميدجورني الضوء على الديناميكيات الأوسع للإبداع المُوجّه بالذكاء الاصطناعي في القرن الحادي والعشرين، ويُقدّم مُخططًا للابتكارات المُستقبلية.
