هل تقدم Midjourney فيديو؟

ميدجورني، المشهورة منذ زمن طويل بتقنية تركيب الصور المتطورة، خطت مؤخرًا خطوة جريئة في عالم إنتاج الفيديو. من خلال طرح أداة فيديو تعتمد على الذكاء الاصطناعي، تهدف ميدجورني إلى توسيع نطاق إبداعها ليتجاوز الصور الثابتة، مما يُمكّن المستخدمين من إنتاج مقاطع فيديو متحركة مباشرةً من خلال منصتها. تتناول هذه المقالة نشأة قدرات ميدجورني في مجال الفيديو، وآلياتها، ونقاط قوتها، وحدودها، وآفاقها المستقبلية، بالاعتماد على آخر الأخبار وتعليقات الخبراء.

ما هو نموذج الفيديو V1 الخاص بـ Midjourney؟

يُمثل نموذج الفيديو V1 من Midjourney أولى خطوات الشركة في مجال توليد الفيديو المُعتمد على الذكاء الاصطناعي، مُوسِّعًا بذلك نطاق كفاءتها الأساسية في تحويل الرسائل النصية إلى صور متحركة ديناميكية. أُطلق V18 في 2025 يونيو 1، ويُمكّن المستخدمين من إنشاء مقاطع قصيرة - تصل مدتها إلى 20 ثانية - من صورة واحدة، سواءً حمّلها المستخدم أو أُنشئت باستخدام الذكاء الاصطناعي من خلال نماذج الصور المُعتمدة من Midjourney.

الملامح الرئيسية

تحويل الصورة إلى فيديو: يقوم بتحويل الصور الثابتة إلى أربعة مقاطع فيديو مميزة مدة كل منها 5 ثوانٍ، والتي يمكن بعد ذلك تجميعها لفترات أطول.
أسعار الاشتراك: متاح بسعر 10 دولارات أمريكية شهريًا، مما يجعله خيارًا متاحًا للهواة والمحترفين على حد سواء.
يمكن الوصول إليها عبر Discord: مثل نماذج الصور الخاصة به، تم دمج V1 في واجهة Discord bot الخاصة بـ Midjourney، مما يسمح بالتبني السلس للمستخدمين الحاليين.

التكنولوجيا الأساسية

يعتمد إصدار V1 من Midjourney على بنية قائمة على الانتشار، مُقتبسة من هيكلها الأساسي لتوليد الصور، لاستنتاج مسارات الحركة واستيفاء الإطارات. على الرغم من أن تفاصيل النموذج الدقيقة ملكية خاصة، إلا أن الرئيس التنفيذي ديفيد هولز ألمح إلى الاستفادة من طبقات التكييف الواعية للوقت وآليات الانتباه المكاني الزمني للحفاظ على التماسك البصري عبر الإطارات.

كيف يقوم Midjourney بإنشاء فيديو من الصور الثابتة؟

يكمن الابتكار الأساسي في فيديو Midjourney في تحويل اللقطات المكانية إلى تسلسلات زمنية عبر قنوات ذكاء اصطناعي متطورة. بخلاف أنظمة تحويل النص إلى فيديو الشاملة، يركز V1 على تحريك الصور المرئية الحالية، مما يضمن تحكمًا وجودة أفضل.

المواصفات الفنية

نسخة نموذجية:يدعم V1 Video، الذي تم إصداره في 18 يونيو 2025، مقاطع تصل مدتها إلى 21 ثانية بزيادات قدرها 5 ثوانٍ.
دقة الشاشة :الحد الأقصى للإخراج الأصلي هو 480 بكسل (832×464)، مع خطط لتقديم 720 بكسل وإمكانية رفع الدقة عالية الدقة في الإصدارات المستقبلية.
تنسيقاتتشمل الصادرات ملفات MP4 مضغوطة للمشاركة على مواقع التواصل الاجتماعي، وMP4 RAW H.264 لجودة أعلى، وصور GIF متحركة. تُخزَّن مقاطع الفيديو في السحابة ويمكن الوصول إليها عبر عناوين URL دائمة.

استيفاء الإطارات ومتجهات الحركة

يُحلل Midjourney الصورة المُدخلة لتحديد المناطق الدلالية - مثل الشخصيات والأشياء والخلفيات - ويتنبأ بمتجهات الحركة التي تُحدد كيفية حركة كل منطقة بمرور الوقت. ومن خلال استيفاء هذه المتجهات عبر إطارات متعددة، يُولّد النموذج انتقالات سلسة تُحاكي الحركة الطبيعية.

اتساق الأسلوب والإخلاص

للحفاظ على أسلوب الرسم الأصلي، يستخدم الإصدار 1 ترميزات مرجعية للأسلوب (SREF)، وهي تقنية تُثبّت لوحة الألوان وضربات الفرشاة وظروف الإضاءة للصورة المُدخلة طوال الفيديو. يضمن هذا أن تبدو الرسوم المتحركة المُولّدة وكأنها امتداد للعمل الفني الثابت، وليست قطعة أثرية منفصلة.

كيف تتم مقارنة نموذج الفيديو الخاص بشركة Midjourney بالمنافسين؟

إن مشهد إنشاء الفيديو بالذكاء الاصطناعي مزدحم، مع عروض مثل OpenAI's Sora وAdobe Firefly وGoogle Veo وRunway Gen 4. يستهدف كل حل شرائح مختلفة من المستخدمين وحالات الاستخدام، من صانعي الأفلام التجارية إلى منشئي وسائل التواصل الاجتماعي.

مقارنة الميزة

القدرات	ميدجورني V1	أوبن آي سورا	المدرج الجيل الرابع	فيديو Adobe Firefly	جوجل فيو 3
طريقة الإدخال	صورة ثابتة	موجه النص	نص أو فيديو	موجه النص	نص أو فيديو
مدة الإخراج	حتى 20 ثانية	حتى 30 ثانية	حتى 20 ثانية	حتى 15 ثانية	حتى 10 ثانية
التحكم في الأسلوب	مرتفع (SREF)	متوسط	متوسط	مرتفع	منخفض
سهولة الوصول والشمولية	اشتراك ديسكورد	واجهة برمجة التطبيقات (API)، واجهة مستخدم الويب	واجهة الويب على الويب	مكون Adobe Creative Cloud الإضافي	واجهة برمجة تطبيقات TensorFlow
الأسعار	10 دولارات أمريكية شهريًا	يعتمد على الاستخدام	الاشتراك	يعتمد على الاستخدام	يعتمد على الاستخدام

تتميز Midjourney بنهجها الذي يركز على الصورة أولاً، والتحكم العميق في الأسلوب، والتطوير الذي يقوده المجتمع، في حين يركز المنافسون غالبًا على إنشاء النص إلى فيديو مباشر أو تكامل المؤسسة.

محاذاة حالة الاستخدام

رواية القصص الإبداعية: يتميز نموذج Midjourney بالقدرة على إنتاج رسوم متحركة منمقة تشبه الأحلام للفنانين والمصممين.
الإنتاج التجاري: تستهدف منصات مثل Adobe Firefly وRunway بشكل أكبر صناع الأفلام الذين يسعون إلى التحكم الدقيق في المشهد والتكامل مع خطوط التحرير الموجودة.
البحث التجريبي في مجال الذكاء الاصطناعي: تتجاوز Google Veo وOpenAI Sora حدود الطول والدقة ولكنها لا تزال إلى حد كبير في مرحلة البحث أو مراحل الإصدار التجريبي المحدودة.

ما هي القيود التي تواجهها Midjourney V1؟

على الرغم من العروض التوضيحية الرائعة، إلا أن الإصدار الأول ليس خاليًا من القيود. يُشير المستخدمون الأوائل والمراجعات إلى عدة جوانب تحتاج إلى تحسين قبل اعتباره أداة جاهزة للإنتاج.

قيود المدة والدقة

حاليًا، يقتصر الإصدار 20 على 1 ثانية فقط، ويقتصر على دقة متوسطة، ولا يمكنه حتى الآن إنتاج تسلسلات طويلة أو مقاطع عالية الدقة مناسبة للبث. يجب على المستخدمين الذين يبحثون عن صيغ أطول دمج مقاطع متعددة يدويًا، مما قد يؤدي إلى ظهور انتقالات مزعجة.

آثار الحركة والتماسك

لاحظ المراجعون بعض العيوب العرضية، مثل تشوه غير طبيعي للأجسام، أو حركة متقطعة، أو إضاءة غير متسقة عبر الإطارات. تنبع هذه المشكلات من التحدي الكامن في توسيع نطاق الصور الثابتة إلى نطاق زمني دون بيانات تدريب فيديو مخصصة.

التكلفة الحسابية

يتطلب إنشاء الفيديو موارد وحدة معالجة رسومية أكبر بكثير من الصور الثابتة. يُلغي نموذج اشتراك Midjourney التعقيد الحسابي، ولكن في الواقع، تُقدر تكلفة إنشاء الفيديو بثماني مرات تكلفة عرض الصور النموذجية. قد يحد هذا من التفاعل الفوري وقابلية التوسع للمستخدمين المُستخدمين بكثرة.

سير العمل والتكامل

يتفاعل المستخدمون مع ميزة الفيديو من خلال تعديلات سريعة بسيطة - إضافة –video أو باختيار "تحريك" في مُحرّر الويب. يُولّد النظام أربعة أشكال مُختلفة لكل طلب، على غرار شبكات الصور، مما يسمح بالاختيار والتحسين المُتكرّر. يضمن التكامل مع ديسكورد توافق أوامر الفيديو بسلاسة مع سير عمل الدردشة الحالية، بينما تُوفّر واجهة المستخدم على الويب خاصية السحب والإفلات وشرائح مُعلّمات لشدة الحركة وحركة الكاميرا.

ما هي الخطوات التي يمكن للمستخدمين المحتملين اتخاذها اليوم؟

بالنسبة لأولئك الذين يرغبون في تجربة فيديو الذكاء الاصطناعي، فإن عرض Midjourney متاح على الفور، ولكن أفضل الممارسات يمكن أن تعمل على تحسين النتائج.

نصائح هندسية سريعة

تحديد اتجاه الحركة: قم بتضمين أوصاف مثل "تتحرك الكاميرا إلى اليسار" أو "تتأرجح الشخصيات بلطف" لتوجيه متجهات حركة النموذج.
أنماط الفن المرجعية: استخدم علامات النمط (على سبيل المثال، "على طراز Studio Ghibli") لقفل الجمالية البصرية عبر الإطارات.
التكرار مع البذور: سجل أرقام البذور من العروض الناجحة لإعادة إنتاج وتحسين المخرجات بشكل متسق.

سير عمل ما بعد المعالجة

لأن مخرجات الإصدار الأول عبارة عن مقاطع قصيرة، غالبًا ما يُدمج المستخدمون عدة عروض تقديمية في برامج تحرير الفيديو، ويُطبّقون تدرجًا لونيًا، ويُثبّتون الإطارات المهتزة. يُتيح دمج مخرجات Midjourney مع After Effects أو Premiere Pro صقلًا سينمائيًا رائعًا.

العناية الأخلاقية والقانونية

قبل الاستخدام التجاري، تأكد من امتثال أي صور مصدرية ومراجع فورية لشروط الترخيص. تابع تحديثات Midjourney المتعلقة بتضمين العلامات المائية وتصفية المحتوى لمواكبة أفضل الممارسات الناشئة.

ما هي خريطة الطريق التي تتصورها Midjourney بعد V1؟

إن إطلاق V1 هو مجرد الخطوة الأولى في الرؤية الأوسع لـ Midjourney، والتي تتضمن عمليات محاكاة في الوقت الفعلي، وعروض ثلاثية الأبعاد، وتفاعلية محسنة.

محاكاة العالم المفتوح في الوقت الفعلي

يصف ديفيد هولز توليد الفيديو بالذكاء الاصطناعي بأنه مدخل إلى "محاكاة العالم المفتوح في الوقت الفعلي"، حيث يمكن للمستخدمين التنقل ديناميكيًا في بيئات مُولّدة بالذكاء الاصطناعي. ويتطلب تحقيق ذلك إنجازاتٍ في تقليل زمن الوصول، وتحسين البث، وبنية تحتية حوسبية قابلة للتطوير.

إمكانيات العرض ثلاثي الأبعاد

بعد تطوير الفيديو، تخطط ميدجورني لتوسيع نماذجها لإنتاج أصول ثلاثية الأبعاد مباشرةً من النصوص أو الصور. سيُمكّن هذا مطوري الألعاب والمهندسين المعماريين ومُنشئي الواقع الافتراضي من استخدام أدوات النمذجة الأولية السريعة.

تحسين التحكم والتخصيص

من المتوقع أن تُوفر الإصدارات المستقبلية (الإصداران الثاني والثالث، إلخ) تحكمًا أدق في حركة الكاميرا والإضاءة وسلوك الكائنات. ويمكن للتكامل مع برامج الرسوم المتحركة (مثل Adobe Premiere Pro) من خلال المكونات الإضافية أو واجهات برمجة التطبيقات (APIs) أن يُبسط سير العمل الاحترافي.

كيف يتفاعل المبدعون مع ميزات الفيديو في Midjourney؟

كان الاستقبال المبكر بين الفنانين والمصممين ومنشئي المحتوى مزيجًا من الإثارة والحذر.

الحماس للاستكشاف الإبداعي

يُشيد العديد من المستخدمين بقدرة الفن الثابت على بثّ الحياة فيه. تزخر منصات التواصل الاجتماعي بمقاطع تجريبية - مناظر طبيعية سريالية تتمايل مع الريح، وشخصيات مصورة تومض وتتحدث، ولوحات طبيعية صامتة تنبض بالحياة.

المخاوف بشأن الجودة والرقابة

يشير رسامو الرسوم المتحركة المحترفون إلى أن مخرجات الإصدار الأول، رغم كونها واعدة، تفتقر إلى الدقة والاتساق اللازمين لإنتاجات مصقولة. فالتحكم المحدود في المعلمات - مقارنةً ببرامج الرسوم المتحركة المتخصصة - يعني أن التحرير اليدوي اللاحق لا يزال ضروريًا.

التحسينات التي يقودها المجتمع

أصبح مجتمع ديسكورد التابع لشركة ميدجورني حاضنةً لتلقي الملاحظات وطلبات الميزات ونصائح التعديل الفوري. يشير إيقاع الإصدارات المتكررة للشركة - الذي أُعلن عنه خلال ساعات العمل الرسمية في 23 يوليو - إلى سرعة دمج التحسينات الموجهة للمستخدمين.

استخدم MidJourney في CometAPI

يتيح CometAPI الوصول إلى أكثر من 500 نموذج ذكاء اصطناعي، بما في ذلك نماذج مفتوحة المصدر ونماذج متعددة الوسائط متخصصة للدردشة والصور والأكواد البرمجية وغيرها. تكمن قوته الأساسية في تبسيط عملية دمج الذكاء الاصطناعي المعقدة تقليديًا.

كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل منتصف الرحلة API و واجهة برمجة تطبيقات فيديو منتصف الرحلةيمكنك تجربته مجانًا في حسابك بعد التسجيل وتسجيل الدخول! مرحبًا بك في التسجيل وتجربة CometAPI. CometAPI يدفع لك حسب الاستخدام. للبدء، استكشف إمكانيات النماذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API.

فيديو منتصف الرحلة V1 الجيل: يمكن للمطورين دمج إنشاء الفيديو عبر واجهة برمجة تطبيقات RESTful. هيكل طلب نموذجي (توضيحي)

curl --  
location   
--request POST 'https://api.cometapi.com/mj/submit/video' \   
--header 'Authorization: Bearer {{api-key}}' \   
--header 'Content-Type: application/json' \   
--data-raw '{ "prompt": "https://cdn.midjourney.com/f9e3db60-f76c-48ca-a4e1-ce6545d9355d/0_0.png add a dog", "videoType": "vid_1.1_i2v_480", "mode": "fast", "animateMode": "manual" }'

يُمثل دخول ميدجورني إلى عالم إنتاج الفيديو امتدادًا منطقيًا لقدراتها التوليدية في مجال الذكاء الاصطناعي، حيث يجمع أسلوبها البصري المميز مع الحركة والزمن. وبينما تُضعف القيود الحالية في الدقة ودقة الحركة والتحديات القانونية من إمكانية تطبيقها الفوري، فإن مجموعة ميزاتها سريعة التطور وتفاعل المجتمع يُشيران إلى إمكانات تحويلية. وسواءً كان ذلك لمقاطع سريعة على مواقع التواصل الاجتماعي، أو مواد تسويقية، أو رسومات توضيحية مسبقة، فإن فيديو ميدجورني على أهبة الاستعداد ليصبح أداة لا غنى عنها في مجموعة أدوات الذكاء الاصطناعي الإبداعية، شريطة أن يستكشف الآفاق التقنية والأخلاقية المستقبلية.