أعلنت شركة xAI عن Imagine تخيل v0.9، تحديث رئيسي لسلسلة Grok "Imagine" لتحويل النصوص والصور إلى فيديو، والذي يُولّد، ولأول مرة في سلسلة تطويره، صوتًا متزامنًا داخل مقاطع الفيديو المُنتجة - بما في ذلك موسيقى الخلفية والحوار المنطوق والغناء - مع تحسين جودة الصورة والتحكم في الحركة والسينما. كشفت شركة xAI عن هذا النموذج في 7 أكتوبر 2025 ويجري طرحه عبر منتجات xAI/Grok.
ما هو Imagine v0.9
Imagine v0.9 هو نموذج فيديو من الجيل التالي من xAI (جزء من عائلة إمكانيات Grok / Aurora) يُحوّل الرسائل النصية أو الصور المُرفقة إلى مقاطع سينمائية قصيرة. بينما كانت الإصدارات السابقة تُنتج مقاطع صامتة أو تتطلب أدوات صوتية منفصلة، يُولّد Imagine v0.9 مسارات صوتية متكاملة تتوافق مع الأحداث المرئية (حركات الشفاه، الأفعال، الجو) كجزء من تمريرة جيل واحد. قامت شركة xAI بوضع النموذج كتطور لمجموعة أدوات Grok Imagine الخاصة بها.
الملامح الرئيسية
- مزامنة الصوت والفيديو الأصلية: يُنتج Imagine v0.9 موسيقى خلفية وصوتًا محيطيًا وحوارًا منطوقًا وحتى غناءً متزامنًا مع المرئيات المولدة بدلاً من طلب تحرير الصوت بشكل منفصل.
- تحسين الدقة البصرية والحركة: حركة الشخصيات أكثر واقعية، والفيزياء أكثر سلاسة وتأثيرات الكاميرا السينمائية (تحولات التركيز، والتصوير).
- واجهة الصوت أولاً: خيار لإنشاء المحتوى عن طريق التحدث بالمطالبات - يهدف إلى سير العمل بدون استخدام اليدين.
- السرعة والتكرار: تدعي العروض التوضيحية العامة والتقارير أن مدة إنشاء المقاطع القصيرة تقل عن 15 ثانية (اعتمادًا على وضع النموذج والحمل).
- أوضاع إخراج متعددة: النص→الصورة→خط أنابيب الفيديو والصورة المباشرة→تحويل الفيديو (تحريك صورة إلى مقطع قصير).
- **أوقات الجيل السريع:**فترات زمنية قصيرة للجيل (تعمل العديد من الأمثلة في نطاق يتراوح بين 15 إلى 20 ثانية للمقاطع القصيرة).
ما الجديد مقارنة بالإصدارات السابقة
تغيير العنوان هو تم إنشاء الصوت كمخرجات من الدرجة الأولى، ليس مجرد فكرة عابرة. هذا يعني أن Imagine v0.9 يحاول مطابقة أحداث الصوت (الكلام، خطوات الأقدام، الزئير، الإشارات الموسيقية) مع توقيت الفيديو الذي يُنتجه، بدلاً من طلب خطوة دبلجة أو تحرير منفصلة. كما يُركز xAI على قفزات في واقعية الحركة، وإمكانيات التحكم بالكاميرا، وواجهة أسرع وأكثر تفاعلية. مقارنةً بإمكانيات الفيديو السابقة لـ xAI في Imagine/Grok (مثل الإصدار 0.1)، فإن Imagine v0.9 يوفر:
- توليد الصوت المتكامل (ليس فقط فيديو صامت أو تراكبات TTS منفصلة).
- تحسين التحكم في الحركة والكاميرا، مما يتيح تأطيرًا سينمائيًا أكثر وسردًا ديناميكيًا للقصص.
- تجربة مستخدم تعتمد على الصوت أولاً لإدخال سريع، والإبلاغ عن ترقيات السرعة والإنتاجية التي يقودها مجموعة Aurora/Grok الأساسية الخاصة بـ xAI.
كيفية الوصول إلى Imagine v0.9
أين: تظهر القدرة من خلال جروك (مساعد xAI) وتطبيقات Grok / xAI والتكاملات.
الأساليب:
- وضع الصوت: إذا كنت تفضل التحدث عن طريق المطالبات، فقم بتمكين التطبيق الصوت أولاً (غالبًا ما يُسمى "فتح التطبيق في وضع الصوت" في الأدلة المبكرة) ويحدد اتجاه المطالبة أو المشهد.
- الصورة → الفيديو: يمكنك تحويل الصور الثابتة إلى مقاطع قصيرة متزامنة مع الصوت من خلال توفير صورة بالإضافة إلى تعليمات للحركة والصوت (موسيقى الخلفية، وخطوط الحوار، وأسلوب الغناء).
- اطلب أنماطًا أو حركات كاميرا أو فترات زمنية قصيرة؛ مقاطع الإخراج قصيرة حاليًا (تُظهر الأمثلة/الإعلانات فترات زمنية قصيرة جدًا—عدة ثوانٍ).
القيود وملاحظات السلامة
- لقد لاحظت وجود مشكلات مستمرة في تشريح الإنسان، والاستمرارية عبر الإطارات، وغيرها من الآثار النموذجية لأنظمة الفيديو التوليدية - النتائج مثيرة للإعجاب ولكنها ليست مثالية.
- واجه تطبيق Grok Imagine انتقاداتٍ بشأن إعدادات الإشراف: فالإصدار 0.9 يكشف عن وضع "حار"، وقد تم تجاوز معايير Grok الأمنية سابقًا، مما يثير مخاوف حقيقية بشأن سلامة المحتوى (التزييف العميق، المحتوى غير المناسب للعمل، إساءة استخدام حقوق النشر/المشاهير). استخدم التطبيق بحذر واتبع قواعد المنصة.
الخلاصة:
يعد Imagine v0.9 خطوة ملحوظة نحو إنتاج نص/صورة → فيديو قصير متكامل حقًا من خلال إضافة صوت أصلي ومتزامن (موسيقى وحوار وغناء) إلى مخرجات Grok Imagine من xAI مع تحسين عناصر التحكم في الحركة والسينما.
هل تريد نصيحة بأسلوب تجريبي؟
استخدم تلميحًا وصفيًا مُحكمًا، وأدرج تعليمات الحركة والكاميرا. مثال:
موجه: "لقطة مقربة لتنين أحمر يزأر، تدفع الكاميرا إلى الداخل وتميل إلى الأعلى بينما ينفث اللهب، وإضاءة سينمائية، وتكرار مدته 6 ثوانٍ، أضف هديرًا عميقًا متزامنًا مع الأنفاس."
عادةً ما يعطي هذا النمط (الموضوع + الحركة + الكاميرا + الطول + الصوت) نتائج أكثر وضوحًا.
كيفية البدء في إنشاء الفيديو عبر CometAPI
CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.
تتعهد CometAPI بتتبع أحدث ديناميكيات واجهات برمجة التطبيقات للنماذج، بما في ذلك واجهة برمجة تطبيقات Grok Imagine، والتي ستصدر بالتزامن مع الإصدار الرسمي. ترقبوها وواصلوا متابعة CometAPI. في انتظاركم، استكشفوا نماذج الصور الأخرى لدينا، مثل سورا 2و سورا 2 في سير عملك أو جرّبها في ساحة لعب الذكاء الاصطناعي. يمكنك استكشاف إمكانيات النموذج في ملعب راجع دليل واجهة برمجة التطبيقات (API) للحصول على تعليمات مفصلة. قبل الوصول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح واجهة برمجة التطبيقات. تقدم CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
