صورة الجيل الرابع هو نموذج توليد الصور متعدد الوسائط الرائد من Runway في عائلة Gen-4 والذي يدعم توليد الطلب بالإضافة إلى المراجع المرئية (يمكنك الإشارة إلى الصور المرجعية باستخدام "@mention") لإنتاج مخرجات قابلة للتحكم بشكل كبير ومتسقة من الناحية الأسلوبية لأنابيب الصور والصورة→الفيديو.
المقدمة - ما صورة الجيل الرابع is
صورة الجيل الرابع هي عائلة النماذج التوليدية المرئية من الجيل الرابع من Runway، والتي تم تصميمها لتأخذ مطالبات نصية + مراجع بصرية وإنتاج صور ثابتة عالية الدقة أو إطارات جاهزة للوسائط تحافظ على هوية و نمط عبر الزوايا والإضاءة. يُعرض النموذج كجزء من مجموعة أوسع من الجيل الرابع (بما في ذلك إصدارات الفيديو مثل gen4_turbo) ومصممة صراحةً لـ الإنتاج الإبداعي - على سبيل المثال، تقديم الشخصيات بشكل متسق، وتصوير المنتجات على نطاق واسع، والتجربة الافتراضية، وتوليد أصول اللعبة.
الملامح الرئيسية
- التوليد المبني على المرجع (1-3 مراجع). استخدم ما يصل إلى ثلاث صور مرجعية حتى يتمكن النموذج من الحفاظ على الهوية أو الأسلوب أو الموقع أثناء تحويل الوضع أو الإضاءة أو الخلفية وما إلى ذلك.
- دقة بصرية عالية (مخرجات جاهزة للإنتاج). تهدف المخرجات إلى الحصول على دقة عالية (تتوفر خيارات 1080 بكسل) مع تفاصيل قوية وتحكم أسلوبي.
- الهوية وتناسق المشهد. تم تصميمه للحفاظ على نفس الشخصية أو البيئة بشكل متسق عبر أجيال متعددة - وهو أمر مفيد للمرئيات متعددة اللقطات أو الأصول التي تركز على الشخصية.
- توجيهات متعددة الوسائط (نص + صور). قم بدمج تعليمات اللغة الطبيعية مع صور مرجعية لتوجيه التركيبة والمزاج والملابس وزاوية الكاميرا وما إلى ذلك.
- الصورة → الصورة بالإضافة إلى النص → سير عمل الصورة. يعمل كصورة إلى صورة (تحرير/تحويل) وكنص إلى صورة باستخدام المراجع للحفاظ على الاستمرارية.
- مستوى الأداء (Turbo) متاح. يتاجر متغير "Gen-4 Image Turbo" بالتكلفة والسرعة (على سبيل المثال، أسرع بحوالي 2.5 مرة) مع الحفاظ على الميزات المعتمدة على المرجع.
- الضوابط وإمكانية إعادة الإنتاج. تتضمن خيارات واجهة برمجة التطبيقات النموذجية إعدادات مسبقة لنسبة العرض إلى الارتفاع، والدقة (720 بكسل/1080 بكسل)، والبذرة لإمكانية إعادة الإنتاج، وعلامات مرجعية للإشارة إلى مدخلات محددة.
تفاصيل تقنية
الإدخال: نص/صورة
النواتج: صورة
سير العمل:
- لوازم المستخدم: نص موجه + 0–3 صور مرجعية (وأقنعة اختيارية، وإطارات رئيسية، وتعليمات حركة الكاميرا).
- ما قبل العملية: المراجع مُعَيَّرة ومُرَمَّزة؛ النص مُمَيَّز. يتم استخراج تضمينات الهوية/النمط وتخزينها مؤقتًا لإعادة استخدامها.
- تكييف:يتم دمج تضمينات النص والمرجع في العمود الفقري المتعدد الوسائط؛ ويتم إرفاق إشارات التحكم الاختيارية (الوضع، والعمق، والقناع).
- أخذ العينات / إزالة الضوضاء:يقوم جهاز فك التشفير بتشغيل تكرارات إزالة الضوضاء (خطوات الانتشار) لإنتاج صورة (أو سلسلة من الإطارات للفيديو).
gen4_image — حدود ملموسة
حالات حافة زمنية / حركية. يقوم المراجعون والمبدعون بإبلاغ عن بعض حركات الحركة العرضية، والديناميكيات الزمنية الغريبة (الأعطال في وقت مبكر/متأخر في المقاطع المولدة)، والفشل في تصميم رقصات معقدة للغاية متعددة الممثلين - اختبر ذلك مع المشاهد المستهدفة.
الحوسبة والتكلفة والطابور. إنتاج صور عالية الجودة ← فيديو يعتمد بشكل كبير على وحدة معالجة الرسومات؛ يُبلغ المستخدمون عن أوقات انتظار وتكلفة لكل عملية عرض، والتي قد تكون كبيرة للإنتاج الضخم. خطط الميزانية والإنتاجية وفقًا لذلك.
المقايضات الإبداعية مقابل نماذج الفن البحت. إن قوة Gen-4 تكمن في الاتساق؛ إذا كنت بحاجة إلى مخرجات جمالية مصممة بشكل كبير أو تصويرية أو "مفاجئة"، فقد تنتج نقاط تفتيش Midjourney أو SDXL المضبوطة اتجاهات فنية مفضلة.
حالات الاستخدام الأساسية
- مرحلة ما قبل الإنتاج ورسم القصة المصورة: إنشاء متغيرات سريعة للشخصيات/المشاهد المتوافقة مع الأسلوب من الصور المرجعية.
- التسويق وتوليد المحتوى: إنتاج سريع لصور رئيسية، ومقاطع فيديو متحركة للتواصل الاجتماعي، وحملات إعلانية بشخصيات علامة تجارية متسقة. (يُدرج موقع Runway أمثلة للشركات، بما في ذلك الجولات المباشرة ومقاطع الفيديو الموسيقية).
- النمذجة الأولية للعبة/الأصول والتجربة الافتراضية: إنشاء زوايا متعددة للكاميرا ومتغيرات الملابس ومفاهيم البيئة من مجموعة صغيرة من المراجع.
مقارنة مع النماذج الأخرى
- gen4_image→ الأفضل عندما تحتاج اتساق المرجع / الهوية (يتم الاحتفاظ بالحرف الواحد أو الكائن كما هو في جميع اللقطات) وعندما تريد الصورة→الفيديو وخطوط الأنابيب متعددة اللقطات.
- DALL·E 3 → الأفضل للحصول على دقة عالية في عرض الصورة وتدفق تحرير تفاعلي يعتمد على ChatGPT بالإضافة إلى العمل المدمج المتعلق بالسلامة/المصدر.
- SDXL (عائلة الانتشار المستقر) → الأفضل عندما تريد نماذج مفتوحة، وضبطًا دقيقًا محليًا/مخصصًا، ونشرًا مرنًا من حيث التكلفة.
- منتصف الرحلة → الأفضل للحصول على عروض مصممة بشكل فني وممتعة وإعدادات مسبقة قوية مدفوعة من المجتمع / عناصر تحكم "تصميم".
- Runway Gen-4 مقابل ByteDance Seedream 4.0 / نماذج من نوع "Nano Banana" من Google: تؤكد الإصدارات الأخيرة للمنافسين (على سبيل المثال، Seedream 4.0) عرض فائق السرعة ومعالجة متعددة المراجع يستهدف Runway المبدعين التجاريين؛ وتتمثل ميزة Runway في خط أنابيب متكامل تمامًا بين الصور والفيديو وعناصر تحكم موجهة نحو الإنتاج بالإضافة إلى نظام بيئي ناضج لـ API وSDK.
كيف تتصل صورة الجيل الرابع واجهة برمجة التطبيقات من CometAPI
| السعر الأساسي | $0.32000 |
الخطوات المطلوبة
- تسجيل الدخول إلى كوميتابي.كوم. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولاً
- احصل على مفتاح API لبيانات اعتماد الوصول للواجهة. انقر على "إضافة رمز" في رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx، ثم أرسله.
- احصل على عنوان URL لهذا الموقع: https://api.cometapi.com/
استخدام الطريقة
- حدد نقطة النهاية "gen4_image" لإرسال طلب واجهة برمجة التطبيقات (API) وحدد نص الطلب. يمكنك الحصول على طريقة الطلب ونصه من وثيقة واجهة برمجة التطبيقات على موقعنا الإلكتروني. كما يوفر موقعنا اختبار Apifox لتسهيل الأمر عليك.
- يستبدل باستخدام مفتاح CometAPI الفعلي الخاص بك من حسابك.
- أدخل سؤالك أو طلبك في حقل المحتوى - وهذا ما سيستجيب له النموذج.
- . قم بمعالجة استجابة API للحصول على الإجابة الناتجة.
يوفر CometAPI واجهة برمجة تطبيقات REST متوافقة تمامًا - لترحيل سلس. تفاصيل رئيسية لـ وثيقة API:
- نقطة النهاية:
https://api.cometapi.com/runwayml/v1/text_to_image - نموذج معلمة:
gen4_image - المصادقة:
Bearer YOUR_CometAPI_API_KEY - نوع المحتوى:
application/json.
curl --location --request POST 'https://api.cometapi.com/runwayml/v1/text_to_image' \
--header 'X-Runway-Version: 2024-11-06' \
--header 'Authorization: {{api-key}}' \
--header 'Content-Type: application/json' \
--data-raw '{
"promptText": "cat",
"ratio": "1920:1080",
"seed": 4294967295,
"model": "gen4_image",
"referenceImages": ,
"contentModeration": {
"publicFigureThreshold": "auto"
}
}'
انظر أيضا المدرج/الفصل الثاني
