تُمثل ميزة "مرجع الصور المتعددة" في Flux.1 Kontext نقلة نوعية في كيفية تعامل عمليات تحرير الصور وتوليدها المدعومة بالذكاء الاصطناعي مع مُدخلات بصرية متعددة. فمن خلال تمكين المُبدعين من تغذية عدة صور مرجعية في آنٍ واحد، يُمكن لـ Flux.1 Kontext الحفاظ على تناسق الأسلوب والوضعية والإضاءة في جميع المُدخلات، مما يُتيح عمليات تحرير دفعية مُوحدة، ونقل أنماط مُتسق، وتركيبات مُعقدة للمشاهد. نستكشف أدناه الأسس والتطورات الحديثة وأفضل الممارسات لإتقان معالجة مُرجع الصور المتعددة باستخدام Flux Kontext.
ما هو Flux.1 Kontext ولماذا يقوم بتحويل تحرير الصور؟
يُمثل Flux.1 Kontext أحدث التطورات في مجال توليد وتحرير الصور متعدد الوسائط، وهو مبني على سلسلة Flux من نماذج المحولات القائمة على التدفق. تعتمد نماذج Flux - التي طورتها مختبرات Black Forest - على كتل محولات تدفق مُصححة، مع إمكانية توسيع نطاقها إلى 12 مليار معلمة لتوفير إمكانيات عالية الدقة لتوليف وتحرير النصوص إلى الصور. بخلاف خطوط أنابيب تحويل النصوص إلى الصور التقليدية، يُوسّع Flux.1 Kontext هذه الأسس من خلال تمكين في سياق التحرير: يمكن للمستخدمين توفير ليس فقط مطالبات نصية ولكن أيضًا صورة مرجعية واحدة أو أكثر، مما يسمح للنموذج بفهم المفاهيم المرئية دلاليًا وتطبيقها على مخرجات جديدة.
تكمن أهمية Flux.1 Kontext في بنيته الموحدة - والتي يطلق عليها مطابقة التدفق التوليدي-الذي يتعامل مع كليهما التعديلات المحلية (على سبيل المثال، تغيير لون كائن في الصورة) و التحولات العالمية (مثلاً، إنشاء مشاهد جديدة لمشهد) ضمن نموذج واحد. هذا يُلغي الحاجة إلى نماذج تحرير وإنشاء منفصلة، مما يُبسط سير العمل ويُقلل من الحاجة إلى تبديل السياقات بالنسبة للمبدعين.
ما هي إصدارات Flux.1 Kontext المختلفة؟
يأتي Flux.1 Kontext في ثلاثة إصدارات رئيسية، كل منها يلبي حالات استخدام ونماذج ترخيص مميزة:
- Flux.1Kontext Dev:نموذج متاح للمصدر بموجب ترخيص غير تجاري، تم تصميمه في المقام الأول للتجريب والتكامل في سير العمل المحلية المدعومة بوحدة معالجة الرسومات.
- Flux.1 Kontext Pro:نموذج خاص يمكن الوصول إليه عبر واجهة برمجة التطبيقات (API) يوفر أداءً على مستوى الصناعة ونتائج متسقة ودعمًا تجاريًا.
- Flux.1 Kontext Max:الطبقة المتميزة مع معالجة محسّنة للطباعة، وأقصى إنتاجية، ودقة محسنة في الحالات القصوى.
تعمل هذه المتغيرات معًا على ضمان قدرة الباحثين ومستخدمي المؤسسات على الاستفادة من التحرير المتعدد الوسائط، سواء كانوا يعطون الأولوية لإمكانية التخصيص أو استقرار الإنتاج.
ما هو "مرجع الصور المتعددة" في Flux.1 Kontext؟
يشير مرجع الصور المتعددة إلى عملية تزويد نموذج الذكاء الاصطناعي بصور أمثلة متعددة، ليتمكن من استنتاج الخصائص المشتركة - مثل الأسلوب والإضاءة وهوية الموضوع - وتطبيق تعديلات متسقة أو إنشاء محتوى جديد يراعي هذه الخصائص في جميع المدخلات. بخلاف تكييف الصورة الواحدة، يُمكّن هذا النهج المبدعين من تحقيق الاتساق في مخرجات الدفعات، مما يُقلل من التعديلات اليدوية ويضمن الاتساق البصري.
كيف يقوم Flux.1Kontext بتنفيذ مرجع متعدد الصور؟
في قلب قدرة Flux.1 Kontext على عرض الصور المتعددة، مطابقة التدفق إطار العمل. بدلاً من معالجة كل صورة مرجعية على حدة، يجمع Flux.1 Kontext تضمينات الصور ورموز النصوص في تسلسل موحد. ثم يتعلم مُطابق التدفق القائم على المحول محاذاة هذه التضمينات ودمجها في المساحة الكامنة، ملتقطًا الدلالات البصرية الفردية والمشتركة بفعالية.
غالبًا ما تعتمد مناهج المراجع المتعددة التقليدية على متوسط التضمينات أو تعتمد على ضبط دقيق للغاية (مثل LoRA). نهج مطابقة التدفق في Flux.1 Kontext:
- يحافظ على الاتساق عبر عدة أدوار، مع الحفاظ على هويات الكائنات وأنماطها.
- يقلل من التدهور، وهو أمر شائع في خطوط أنابيب التحرير التكرارية.
- يدعم الأسعار التفاعلية، مما يتيح معاينات في الوقت الفعلي تقريبًا في التطبيقات.
ما هي سير العمل التي تمكن من تكامل الصور المتعددة مع Flux.1 Kontext؟
يضمن تصميم Flux.1 Kontext التكامل السلس في خطوط الأنابيب المستندة إلى واجهة المستخدم الرسومية والموجهة بالكود:
تكامل ComfyUI
باستخدام واجهة ComfyUI القائمة على العقد، يمكن للمستخدمين إدخال صور مرجعية متعددة مباشرةً إلى عقدة "Flux.1 Kontext Dev" المخصصة. تقبل هذه العقدة قائمة من الصور مع مطالبة نصية، مما يُنتج نتيجة رسم بياني موحد للانتشار. يتوفر وضعان رئيسيان:
- وضع التسلسل:يضيف التضمينات بشكل متسلسل، وهو مثالي للمهام المركبة البسيطة.
- وضع الاهتمام المتبادل:يتداخل خرائط الانتباه لتحقيق مزج دلالي أعمق، وهو أمر مفضل في حالة دمج الأنماط المعقدة.
تساعد الحيل السريعة — مثل تحديد الأوزان لكل صورة ورموز مزج اللحامات — في منع تحولات الألوان والانضمامات المرئية ().
نهج API-First (Replicate، CometAPI)
يمكن للمطورين التفاعل مع Flux.1 Kontext Max أو Pro عبر نقاط نهاية RESTful. يتضمن مخطط واجهة برمجة التطبيقات عادةً ما يلي:
{
"input_images": ,
"prompt": "Describe the desired transformation",
"options": { "blend_strength": 0.8, "seed": 42 }
}
يتيح دعم Playground وSDK في JavaScript وPython وGo دمج تكييف الصور المتعددة في تطبيقات الويب أو الهاتف المحمول بسهولة.
مرجع متعدد الصور باستخدام واجهة برمجة تطبيقات Flux.Kontext من CometAPI
فيما يلي دليل خطوة بخطوة لتقديم طلبات مرجعية متعددة الصور إلى واجهة برمجة تطبيقات FLUX 1 Kontext. يغطي الدليل المصادقة، وبناء الطلب (مع صورتين مرجعيتين)، ومعالجة النتائج، وأفضل الممارسات.
1. كيف أقوم بالمصادقة باستخدام واجهة برمجة تطبيقات FLUX.1 Kontext؟
إذا كنت تستخدم تطبيقات FLUX 1 Kontext المستضافة في Replicate، فقم بتسجيل الدخول إلى Replicate → حسابك → رموز API.
احصل على مفتاح API الخاص بك:التسجيل والدخول كوميت ايه بي اي، استرداد رمز حامل البطاقة الخاص بك من لوحة المعلومات الخاصة بك.
قم بتضمين المفتاح في رأس الصفحة Authorization: Token YOUR_API_TOKEN أو بالنسبة لواجهات برمجة التطبيقات ذات النمط الناقل: Authorization: Bearer YOUR_API_TOKEN
2. ما هي نقطة النهاية التي تتعامل مع دمج الصورتين؟
بالنسبة لنموذج "دمج صورتين" على Replicate (flux-kontext-apps/multi-image-kontext-pro), أرسل مشاركاتك إلى:
https://api.replicate.com/v1/predictions
بالنسبة لواجهة برمجة التطبيقات المُدارة الخاصة بـ CometAPI، ستكون:
https://api.cometapi.com/replicate/v1/models/black-forest-labs/flux-kontext-max/predictions
ملاحظة: في CometAPI، يدعم flux-kontext فقط مراجع الصور المتعددة، ولاستدعاء النماذج المختلفة التالية، تحتاج إلى تبديل اسم النموذج بعد النموذج في عنوان URL:
black-forest-labs/flux-kontext-max
black-forest-labs/flux-kontext-pro
تتوقع كلتا النقطتين النهائيتين حمولة JSON تحتوي على prompt, input_image_1و input_image_2 .
3. كيف يبدو حمولة الطلب؟
فيما يلي مخطط JSON الأدنى كما هو موثق لـ multi-image-kontext-pro:
| الحقل | النوع | الوصف |
|---|---|---|
prompt | سلسلة | وصف نصي لكيفية دمج أو تحويل صورتي الإدخال |
input_image_1 | سلسلة | عنوان URL أو بيانات Base64 URI للصورة الأولى (JPEG/PNG/WebP/GIF) |
input_image_2 | سلسلة | عنوان URL أو بيانات Base64 URI للصورة الثانية |
aspect_ratio | التعداد | (اختياري) match_input, 1:1, 16:9، إلخ. الافتراضي هو match_input |
تلميح: يمكنك تمرير عناوين URL المستضافة بشكل عام أو عناوين URI للبيانات Base64 المضمنة - Base64 مناسب للبرامج النصية لمرة واحدة ولكنه قد يؤدي إلى إبطاء الملفات الكبيرة جدًا.
يدعم CometAPI الآن تحميل ما يصل إلى 4 صور مرجعية (في السابق كان يدعم صورة واحدة فقط)
4. كيف يمكنني إرسال طلب صور متعددة باستخدام cURL؟
curl https://api.replicate.com/v1/predictions \
-H "Authorization: Token $REPLICATE_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
"input": {
"prompt": "Blend the lighting from image1 with the background of image2, preserving color harmony",
"input_image_1": "https://example.com/portrait1.png",
"input_image_2": "https://example.com/background2.jpg",
"aspect_ratio": "match_input"
}
}'
- استبدال
versionالحقل الذي يحتوي على أحدث إصدار للنموذج من Replicate. - على CometAPI، قم بالتبديل في
/predictنقطة النهاية والاستخدام"file": { ... }وفقا لوثائقهم.
5. كيف يمكنني أن أفعل الشيء نفسه في بايثون؟
import requests
API_TOKEN = "YOUR_API_TOKEN"
headers = {
"Authorization": f"Token {API_TOKEN}",
"Content-Type": "application/json",
}
payload = {
"version": "multi-image-kontext-pro:f3545943bdffdf06420f0d8ececf86a36ce401b9df0ad5ec0124234c0665cfed",
"input": {
"prompt": "Combine the style of image1 with the content of image2, matching lighting and mood",
"input_image_1": "https://my-bucket.s3.amazonaws.com/imgA.png",
"input_image_2": "https://my-bucket.s3.amazonaws.com/imgB.png",
"aspect_ratio": "match_input"
},
}
resp = requests.post("https://api.replicate.com/v1/predictions", json=payload, headers=headers)
resp.raise_for_status()
data = resp.json()
print("🖼️ Output URL:", data)
- تحقق
data("بدء" → "معالجة" → "نجح") للاستطلاع حتى يصبح جاهزًا.
6. كيف أتعامل مع النتيجة وأعرضها؟
عند اكتمال التنبؤ، يقوم النموذج بإرجاع عنوان URI إلى الصورة المدمجة:
{
"id": "...",
"status": "succeeded",
"output": "https://.../result.png"
}
احصل على عنوان URL هذا (أو قم بتضمينه مباشرةً في تطبيقك/واجهة المستخدم الخاصة بك).
كيفية تحقيق أقصى قدر من النتائج: أفضل الممارسات؟
ما هي الصور المرجعية التي يجب عليك اختيارها؟
- تجانس:اختر صورًا ذات نمط وحجم موضوع وإضاءة متسقة لتحقيق التوحيد الأمثل.
- التنوع لنقل الأسلوب:عند تطبيق نمط جديد، قم بتضمين مجموعة متنوعة من الأمثلة التي تعرض النطاق الكامل للتأثيرات المرغوبة.
- مدخلات عالية الدقة:تؤدي المراجع ذات الجودة الأفضل إلى إنتاج مخرجات توليدية أكثر وضوحًا، وخاصةً للتفاصيل الدقيقة مثل القوام وملامح الوجه.
- حدود حجم الصورة: حافظ على حجم كل إدخال أقل من 10 ميجابايت (معيار التكرار) لتجنب انتهاء المهلة.
- الأشكال: تعمل التنسيقات JPEG وPNG وGIF وWebP بشكل أفضل؛ وتجنب التنسيقات الغريبة.
الهندسة السريعة:
- كن واضحًا: "الحفاظ على ملامح الوجه من الصورة 1"
- استخدم الترجيح: "أولوية الصورة 1 عالية، أولوية الصورة 2 منخفضة"
- حدود المعدل: تحقق من حدود QPS الخاصة بخطتك؛ قم بطلبات الدفعة بعناية.
كيف تبدأ
CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.
يمكن للمطورين الوصول FLUX.1 Kontext (نموذج: flux-kontext-pro ; flux-kontext-max) خلال كوميت ايه بي ايأحدث إصدارات الطرازات المدرجة هي اعتبارًا من تاريخ نشر المقال. للبدء، استكشف إمكانيات الطراز في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
الخاتمة
يُمثل الإحالة المرجعية للصور المتعددة باستخدام FLUX 1 Kontext نقلة نوعية في سير عمل الذكاء الاصطناعي التوليدي. فمن خلال توحيد النص والمدخلات المرئية المتعددة ضمن بنية مطابقة تدفق واحدة، يُمكّن هذا النظام المبدعين من تحقيق مخرجات معقدة ومتسقة في خطوات أقل. وقد ساهمت التطورات الحديثة - بدءًا من عقدة Image Stitch Node في ComfyUI وصولًا إلى تحسينات التكميم منخفضة الدقة وواجهة CometAPI - في توسيع نطاق إمكانية الوصول والأداء والإمكانات الإبداعية لمعالجة الصور المتعددة بشكل كبير.


