تم إطلاق فريق Qwen التابع لشركة Alibaba كوين-تعديل الصور في 19 أغسطس 2025 - إصدار تحرير صور مبني على العمود الفقري 20B Qwen-Image والذي يعد بتحرير نصوص ثنائية اللغة بدقة، والتحكم في المظهر والدلالة في الوضع المزدوج، وأداء معيار SOTA. سأشرح الغوص العميق في الهندسة المعمارية والميزات والاستخدام.
ما هو Qwen-Image-Edit ولماذا هو مهم؟
Qwen-Image-Edit هو نموذج أساسي لتحرير الصور من فريق Qwen التابع لشركة Alibaba، صدر في 19 أغسطس 2025، وهو مبني على بنية Qwen-Image الأساسية ذات 20 معلمة. يُوسّع هذا النموذج نطاق عرض النصوص المتقدم في Qwen-Image ليشمل تحرير الصور التفاعلي: تحرير النصوص ثنائية اللغة (الصينية/الإنجليزية) داخل الصور، وتحرير المظهر الدقيق (إزالة/إضافة/تنقيح)، وتحويلات دلالية عالية المستوى (تدوير الكائنات، تركيب عرض جديد، نقل النمط). يُشير الفريق إلى أن النموذج يُغذّي الصور إلى مُشفّر لغة بصرية ومُشفّر VAE للتحكم في الدلالات والمظهر بشكل مستقل.
لقد تم تصميمه صراحةً لـ مدفوع بالتعليمات تحرير الصور: تقوم بتوفير صورة إدخال وتعليمات باللغة الطبيعية (تدعم اللغة الإنجليزية والصينية) ويقوم النموذج بإرجاع صورة محررة يمكنها إجراء تحريرات نصية دقيقة، وإضافة/إزالة الكائنات، وتعديلات النمط أو اللون، وحتى التحولات الدلالية ذات المستوى الأعلى مع الحفاظ على الاتساق البصري.
سبب أهمية ذلك: لم يعد تحرير الصور يقتصر على "الرسم أو القناع والتركيب" - فنماذج مثل Qwen-Image-Edit تتيح لك وصف التعديلات بلغة طبيعية، والحفاظ على الطباعة والتخطيط، وإجراء تصحيحات على مساحات صغيرة كانت تتطلب في السابق استخدام فوتوشوب بدقة. هذا المزيج قيّم بشكل خاص لفرق الإبداع والتجارة الإلكترونية والتسويق وأنظمة التشغيل الآلي التي تحتاج إلى تعديلات بصرية برمجية قابلة للتكرار.
كيف تستخدم Qwen-Image-Edit فعليًا - ما هي مسارات المطور؟
أين يتوفر؟
يمكنك تجربة Qwen-Image-Edit عبر:
- دردشة كوين (النسخة التجريبية الرسمية للويب) للتحرير التفاعلي.
- صفحة نموذج وجه العناق / المساحات - تتوفر مساحات عامة للنماذج والعروض التوضيحية للتجارب السريعة.
- Alibaba Cloud Model Studio / DashScope API - واجهة برمجة التطبيقات الإنتاجية (HTTP + SDKs) مع نقاط نهاية موثقة وتسعير وحصص للاستخدام الآلي.
طرق سريعة للتجربة
- لإجراء محادثة لمرة واحدة أو تجربة، استخدم Hugging Face Space أو Qwen Chat.
- للتكامل (تطبيق ويب، أو خط أنابيب الدفعات، أو خدمة خلفية)، اتصل بنقطة نهاية DashScope (Alibaba Cloud Model Studio) باستخدام واجهة برمجة تطبيقات HTTP المُقدمة أو مجموعات تطوير برامج DashScope (Python/Java). تتضمن وثائق Model Studio أمثلةً على curl وSDK لعناوين URL للصور أو مُدخلات Base64، والمطالبات السلبية، وخيارات العلامة المائية، ومسار استرجاع النتائج.
كيف يتم تصميم Qwen-Image-Edit - ما الذي يوجد تحت الغطاء؟
الإدخال ثنائي المسار: الدلالات + المظهر
وفقًا للتقرير الرسمي، يقوم Qwen-Image-Edit بمعالجة صورة الإدخال في نفس الوقت من خلال:
- Qwen2.5-VL (مُشفِّر اللغة المرئية) - يقود الفهم الدلالي والتحرير عالي المستوى (تدوير الكائن، وتوليف العرض، وتغييرات المحتوى).
- مشفر VAE / مسار الظهور الكامن - يحافظ على المظهر المرئي منخفض المستوى (القوام، والحفاظ على البكسل الدقيق للتعديلات الموضعية) أو يتلاعب به.
يتيح هذا الانقسام للنموذج القيام إما بإعادة تصور دلالي واسع النطاق أو تحرير محافظ على البكسل في المناطق المستهدفة.
تم بناؤه على أساس صورة 20B
يُوسِّع نموذج التحرير نموذج توليد الصور Qwen-Image 20B (كانت إمكانيات عرض النصوص أساسيةً فيه)، لذا يرث هذا النموذج فهمًا قويًا للتخطيط/النص، ودقة عالية في تحديد الصور. يشير مستودع Qwen-Image ومدونته إلى ترخيص Apache-2.0 لقاعدة بيانات الصور، مما سرّع من اعتماده من قِبَل المجتمع.
خط الأنابيب والتدفق العملي
خط أنابيب نموذجي (مستوى عالي):
- صورة الإدخال (عنوان URL عام أو Base64) بالإضافة إلى تعليمات نصية/مطالبة وأقنعة/مربعات حدود اختيارية للتعديلات المستهدفة.
- يقوم النموذج باستيعاب الصورة في كلا المشفرين؛ ويقوم مشفر اللغة البصرية بتفسير المطالبة في السياق ويقترح تحويلات دلالية؛ ويقوم مسار VAE بترميز قيود المظهر.
- بدمج هذه الوسائط، يُنتج مُفكك التشفير الصورة المُعدّلة - إما مُعدّلة عالميًا (تعديل دلالي) أو مُعدّلة محليًا (تعديل المظهر) مع ترك المناطق المُقنّعة دون مُساس. تُخزّن المُخرجات كروابط OSS (عند استخدام Alibaba Cloud) بمدة زمنية محدودة.
أثناء التحرير، يُدخل Qwen-Image-Edit الصورة المُدخلة نفسها إلى كلتا القناتين ليتمكن من تحديد ما إذا كان سيُغيّر البنية أم سيحافظ على المظهر. تُمكّن هذه البنية ثنائية المسار عمليات تتراوح من عمليات إزالة موضعية دقيقة للبكسل (مثل إزالة خصلة شعر دون لمس البكسلات المجاورة) إلى تغييرات دلالية جذرية (مثل تغيير الوضعية أو إنشاء وجهات نظر جديدة) مع الحفاظ على اتساق هوية الموضوع. كما اعتمد الفريق بشكل كبير على أدوات الانتشار المتقدمة وأدوات التحسين الفوري لتثبيت عمليات التحرير المتسلسلة.
ما هي الميزات التي يقدمها Qwen-Image-Edit؟
التحرير ثنائي المسار: التحكم الدلالي + التحكم في المظهر
صُمم Qwen-Image-Edit بشكل واضح كمحرر ثنائي المسار: مُشفِّر دلالي يفهم المشهد/التخطيط/الكائنات، ومسار مظهر منفصل يحافظ على القوام والخطوط وتفاصيل البكسل الدقيقة. هذا التصميم هو ما يُمكّن النموذج من تحديد ما إذا كان سيُغيّر التكوين عالي المستوى (الوضع، هوية الكائن، النمط) أو سيُجري إصلاحًا محليًا دقيقًا للبكسل (إزالة كائن، الحفاظ على تطابق البكسلات المجاورة). هذا التقسيم هو الفكرة المعمارية المحورية وراء العديد من محررات الصور عالية الدقة الحديثة، وهو مُؤكَّد بشدة في ملاحظات إصدار Qwen.
التطبيق العملي: يمكنك طلب "إزالة العلامة المائية من أسفل اليسار دون لمس الشعار" أو "تغيير وضعية اليد" وسوف يطبق النموذج استراتيجيات داخلية مختلفة لكل مهمة، مما يقلل من الآثار الجانبية في المناطق غير الملوثة.
تحرير الصور مع مراعاة النصوص والدعم ثنائي اللغة
إحدى القدرات الرئيسية للنموذج هي تحرير النصوص بدقة — يُحاول هذا النظام الحفاظ على الخط، والخطوط، والتباعد، والتخطيط أثناء إضافة/إزالة/تعديل النصوص في عناصر النص الصينية والإنجليزية. لا يقتصر الأمر على عرض نص جديد فحسب، بل يسعى أيضًا إلى مطابقة الطباعة الأصلية. يُسلّط فريق كوين الضوء على هذه الإمكانية مرارًا وتكرارًا في وثائقهم وبطاقة النموذج.
التطبيق العملي: يمكن أتمتة عمليات التغليف والملصقات ولقطات شاشة واجهة المستخدم وسير عمل اللافتات، وخاصةً عندما تكون مطابقة الخطوط الدقيقة والتحرير ثنائي اللغة أمرًا مهمًا.
الإخفاء، ومطالبات المنطقة، والتحرير التدريجي
تتضمن الوظيفة مدخلات قناع صريحة (للرسم الداخلي/الخارجي)، ومطالبات مدركة للمنطقة (تطبيق التغيير فقط ضمن المربع المحيط X)، ودعم التحرير متعدد الأدوار/المتسلسل (تحسين المخرجات بشكل متكرر). تدعم واجهة برمجة التطبيقات وخط أنابيب الانتشار المطالبات السلبية وعناصر التحكم الشبيهة بمقياس التوجيه لضبط مدى تحفظ التحرير مقابل جرأة التحرير. هذه الميزات قياسية في خطوط أنابيب التحرير المخصصة للإنتاج، وهي موجودة في أدوات Qwen.
التدريب متعدد المهام: اتساق التحرير الرائد في الصناعة
من خلال نموذج تدريب مُحسّن متعدد المهام، يدعم Qwen-Image-Edit مجموعة متنوعة من المهام، بما في ذلك تحويل النص إلى صورة (T2I)، وتحويل الصورة إلى صورة (I2I)، وتحرير الصور الموجه بالنص (TI2I). تجدر الإشارة إلى أن قدرة Qwen-Image-Edit على "التحرير المتسلسل" مميزة للغاية. على سبيل المثال، في سيناريو تصحيح الخط، يمكن للنموذج تصحيح الأخطاء تدريجيًا عبر دورات تكرار متعددة مع الحفاظ على اتساق الأسلوب العام. تُحسّن هذه القدرة بشكل كبير الكفاءة الإبداعية وتُقلل من متطلبات إنشاء محتوى مرئي احترافي.
كيف يعمل Qwen-Image-Edit - هل هو SOTA حقًا؟
المعايير والمطالبات
تدّعي Qwen تحقيق أداء متطور عبر العديد من معايير التحرير (يركز الفريق على اختبارات التفضيلات البشرية ومجموعات التحرير المخصصة)، وتُظهر تقارير التغطية درجات محددة في معيار تحرير يُعرف عادةً في مجتمع التحرير باسم GEdit-Bench (بنسختيه الإنجليزية والصينية). يُشير أحد التقارير إلى أن Qwen-Image-Edit حقق درجة ~7.56 (EN) و7.52 (CN) مقابل ~1 (EN) و7.53 (CN) لـ GPT Image-7.30 - وهي أرقام تشير إلى تفوق Qwen، خاصةً في النصوص الصينية ومهام الدلالات/المظهر المختلطة.
كيف تتم مقارنة Qwen-Image-Edit مع GPT Image-1 (OpenAI) وFLUX.1Kontext؟
فيما يلي أقوم بالمقارنة على طول المحاور العملية التي تهتم بها الفرق: القدرة، وتقديم النص، والنشر، والانفتاح، ومكانة نقاط القوة/الضعف لكل نموذج.
- كوين-تعديل الصور - هندسة المسار المزدوج، وتحرير النصوص الثنائي اللغة القوي، والأوزان المفتوحة (Apache-2.0)، والعمود الفقري للصور بحجم 20 بايت، والمضبوط صراحةً لتحرير الدلالات والمظهر المختلط؛ خيار جيد إذا كنت بحاجة إلى التحكم المحلي أو دقة الطباعة باللغتين الصينية/الإنجليزية.
- gpt-image-1 (OpenAI) مُولِّد/محرِّر متعدد الوسائط عالي الكفاءة، متوفر عبر واجهة برمجة تطبيقات OpenAI؛ يتميز بإنشاء الصور العامة، وعرض النصوص، والتكامل (شراكات Adobe/Figma)؛ أوزان مغلقة، وواجهة برمجة تطبيقات مُدارة، وتكامل شامل للنظام البيئي، وتحسين المنتج. تصفه وثائق OpenAI بأنه نموذج صور "متعدد الوسائط أصلي" في واجهة برمجة التطبيقات.
- FLUX.1Kontext — مُصمم كمنتج لتحرير الصور يُركز على النصوص، مع مجموعة من النماذج (Dev / Pro / Max)؛ يُركز المُصنِّع على سير عمل يُحافظ على الطابع/الاتساق مع السماح بتحرير مُستهدف؛ مُوجَّه نحو المنتج التجاري مع واجهة مستخدم مُستضافة ومستويات احترافية. التفاصيل التقنية العامة (مثل عدد المُعاملات) محدودة مُقارنةً بـ Qwen.
القدرة والجودة:
- النص والطباعة: تُسوّق شركة Qwen صراحةً لدقة النصوص ثنائية اللغة. كما يُبرز gpt-image-1 من OpenAI دقة عرض النصوص، وهو مُدمج بالفعل في أدوات التصميم؛ ويكمن الفارق العملي في دقة قياس التعرف الضوئي على الحروف (OCR) واختبارات مطابقة الخطوط على مجموعتك. تدّعي FLUX تحكمًا قويًا في الطباعة، لكنها تنشر عددًا أقل من معايير المقارنة الرقمية.
- التعديلات الدلالية (الوضعية / وجهة النظر): جميعها تدعم عمليات التحرير عالية المستوى. صُمم نهج Qwen ثنائي المسار خصيصًا لهذا المزيج؛ بينما يتميز نموذج OpenAI بقدرات عالية ويستفيد من هندسة سريعة شاملة للمنتج؛ ويهدف FLUX إلى تدفقات تحرير سهلة الاستخدام. تُظهر لقطة GEdit-Bench الرقمية تفوق Qwen بشكل طفيف في النتائج الإجمالية وفقًا للمعايير المُبلغ عنها حتى الآن.
قائمة الاختيار العملية (إرشادات المطور):
- اختار كوين-تعديل الصور إذا كان تحرير النصوص ثنائي اللغة (الصينية والإنجليزية)، وسير العمل الدلاليّ والمظهريّ، وسهولة دمج العروض التوضيحية/التكاملات السحابية أمرًا مهمًا، فهو خيار ممتاز لواجهات المستخدم والملصقات المُستهدفة إقليميًا.
- اختار GPT-Image-1 إذا: كنت تريد اتباع التعليمات والتكامل مع أدوات التصميم السائدة (Adobe وFigma) وتعطي الأولوية للتحولات الإبداعية ذات الخطوة الواحدة؛ فكن حريصًا على التضحيات المتعلقة بالحفاظ على البيانات.
- اختار FLUX.1Kontext / FluxKontext المُعدّل بدقة إذا: كنت تريد مجموعة بيانات قابلة للضبط الدقيق (يمكنك إعادة التدريب أو التكيف مع مجموعات البيانات الخاصة) وكنت مستعدًا للاستثمار في تنظيم مجموعة البيانات؛ تظهر الأبحاث الحديثة درجات تنافسية بعد الضبط الدقيق.
البدء عبر CometAPI
CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.
سيظهر أحدث تكامل Qwen-Image-Edit قريبًا على CometAPI، لذا ترقبوا! بينما ننتهي من تحميل نموذج Qwen-Image-Edit، استكشف نماذج تحرير الصور الأخرى لدينا مثل سيدريم 3.0,FLUX.1 Kontext ,GPT-image-1 في سير عملك أو جرّبها في بيئة الذكاء الاصطناعي. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
الحكم النهائي: مكان Qwen-Image-Edit في مجموعتك
يُعد Qwen-Image-Edit خطوةً هامةً نحو سير عمل تحرير الصور "النص أولاً"، ويتميّز في المهام المختلطة التي تُعدّ فيها الطباعة والفهم الدلالي أمرًا بالغ الأهمية. يتميز بسهولة الوصول إليه - واجهات برمجة تطبيقات سحابية للتكامل السريع وأوزان مفتوحة للتخصيص المتقدم - لكن الإصدارات الجديدة مثل هذا تتطلب اختبارًا دقيقًا في مجال عملك: قد تتطلب عمليات التحرير المتسلسلة، وحفظ الهوية، وخطوط/نصوص الحواف تكرارًا وهندسة سريعة. يعمل فريق Qwen بنشاط على ضبط النموذج ويوصي باستخدام أحدث diffusers الالتزامات وتوفير أدوات إعادة الكتابة السريعة لتحقيق أفضل استقرار.
إذا كانت حالة الاستخدام الخاصة بك هي الإنتاج على نطاق واسع (إنتاجية عالية، زمن انتقال مضمون، أمان خاص)، فتعامل مع واجهة برمجة التطبيقات السحابية مثل أي خدمة تعلم آلي مُدارة أخرى: قم بإجراء معيار في منطقتك، وخطط للتكلفة، وقم بتنفيذ التخزين المؤقت القوي واستمرار النتيجة (اعتبارات OSS TTL).
