واجهة برمجة تطبيقات Qwen لتحرير الصور

CometAPI
AnnaNov 12, 2025
واجهة برمجة تطبيقات Qwen لتحرير الصور

Qwen-Image-Edit هو فرع تحرير صور من عائلة Qwen، طوره فريق Qwen (نظام Alibaba/QwenLM). يعتمد هذا الفرع على بنية MMDiT أساسية تضم 20 مليار معلمة، ويوسع بشكل واضح إمكانيات Qwen-Image المتقدمة في عرض النصوص لتشمل سير عمل تحرير صور فعّالة. صُمم هذا النموذج للمهام التي تتطلب دقة في التحرير، مثل تغيير النص مباشرةً على اللافتات، والحفاظ على الخطوط والتخطيط، وإضافة/إزالة العناصر مع الحفاظ على الاتساق الدلالي، وتحويلات وجهات النظر/الوضعيات، ونقل الأنماط بدقة.

الملامح الرئيسية

  • تحرير النصوص بدقة داخل الصورة (ثنائي اللغة: الصينية والإنجليزية) - إضافة أو إزالة أو استبدال النص مع الحفاظ على الخط/الحجم/النمط قدر الإمكان.
  • أوضاع التحرير المزدوجة: الدلالي + المظهر - يدعم التغييرات الدلالية عالية المستوى (الراحة، استبدال الكائن، وجهة النظر) وتحرير المظهر منخفض المستوى (نقل الأسلوب، الملمس، التعديل المحلي).
  • قناع / منطقة / تعديلات متعددة الأدوار — يدعم الرسم المقنع، ومطالبات المنطقة، والتحرير المتسلسل لتدفقات العمل التكرارية.
  • مدخلات الصور المتعددة (الإصدار الأحدث): تضيف النسخة 2509 دعم تحرير الصور المتعددة (على سبيل المثال، شخص+شخص، شخص+منتج)، وتحسين تناسق الهوية/المنتج/النص، ومدخلات أصلية بنمط ControlNet.

تفاصيل تقنية

  • المقياس الأساسي / العائلة: بنيت على معلمة 20ب نموذج أساس صورة Qwen (تصميم انتشاري متعدد الوسائط بأسلوب MMDiT).
  • خط أنابيب تحرير الترميز المزدوج: تستقبل وحدة التحرير (1) تمثيلًا دلاليًا عبر مُشفّر بصري Qwen2.5-VL، و(2) تمثيلًا إعادة بناء عبر مُشفّر VAE. يُمكّن تغذية كلا التمثيلين بالتوازي رأس التحرير من الموازنة بين التغيير الدلالي ودقة البكسل. يُعدّ هذا الترميز المزدوج خيارًا هندسيًا أساسيًا لعمليات التحرير الفعّالة.
  • التدريب التدريجي / المنهجي: تطور التدريب من مهام أبسط في عرض النصوص وتوليدها إلى أهداف أكثر تعقيدًا في عرض النصوص على مستوى الفقرات وتحريرها بمهام متعددة (إعادة بناء T2I، TI2I، I2I). ويُقال إن هذا المنهج يُمثل عاملًا أساسيًا في تحسين دقة النص واستقرار التحرير في النموذج.
  • نكهة النموذج / الوحدات: تم وصف Qwen-Image-Edit على أنه نموذج 20B على غرار MMDiT والذي يدمج مكونات Qwen2.5-VL ورأس تحرير الانتشار ومكونات VAE للتحكم في المظهر.

أداء المعيار

تم المطالبة بمعيار SOTA المتقاطع: يقدم فريق Qwen تقارير عن أحدث التقنيات (SOTA) أو أفضل النتائج على معايير متعددة لإنشاء الصور العامة وتحريرها - بما في ذلك GenEval، DPG، OneIG-Bench (الجيل) و GEdit، ImgEdit، GSO (تحرير).

واجهة برمجة تطبيقات Qwen لتحرير الصور

القيود والتحذيرات (العملية)

  1. التحف والحالات الحدية: يُظهر اختبار المجتمع تشبعًا زائدًا عرضيًا، أو تحفًا في نسيج الجلد، أو طبقات تركيبية في بعض التعديلات عالية التفاصيل؛ وتهدف شوك البرق المجتمعية إلى التخفيف من هذه الأمور.
  2. الحوسبة / الذاكرة: يعتمد نموذج 20B وخطوط أنابيب التحرير عالية الدقة على وحدة معالجة الرسومات (GPU) بشكل مكثف. يستفيد النشر المحلي من bfloat16/FP8 وسير عمل أخذ العينات المُحسّن (تتوفر إصدارات "lightning" من 4/8 خطوات لتقليل ذاكرة الوصول العشوائي للفيديو (VRAM) وزمن الوصول).
  3. السلامة والملكية الفكرية: كما هو الحال مع جميع برامج التصوير متعددة الأغراض، يُمكن لبرنامج Qwen-Image-Edit إنشاء شخصيات محمية بحقوق الطبع والنشر أو محتوى حساس - يتطلب الاستخدام الإنتاجي ضوابط تعديل وموافقة على الحقوق. (أفضل الممارسات النموذجية للشركات).
  4. أوضاع الفشل: قد لا تزال الأحرف/الكلمات الغامضة أو النادرة للغاية تُقدم بشكل غير صحيح أو تتطلب تحريرات متكررة ("متسلسلة") لتتقارب (يلاحظ المؤلفون أمثلة مثل الحروف الصينية النادرة التي تتطلب تصحيحات تدريجية).

كيفية مقارنة Qwen-Image-Edit مع الخيارات الأخرى

  • الانتشار المستقر / SDXL (الطلاء الداخلي): تتميز SDXL بالإضافة إلى ControlNet وخطوط أنابيب الطلاء الداخلي المخصصة بالسرعة، وتوفر دعمًا واسعًا لأدوات المجتمع والعديد من واجهات برمجة التطبيقات (LoRAs)؛ كما أنها تتميز بسير عمل الطلاء الداخلي العام والسرعة والكفاءة. نقاط قوة Qwen-Image-Edit هي تحرير النصوص ثنائية اللغة الأصلية، واتساق هوية/منتج أكثر صرامة في بعض الحالات، وتكامل بين الدلالة والمظهر. تُظهر مقارنات مجتمع Qwen أن ترتيبها غالبًا ما يكون أعلى في دقة التحرير وتوافق النص، ولكن بتكلفة حوسبة أعلى.
  • محررات المصدر المغلق (Adobe Firefly / DALL·E / Runway): يمكن أن تكون واجهات برمجة التطبيقات المغلقة مُحسّنة للغاية (واجهة المستخدم، والإدارة المتكاملة، وضمانات زمن الوصول)، لكن Qwen-Image-Edit يبرز كبديل مفتوح بالكامل، مُصمم خصيصًا لتحرير النصوص ثنائية اللغة بكفاءة عالية، ويوفر نشرًا محليًا. غالبًا ما يعتمد الخيار العملي على ما إذا كنت بحاجة إلى تحكم محلي/ترخيص مفتوح أو تجربة مستخدم سحابية مُحسّنة.

حالات الاستخدام العملي

  • تحرير الملصقات واللافتات - تغيير النص الموجود على الملصقات مع الحفاظ على الخط/الملمس.
  • تسويق المنتج / إنشاء الملصقات - إضافة/إزالة العناصر، والحفاظ على هوية المنتج لصور التجارة الإلكترونية.
  • تعديلات الحفاظ على هوية الصورة الشخصية - تغييرات في الوضعيات، ونقل الأنماط مع الحفاظ على اتساق الهوية (تم تحسينها في عام 2509).
  • الترميم وتصحيح الخط - ترميم الصور القديمة وتصحيح الحروف المكتوبة بخط اليد/المطبوعة على مراحل.
  • سير العمل الإبداعي/التصميمي - تحرير تركيبات الصور المتعددة، وتوليد الميمات، وتصميم الصور الرمزية حيث قد يتضمن النص ثنائي اللغة.

كيفية استدعاء واجهة برمجة تطبيقات qwen-image-edit من CometAPI

qwen-image-edit أسعار API في CometAPI، خصم 20% من السعر الرسمي:

رموز الإدخال$2.00
رموز الإخراج$6.40

الخطوات المطلوبة

  • تسجيل الدخول إلى كوميتابي.كوم. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولاً.
  • تسجيل الدخول الى حسابك وحدة تحكم CometAPI.
  • احصل على مفتاح API لبيانات اعتماد الوصول للواجهة. انقر على "إضافة رمز" في رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx، ثم أرسله.

واجهة برمجة تطبيقات Qwen لتحرير الصور

استخدام الطريقة

  1. حدد نقطة النهاية "qwen-image-edit" لإرسال طلب واجهة برمجة التطبيقات (API) وحدد نص الطلب. يمكنك الحصول على طريقة الطلب ونصه من مستند واجهة برمجة التطبيقات على موقعنا الإلكتروني. كما يوفر موقعنا اختبار Apifox لتسهيل الأمر عليك.
  2. يستبدل باستخدام مفتاح CometAPI الفعلي الخاص بك من حسابك.
  3. أدخل سؤالك أو طلبك في حقل المحتوى - وهذا ما سيستجيب له النموذج.
  4. . قم بمعالجة استجابة API للحصول على الإجابة الناتجة.

يوفر CometAPI واجهة برمجة تطبيقات REST متوافقة تمامًا - لترحيل سلس. تفاصيل رئيسية لـ تحرير الصورة:

  • عنوان URL الأساسي: https://api.cometapi.com/v1/images/edits
  • أسماء النماذج: كوين-تعديل-الصورة
  • المصادقة: Bearer YOUR_CometAPI_API_KEY رأس
  • نوع المحتوى: application/json .

انظر أيضا واجهة برمجة تطبيقات Qwen-image

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%