هل يمكن لنموذج Qwen-Image إعادة تعريف توليد الصور وتحريرها بالذكاء الاصطناعي؟

في 4 أغسطس 2025، أطلق فريق Qwen التابع لشركة Alibaba رسميًا كوين-إيمج، وهو نموذج أساسي لمحول انتشار متعدد الوسائط (MMDiT) بـ 20 مليار معلمة، مصمم لتوفير دقة غير مسبوقة في توليف النصوص إلى الصور وتحرير الصور بدقة. يُمثل هذا الإصدار دخولًا جريئًا لشركة علي بابا إلى مجال توليد الصور مفتوح المصدر، مما يضع Qwen-Image في موقع منافس مباشر للأنظمة الاحتكارية مثل OpenAI's GPT-4o وDALL·E 2 وMidjourney.

الابتكارات التقنية

كوين-إيميج 20 ب مم ديت يُمثل العمود الفقري إنجازًا هندسيًا هامًا، إذ يُمكّن النموذج من التفوق في عرض محتوى نصي مُعقد مباشرةً داخل الصور المُولّدة. يبدأ نهجه التعليمي المنهجي بمهام عرض بسيطة غير نصية، ثم يتطور تدريجيًا إلى التعامل مع أوصاف بطول فقرات، مما يُحقق دقة استثنائية في كلٍّ من اللغات الأبجدية واللغات اللوجوغرافية. علاوةً على ذلك، يتضمن النموذج الترميز المزدوج آلية معالجة منفصلة للتمثيلات الدلالية وإعادة البناءية عبر Qwen2.5-VL ومشفر VAE، مما يحقق التوازن بين الحفاظ على الاتساق الدلالي والواقعية البصرية أثناء تحرير الصور.

إنجازات في تقديم النصوص وتحريرها

الميزة المميزة الرئيسية لـ Qwen-Image هي دعم أصلي للنص المضمنمما يُمكّنه من وضع نصوص واضحة باللغتين الإنجليزية والصينية داخل الصور عبر تخطيطات متعددة الأسطر وسياقات الفقرات. تُظهر المعايير الداخلية أن Qwen-Image يتفوق على العديد من منافسيه من البرامج مفتوحة المصدر من حيث سرعة الاستجابة ووضوح النص، مما يجعله مثاليًا للتطبيقات التي تتطلب عناصر تصميم متعددة اللغات. كما تستفيد قدراته في تحرير الصور من نموذج تدريب متعدد المهام يدمج مهام إعادة بناء النص إلى صورة، والنص إلى صورة، والصورة إلى صورة، مما يُعزز الاتساق عند تعديل العناصر المرئية الحالية.

تُظهر التقييمات المستقلة تفوق Qwen-Image على العديد من النماذج الرائدة مفتوحة المصدر والمملوكة في دقة تضمين النصوص. في الاختبارات المقارنة، يتفوق على بدائل مفتوحة المصدر متوسطة المدى، وينافس عروضًا تجارية مثل Midjourney من حيث سرعة الاستجابة، خاصةً في التوجيهات ثنائية اللغة التي تجمع بين الإنجليزية والصينية. في حين أن بعض الأنظمة الملكية قد لا تزال رائدة في توليد مشاهد فائقة التعقيد، إلا أن ملاحظات المستخدمين المبكرة تُبرز وضوح Qwen-Image الفائق في تخطيطات النصوص متعددة اللغات، وضوابط التحرير القوية.

تماشيًا مع التزام علي بابا بالذكاء الاصطناعي "المفتوح والشفاف والمستدام"، فإن Qwen-Image هي مفتوح المصدر على منصة MoDa، ندعو المجتمع للمشاركة والتخصيص. إلى جانب إصدار النموذج، نشرت علي بابا وثائق شاملة، ونماذج من التعليمات البرمجية، وبوابة للتعليقات لدعم الاختبارات العملية عبر مختلف حالات الاستخدام، من خطوط النشر الآلية إلى الأدوات التعليمية التفاعلية.

نتائج التقييم

ترسم معايير Alibaba الداخلية وتقييمات الجهات الخارجية صورة للأداء الرائد لشركة Qwen-Image:

GenEval (إنشاء الصورة العامة): تم تحقيق مسافة بداية فريشيت (FID) 10.2، متفوقة على نماذج B-parameter العشرين المماثلة بنسبة 20٪ في المتوسط.
LongText-Bench (عرض النص): وسجل 92.7% الدقة في وضع النص متعدد الأسطر وسلامة الحروف، متجاوزة GPT-4.1 بنسبة 14%.
GEdit/ImgEdit (تحرير الصور): تم تسجيل متوسط درجة الرأي (MOS) 4.3/5، مما يعكس رضا المستخدم العالي في الحفاظ على الاتساق الدلالي أثناء التحرير
OneIG-Bench (إنشاء الرسوم البيانية): تم تصنيفه ضمن أفضل ثلاثة نماذج لعرض البيانات المنظمة والمخططات بصريًا مباشرةً من المطالبات، مما يوضح إمكانيات التخطيط القوية واختيار الألوان.
ترتيب المتصدرين:في لوحة صدارة Artificial Analysis Image Arena، يحتل Qwen-Image حاليًا المركز الخامس بين جميع نماذج توليد الصور - وهو النموذج الوحيد ذو الوزن المفتوح ضمن العشرة الأوائل - مما يدل على ميزته التنافسية في مجتمع البحث.

الوصول والنظام البيئي

تتيح لك مجموعة الميزات المتنوعة التي تقدمها Qwen-Image فتح مجموعة من التطبيقات الواقعية:

الاعلان التسويقي: إنشاء سريع لمرئيات ترويجية مخصصة مع شعارات مدمجة وعناصر نصية متعددة اللغات.
المحتوى التربوي: إنشاء تلقائي للرسوم البيانية التوضيحية والرسوم البيانية والصور التوضيحية لمنصات التعلم الإلكتروني.
التصميم والنمذجة الأولية: نماذج أولية وفنون مفاهيمية جاهزة للاستخدام مع طبقات قابلة للتعديل لتدفقات عمل إبداعية تفاعلية.
خدمات التوطين: التكيف السلس للصور في سياقات لغوية مختلفة دون بذل جهد يدوي في التصميم الجرافيكي.

يمكن للمستخدمين التفاعل مع Qwen-Image عبر واجهة Chat Qwen الخاصة بشركة Alibaba من خلال تحديد وضع "إنشاء الصورة"، أو دمج النموذج في بيئاتهم من خلال مستودع GitHub وواجهات برمجة التطبيقات CometAPI.

الاستخدام التفاعلي: يزور chat.qwen.ai وحدد أي نموذج Qwen غير مبرمج، ثم انتقل إلى "إنشاء الصورة" لبدء الإنشاء.
الكود والأوزان:
GitHub جيثب:: github.com/QwenLM/Qwen-Image
وجه يعانق: huggingface.co
نموذج المنظار:modelscope.cn

تشجع شركة علي بابا المجتمع على تقديم الملاحظات والمساهمات لتعزيز منفتحة وشفافة ومستدامة نظام بيئي للذكاء الاصطناعي التوليدي.

سيظهر أحدث تكامل Qwen-Image قريبًا على CometAPI، لذا ترقبوا! بينما ننهي تحميل نموذج Qwen-Image، استكشف نماذجنا الأخرى على صفحة النماذج أو جربها في AI Playground.

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

انظر أيضا

الابتكارات التقنية

إنجازات في تقديم النصوص وتحريرها

نتائج التقييم

الوصول والنظام البيئي

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة