كوين-إيمج هو برنامج لتوليد الصور وتحريرها نموذج الأساس في عائلة Qwen المصممة لـ تقديم نصوص عالية الدقة, التحرير الدقيق، وتوليد النص إلى صورة بشكل عام. وهو مصمم لأداء توليد النصوص الواعية, تقديم نص ثنائي اللغة (قوي بشكل ملحوظ باللغتين الصينية والإنجليزية)، و التحرير الدقيق في السياق. ويؤكد البيان على ضرورة الجمع بين فهم + توليد فلسفة التصميم (مهام فهم الصورة والمهام التوليدية المدربة في خط أنابيب موحد).
الملامح الرئيسية
- تقديم نص أصلي / عالي الجودة داخل الصور - يتميز بقدرته على إنتاج نصوص واضحة ودقيقة دلاليًا في الصور المولدة (الملصقات، والتغليف، ولقطات الشاشة) - وهي المنطقة التي واجهت العديد من نماذج الصور السابقة صعوبة في التعامل معها.
- مخرجات متعددة الوسائط عالية الدقة - إنتاج صور واقعية ومنمقة مع تفاصيل جيدة وتخطيط يراعي اللغة.
- نقل الأسلوب وتعزيز التفاصيل - القدرة على تطبيق أنماط فنية متسقة أو تعزيز التفاصيل المحلية مع الحفاظ على تماسك المشهد.
التفاصيل الفنية - كيفية عمل Qwen-Image
الهندسة المعمارية والمكونات (الكلمات الرئيسية: MMDiT، Qwen2.5-VL). يستخدم النموذج يعتمد على MMDiT محول انتشار لتوليف الصور مدمج مع مُشفِّر اللغة البصرية (Qwen2.5-VL) لتفسير المطالبات والسياق المرئي. يتيح هذا الفصل للنموذج معالجة التوجيه الدلالي و مظهر البكسل بشكل مختلف، مما يُحسّن دقة النص واتساق التحرير. يُشير المستودع الرسمي والتقرير الفني إلى هيكل أساسي ذي 20 بايت لنموذج T2I الرئيسي.
خط أنابيب التدريب (الكلمات الرئيسية: التعلم المنهجي، خط أنابيب البيانات). لحل مشكلة عرض النص الصعب، يستخدم Qwen-Image منهج تقدمييبدأ النموذج بصور بسيطة غير نصية، ثم يتدرب تدريجيًا على أمثلة نصية أكثر تعقيدًا، وصولًا إلى مدخلات على مستوى الفقرات. أنشأ الفريق مسارًا شاملًا يتضمن جمعًا واسع النطاق، وتصفية دقيقة، وزيادة تركيبية، وموازنة لضمان رؤية النموذج لتركيبات نصية/صور واقعية عديدة أثناء التدريب. يُعد هذا المنهج الاستراتيجي أحد الأسباب الرئيسية لتفوق النموذج في عرض النصوص متعددة اللغات.
آلية التحرير (الكلمات الرئيسية: التشفير المزدوج، مشفر VAE + VL). للتحرير، النظام تغذية الصورة الأصلية مرتين: مرة واحدة في مشفر Qwen2.5-VL لـ التحكم الدلالي ومرة واحدة في مشفر VAE لـ معلومات المظهر الترميمييتيح تصميم التشفير المزدوج لوحدة التحرير الحفاظ على الهوية والدقة البصرية مع السماح بالتعديلات الدلالية - على سبيل المثال، استبدال كائن أو تغيير محتوى نصي دون تدهور المناطق غير ذات الصلة.
أداء المعيار
يحقق Qwen-Image أداء SOTA أو أداء قريب من SOTA عبر معايير عامة متعددة لكل من التوليد والتحرير، مع نتائج قوية بشكل خاص في مهام عرض النص ومعايير التكوين في العالم الحقيقي (على سبيل المثال، T2I-CoreBench وأجنحة تحرير الصور المنسقة).

كيفية مقارنة Qwen-Image بالنماذج الرائدة الأخرى
القوى النسبية: تقديم النصوص وإخلاص النص ثنائي اللغة هذه هي المزايا المميزة للنموذج مقارنةً بالعديد من النماذج التوليدية المنافسة (مثل DALL·E 3 وSDXL وMidjourney)، والتي غالبًا ما تكون أقوى في التكوين الفني البحت أو التنوع الأسلوبي، ولكنها أضعف في تصميم النصوص الكثيفة متعددة الأسطر أو الصينية. تدعم مقارنات مجتمعية متعددة وجداول معايير مؤلفي النموذج هذا الوصف.
المقايضات النسبية: بالمقارنة مع الأنظمة التجارية المغلقة والمضبوطة بشكل كبير، قد يتطلب Qwen-Image المعالجة البعدية أو ضبط موجه/مُحوِّل للوصول إلى واقعية متطابقة في بعض السياقات (تشويه السطح المنحني، والتركيب الواقعي للصور)، لكل اختبار مستقل. للمستخدمين الذين يُعطون الأولوية التصميمات النمطية، أو نماذج التغليف، أو تخطيطات النصوص ثنائية اللغة، يميل Qwen-Image إلى أن يكون مفضلًا.
حالات الاستخدام النموذجية والعالية القيمة
- نماذج التعبئة والتغليف والمنتجات: نصوص دقيقة وتخطيطات متعددة الأسطر للملصقات وتجارب التغليف.
- مسودات الإعلان والتصميم: النمذجة السريعة حيث تكون دقة النص مهمة (الملصقات واللافتات).
- إنشاء صورة موثقة: إنشاء صور يجب أن تتضمن محتوى قابلاً للقراءة (قوائم، علامات، واجهات).
- خطوط أنابيب تحرير الصور: التعديلات المستهدفة (استبدال النص، إضافة/إزالة الكائن) مع الحفاظ على الأسلوب والمنظور.
كيفية استدعاء واجهة برمجة تطبيقات qwen-image من CometAPI
qwen-image أسعار API في CometAPI، خصم 20% من السعر الرسمي:
الخطوات المطلوبة
- تسجيل الدخول إلى كوميتابي.كوم. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولاً.
- تسجيل الدخول الى حسابك وحدة تحكم CometAPI.
- احصل على مفتاح API لبيانات اعتماد الوصول للواجهة. انقر على "إضافة رمز" في رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx، ثم أرسله.

استخدام الطريقة
- حدد نقطة النهاية "qwen-image" لإرسال طلب واجهة برمجة التطبيقات (API) وحدد نص الطلب. يمكنك الحصول على طريقة الطلب ونصه من وثيقة واجهة برمجة التطبيقات على موقعنا الإلكتروني. كما يوفر موقعنا اختبار Apifox لتسهيل الأمر عليك.
- يستبدل باستخدام مفتاح CometAPI الفعلي الخاص بك من حسابك.
- أدخل سؤالك أو طلبك في حقل المحتوى - وهذا ما سيستجيب له النموذج.
- . قم بمعالجة استجابة API للحصول على الإجابة الناتجة.
يوفر CometAPI واجهة برمجة تطبيقات REST متوافقة تمامًا - لترحيل سلس. تفاصيل رئيسية لـ توليد الصور:
- عنوان URL الأساسي: https://api.cometapi.com/v1/images/generations
- أسماء النماذج: صورة كوين
- المصادقة:
Bearer YOUR_CometAPI_API_KEYرأس - نوع المحتوى:
application/json.
لا يتطلب نموذج "qwen-image" المعلمة "n" ويمكنه إخراج صورة واحدة فقط.
انظر أيضا واجهة برمجة تطبيقات الصور الفلاشية Gemini 2.5 (Nano-Banana)
