/
モデルサポートエンタープライズブログ
500以上のAI Model API、オールインワンAPI。CometAPIで。
モデルAPI
開発者
クイックスタートドキュメントAPI ダッシュボード
リソース
AIモデルブログエンタープライズ変更履歴概要
2025 CometAPI. 全著作権所有。プライバシーポリシー利用規約
Home/Models/Aliyun/Qwen Image
Q

Qwen Image

リクエストごと:$0.028
Qwen-Image هو نموذج أساسي ثوري لتوليد الصور أطلقه فريق Tongyi Qianwen لدى Alibaba في عام 2025. بحجم معلمات يبلغ 20 مليارًا، وهو قائم على بنية MMDiT (محول الانتشار متعدد الوسائط). حقق النموذج اختراقات كبيرة في عرض النصوص المعقدة والتحرير الدقيق للصور، مظهرًا أداءً استثنائيًا خصوصًا في عرض النصوص الصينية. تمت الترجمة باستخدام DeepL.com (الإصدار المجاني)
新着
商用利用
概要
機能
料金プラン
API
バージョン

الميزات الرئيسية

  • عرض نصوص أصلي / عالي الجودة داخل الصور — يتفوّق في إنتاج نصوص واضحة ودلاليًا دقيقة داخل الصور المُولَّدة (الملصقات، والتغليف، ولقطات الشاشة) — وهو مجال عانت فيه العديد من نماذج الصور السابقة.
  • مخرجات متعددة الوسائط عالية الدقة — يُنتج صورًا فوتوغرافية واقعية وصورًا مُنمَّقة بتفاصيل جيدة وتخطيط واعٍ باللغة.
  • نقل الأنماط وتحسين التفاصيل — يمكنه تطبيق أنماط فنية متسقة أو تحسين التفاصيل المحلية مع الحفاظ على تماسك المشهد.

التفاصيل التقنية — كيف يعمل Qwen-Image

البنية والمكوّنات (الكلمات المفتاحية: MMDiT, Qwen2.5-VL). يستخدم النموذج مُحوِّل انتشار قائمًا على MMDiT لتوليد الصور، مدمجًا مع مُرمِّز لغة-رؤية (Qwen2.5-VL) لتفسير المطالبات والسياق البصري. يتيح هذا الفصل للنموذج التعامل مع التوجيه الدلالي والمظهر البكسلي بشكل مختلف، مما يحسّن دقة النص واتساق التعديل. وتشير المستودعات الرسمية والتقرير التقني إلى عمود فقري بعدد 20 مليار معلمة لنموذج T2I الرئيسي.

مسار التدريب (الكلمات المفتاحية: curriculum learning, data pipeline). لحل مشكلة عرض النصوص الصعبة، يستخدم Qwen-Image منهجًا تدريجيًا: يبدأ بصور أبسط غير نصية، ثم يتدرّب تدريجيًا على أمثلة أكثر تعقيدًا وغنىً بالنصوص وصولًا إلى مدخلات على مستوى الفقرات. أنشأ الفريق مسارًا شاملًا يتضمن جمعًا واسع النطاق، وترشيحًا دقيقًا، وتعزيزًا اصطناعيًا، وموازنةً لضمان أن يرى النموذج العديد من تراكيب النص/الصور الواقعية أثناء التدريب. ويُعد هذا المنهج الاستراتيجي سببًا رئيسيًا في تميّز النموذج في عرض النصوص متعددة اللغات.

آلية التحرير (الكلمات المفتاحية: dual-encoding, VAE + VL encoder). بالنسبة للتحرير، يقوم النظام بتمرير الصورة الأصلية مرتين: مرة إلى مُرمِّز Qwen2.5-VL من أجل التحكم الدلالي، ومرة إلى مُرمِّز VAE من أجل معلومات المظهر لإعادة البناء. يتيح تصميم الترميز المزدوج لوحدة التحرير الحفاظ على الهوية والدقة البصرية مع السماح بإجراء تعديلات دلالية — على سبيل المثال، استبدال عنصر أو تغيير المحتوى النصي دون الإضرار بالمناطق غير ذات الصلة.

أداء المقاييس

يحقق Qwen-Image أداءً رائدًا أو قريبًا من الرائد عبر عدة مقاييس عامة لكلٍّ من التوليد والتحرير، مع نتائج قوية بشكل خاص في مهام عرض النصوص ومقاييس التركيب الواقعي (على سبيل المثال، T2I-CoreBench ومجموعات تحرير الصور المنسّقة).

Qwen-image API

كيف يقارن Qwen-Image بالنماذج الرائدة الأخرى

نقاط القوة النسبية: تُعد دقة عرض النصوص ودقة النصوص ثنائية اللغة من أبرز مزايا النموذج مقارنةً بالعديد من المنافسين في التوليد (مثل DALL·E 3 وSDXL وMidjourney)، الذين يكونون غالبًا أقوى في التكوين الفني البحت أو التنوع الأسلوبي، لكنهم أضعف في تخطيط النصوص الكثيفة متعددة الأسطر أو النصوص الصينية. وتدعم المقارنات المجتمعية المتعددة وجداول المقاييس الخاصة بمؤلفي النموذج هذا التوصيف.

المقايضات النسبية: مقارنةً بالأنظمة التجارية المغلقة والمضبوطة بدرجة كبيرة، قد يتطلب Qwen-Image معالجة لاحقة أو ضبط المطالبات/المحوّلات للوصول إلى نفس مستوى الواقعية في بعض السياقات (مثل تشوّه الأسطح المنحنية، والتركيب الفوتوغرافي الواقعي)، وفقًا لاختبارات مستقلة. بالنسبة للمستخدمين الذين يعطون الأولوية إلى التصاميم القالبية، أو نماذج التغليف، أو تخطيطات النصوص ثنائية اللغة، يميل Qwen-Image إلى أن يكون الخيار المفضّل.


حالات الاستخدام النموذجية وعالية القيمة

  • نماذج التغليف والمنتجات: نصوص دقيقة وتخطيطات متعددة الأسطر للملصقات وتجارب التغليف.
  • مسودات الإعلان والتصميم: إنشاء نماذج أولية بسرعة عندما تكون دقة النص مهمة (الملصقات، واللافتات).
  • توليد الصور ذات الطابع التوثيقي: توليد صور يجب أن تتضمن محتوى قابلًا للقراءة (القوائم، والإشارات، والواجهات).
  • مسارات تحرير الصور: تعديلات موجّهة (استبدال النص، إضافة/إزالة العناصر) مع الحفاظ على النمط والمنظور.
  • كيفية الوصول إلى Qwen image API

الخطوة 1: التسجيل للحصول على مفتاح API

سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيُرجى التسجيل أولًا. سجّل الدخول إلى لوحة CometAPI الخاصة بك. احصل على بيانات اعتماد الوصول، أي مفتاح API الخاص بالواجهة. انقر على “Add Token” في قسم API token في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.

الخطوة 2: إرسال الطلبات إلى Qwen image API

حدّد نقطة النهاية “qwen-image ” لإرسال طلب API واضبط نص الطلب. يتم الحصول على طريقة الطلب ونص الطلب من توثيق API على موقعنا. كما يوفّر موقعنا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي الخاص بك من حسابك. عنوان base url هو Images بالتنسيق (https://api.cometapi.com/v1/images/generations) عبر CometAPI.

أدرج سؤالك أو طلبك في حقل content—هذا هو ما سيستجيب له النموذج .

الخطوة 3: استرجاع النتائج والتحقق منها

عالج استجابة API للحصول على الإجابة المُولَّدة. بعد المعالجة، تُرجع API حالة المهمة وبيانات المخرجات.

Qwen Imageの機能

Qwen Imageのパフォーマンスと使いやすさを向上させるために設計された主要機能をご紹介します。これらの機能がプロジェクトにどのようなメリットをもたらし、ユーザーエクスペリエンスを改善するかをご確認ください。

Qwen Imageの料金

Qwen Imageの競争力のある価格設定をご確認ください。さまざまな予算や利用ニーズに対応できるよう設計されています。柔軟なプランにより、使用した分だけお支払いいただけるため、要件の拡大に合わせて簡単にスケールアップできます。Qwen Imageがコストを管理しながら、お客様のプロジェクトをどのように強化できるかをご覧ください。
コメット価格 (USD / M Tokens)公式価格 (USD / M Tokens)割引
リクエストごと:$0.028
リクエストごと:$0.035
-20%

Qwen ImageのサンプルコードとAPI

Qwen-Image هو نموذج أساسي لتوليد الصور وتحريرها ضمن عائلة Qwen، وقد صُمم لعرض النصوص بدقة عالية، وإجراء تعديلات دقيقة، وتوليد الصور من النص بشكل عام. وقد صُمم لتنفيذ توليد واعٍ بالنص، وعرض نصوص ثنائي اللغة (ويتميّز بشكل خاص في الصينية والإنجليزية)، وتحرير دقيق داخل السياق. ويؤكد هذا الإصدار على فلسفة تصميم تجمع بين الفهم والتوليد (حيث تُدرَّب مهام فهم الصور والمهام التوليدية ضمن مسار موحّد).

Qwen Imageのバージョン

Qwen Imageに複数のスナップショットが存在する理由としては、アップデート後の出力変動により旧版スナップショットの一貫性維持が必要な場合、開発者に適応・移行期間を提供するため、グローバル/リージョナルエンドポイントに対応する異なるスナップショットによるユーザー体験最適化などが考えられます。各バージョンの詳細な差異については、公式ドキュメントをご参照ください。
version
qwen-image
qwen-image-edit
qwen-image-edit-plus-2025-10-30
qwen-image-max-2025-12-30

その他のモデル