كشفت OpenAI عن ChatGPT Images 2.0 في 21 أبريل 2026، والمدعوم بالنموذج الجديد GPT Image 2 (gpt-image-2). يمثل هذا الإصدار تحولاً جوهرياً في توليد الصور بالذكاء الاصطناعي، متجاوزاً مخرجات الانتشار السريع نحو إنشاء متأنٍ قائم على الاستدلال. يبرع النموذج في عرض النصوص بدقة، والتخطيطات المعقدة، ودعم اللغات المتعددة، والمرئيات المُهيكلة مثل الإنفوجرافيكس، والشرائح، والخرائط، وأوراق الشخصيات المتسقة.
أكد المختبرون الأوائل ومعايير Image Arena أن GPT Image 2 قد تصدّر المركز الأول عبر قوائم المتصدرين، مع رقم قياسي بتقدم +242 نقطة ELO في فئات التحويل من نص إلى صورة. ويتفوّق على الأسلاف والمنافسين في التزام التعليمات، والطباعة، وجاهزية الإنتاج.
ما هو GPT Image 2؟
GPT Image 2 هو نموذج الصور الأصلي من OpenAI من الجيل التالي (معرّف النموذج: gpt-image-2 / اللقطة gpt-image-2-2026-04-21). وعلى عكس إصدارات DALL·E السابقة، فهو متكامل بعمق مع محرك الاستدلال في ChatGPT (O-series). يتيح له ذلك أن "يفكر" قبل توليد البيكسلات، وأن يخطط للتخطيطات، ويتحقق من المخرجات، بل ويجري بحثاً على الويب للحصول على مراجع مُحدّثة.
أبرز التطورات المعمارية:
- هجينة بين الانحدار التوليدي والاستدلال بدلاً من الاعتماد على الانتشار الخالص.
- دعم أصيل لتحرير الصور، واتساق الصور بالاستناد إلى مرجع، وإخراج متعدد الصور.
- وسم بيانات مدمج للمحتوى المُنشأ بالذكاء الاصطناعي (للأمان والشفافية).
وهو ما يشغّل ChatGPT Images 2.0، والذي يجري طرحه عالمياً لمستخدمي Free وPlus وPro وBusiness وEnterprise وCodex في 21 أبريل 2026.
جرى اختبار النموذج تحت أسماء رمزية مثل “duct tape” على LM Arena (الآن Image Arena) لأسابيع قبل الإطلاق الرسمي، حيث أظهر أداءً متفوقاً في لقطات الشاشة الواقعية، ورموز QR الوظيفية، والترتيبات المعقدة.
يضع GPT Image 2 توليد الصور في موقع "شريك فكري بصري"، قادر على فهم القصد بعمق بدلاً من الاكتفاء بتقريب الأوامر بشكل سطحي.
وضعان: الفوري مقابل التفكيري — سرعتان وقدرتان
تطرح OpenAI GPT Image 2 بنمطين واضحين داخل ChatGPT (قابلين للتبديل في واجهة منشئ الصور):
| الميزة | الوضع الفوري | الوضع التفكيري (للمستخدمين المدفوعين) |
|---|---|---|
| السرعة | 3–8 ثوانٍ لكل صورة | 15–60+ ثانية (وقت الاستدلال) |
| الصور لكل موجه | 1 | حتى 8 صور متتالية ومتسقة |
| الاستدلال / بحث الويب | لا يوجد | استدلال كامل من O-series + بحث حي على الويب |
| التحقق الذاتي / التكرار | أساسي | مراجعة ذاتية كاملة + حلقة تحسين |
| الأفضل لـ | لافتات كثيرة، نماذج أولية، اختبارات سريعة | إنفوجرافيكس معقدة، صفحات مانغا، قصص متعددة المشاهد، حِزم واجهات المستخدم |
| الإتاحة | جميع مستخدمي ChatGPT | Plus / Pro / Business / Enterprise |
| ميزة الجودة | خط أساس ممتاز | إضاءة ونص واتساق أكثر حدّة بشكل ملحوظ |
الوضع الفوري هو الطريق السريع الافتراضي—مثالي للاستخدام اليومي.
الوضع الفوري هو التجربة القياسية للجميع، بينما الوضع التفكيري هو سير العمل الأكثر تقدماً. يستخدم الوضع التفكيري الاستدلال والأدوات لدمج بيانات بحث الويب المباشر، وتوليد صور متعددة من موجه واحد، وإنتاج صورة نهائية أكثر توثيقاً. ويمكن للوضع التفكيري التخطيط لمخرجات الصور وصقلها قبل توليدها.
طريقة عملية لتأطير ذلك هي: الوضع الفوري للسرعة؛ والوضع التفكيري للدقة والاتساق وجودة التركيب.
عملياً، يحوّل الوضع التفكيري إنشاء الصور من ردّ فعل إلى استباق. على سبيل المثال، يمكن لموجه مثل "إنفوجرافيك احترافي عن اتجاهات الذكاء الاصطناعي في 2026" أن يطلق بحثاً على الويب، وعرض بيانات دقيقاً، وتخطيطاً مصقولاً—ميزات كانت تتطلب سابقاً أدوات متعددة أو تحريراً يدوياً.
فهم بنية النص المعقد ودعم اللغات المتعددة
تعاني نماذج توليد الصور المبكرة عادةً من مشكلات نصوص مشوّهة. السبب الجذري كان أن نموذج الانتشار يتعلم أنماط القوام البصري، بينما يشغل النص جزءاً صغيراً جداً من بكسلات الصورة؛ لم يكن النموذج يفهم بنية النص حقاً. لقد حلّت Images 2.0 هذه المشكلة بشكل منهجي.
يحقق GPT Image 2 دقة نصية على مستوى الحرف تبلغ ~99% في اختبارات عمياء—وُصفت بأنها "الفجوة بين GPT Image 2 وNano Banana 2 كبيرة بقدر الفجوة بين Nano Banana 2 وDALL·E".
- اللغات اللاتينية وغير اللاتينية: إنجليزية، صينية، هندية، يابانية، عربية، كورية، إلخ بلا عيوب.
- تخطيطات معقدة: صفحات أولى للصحف بعناوين مقوّسة، نماذج واجهات بعبارات دقيقة، إنفوجرافيكس بجدولات بيانات، وفقاعات حوار للمانغا.
- أمانة طباعية: تقنين فراغات الأحرف الصحيح، مطابقة وزن الخط، المحاذاة، وحتى القيود الأسلوبية الدقيقة ("على نمط تغليف منتجات 2026 Apple").
- تخطيط كثيف وقيود أسلوبية: في التخطيطات متعددة الفقرات والأعمدة وعالية كثافة المعلومات، ستبقى مسافات الحروف والأسطر صحيحة، وستُستعاد بدقة أنماط الخط المختلفة والإحساس اليدوي والمطبوع.
مثال على موجه: "علبة iPhone 17 Pro واقعية بنصوص يابانية وإنجليزية، بدقة 2K، وإضاءة استوديو." تُنتج المخرجات نصاً مقروءاً تماماً—لا مزيد من عيوب "lorem ipsum" المشوشة.

نسبة الأبعاد والدقة والمواصفات التقنية
- الدقة: 2K أصلية (2048×2048 أو ما يكافئها) في ChatGPT؛ حتى 4K تجريبية (4096×4096) عبر API. تعتبر المخرجات فوق 2560×1440 تجريبية لكنها قابلة للاستخدام.
- نِسَب الأبعاد: نطاق مستمر من 3:1 (لافتات عريضة للغاية) إلى 1:3 (قصص طويلة). أي نسبة تكون حوافها مضاعفات 16 بكسل، ونسبة الطويل إلى القصير ≤ 3:1، وإجمالي البكسلات بين 655,360–8,294,400.
- الأحجام الشائعة: 1024×1024، 1536×1024، 2048×1152 (16:9)، 3840×2160 (منظر 4K).
- حدّ المعرفة: ديسمبر 2025. يعمل بحث الويب في الوضع التفكيري على سد الفجوة لأحداث 2026 والعلامات التجارية والمنتجات.
مقارنة مباشرة: GPT Image 2 مقابل Nano Banana 2
كان Nano Banana 2 (Gemini 3.1 Flash Image) من Google هو الملك السابق للسرعة والواقعية الفوتوغرافية. وقد أزاحه GPT Image 2 فوراً.
| الفئة | GPT Image 2 (OpenAI) | Nano Banana 2 (Google) | الفائز |
|---|---|---|---|
| دقة عرض النصوص | ~99% (شبه مثالية) | قوي لكن أقل في غير اللاتيني | GPT Image 2 |
| الاتساق عبر صور متعددة | حتى 8 صور مع قفل الهوية | جيد لكن دعم المرجع محدود | GPT Image 2 |
| التحكم البنيوي / التخطيط | الأفضل في فئته (واجهات، إنفوجرافيكس) | ممتاز | GPT Image 2 |
| الواقعية الفوتوغرافية والسرعة | عالية جداً؛ الوضع الفوري ~3–8 ثوانٍ | أسرع قليلاً، مُحسّن لـ Flash | Nano Banana 2 |
| بحث الويب / الاستدلال | وضع تفكيري مدمج | متاح في مستوى Pro | تعادل |
| الدقة | 2K قياسية، 4K تجريبية | 4K أصلية | Nano Banana 2 |
| Image Arena ELO (التحويل نص→صورة) | #1 مع تقدم +242 | #2 | GPT Image 2 |
| سعر API (تقديري 1024×1024 عالي) | $0.15–0.21 (CometAPI أرخص) | اشتراك + لكل صورة | مسار CometAPI |
الخلاصة: اختر GPT Image 2 للدقة، والنص، والعمل متعدد اللوحات المعقد. اختر Nano Banana 2 عندما تهم السرعة الخام و"الإحساس" الفوتورياليستي أكثر. يوفّر CometAPI كليهما بمفتاح واحد.
مراجعة Image Arena: كيف يقارن GPT Image 2 في التصنيفات العامة
خلال ساعات من الإطلاق، حصد gpt-image-2 المرتبة #1 عبر جميع فئات Image Arena (التحويل من نص إلى صورة، تحرير الصور، إلخ) مع تفوّق غير مسبوق قدره +242 نقطة ELO في لوحة الصدارة الرئيسية للتحويل من نص إلى صورة.
- القياس العام للجمهور هو من أوضح الإشارات على تنافسية هذا الإصدار. على لقطة 19 أبريل من لوحة صدارة Text-to-Image Arena، جاء gpt-image-2 (medium) في المرتبة #1 بدرجة 1512±8، بينما جاء gemini-3.1-flash-image-preview (nano-banana-2) في المرتبة #2 بدرجة 1270±5.
- تحرير صورة واحدة: 1513 نقطة، متقدماً على المركز الثاني Nano-banana-pro (gemini-3-pro-image) بـ 125 نقطة
- تحرير صور متعددة: 1464 نقطة، متقدماً على المركز الثاني Nano-banana-2 بـ 90 نقطة

حققت جميع الفئات الفرعية السبعة المعتمدة على النص المرتبة #1، ما يمثل تحسناً كبيراً على الجيل السابق GPT-Image-1.5-High-Fidelity:
- 1 المنتج، العلامة التجارية والتصميم التجاري، +277 نقطة
- 1 التصوير ثلاثي الأبعاد والنمذجة، +274 نقطة
- 1 الرسوم الكرتونية والأنمي والخيال، +296 نقطة
- 1 الصور الواقعية والسينمائية، +247 نقطة
- 1 الفن، +197 نقطة
- 1 البورتريه، +296 نقطة
- #1 عرض النصوص، +316 نقطة

كيفية الوصول إلى GPT Image 2
داخل ChatGPT:
- سجّل الدخول إلى chatgpt.com (أو التطبيق المحمول).
- ابدأ محادثة جديدة أو استخدم واجهة الصور المخصصة.
- للاستخدام الأساسي: اكتب الموجه وأنشئ (الوضع الفوري متاح لجميع المستخدمين).
- للمتقدمين: اختر “Thinking” من قائمة النموذج المنسدلة (Plus/Pro/Business/Enterprise مطلوبة للحصول على القدرات الكاملة).
- حمّل صوراً مرجعية للتحرير أو نقل الأسلوب.
عبر API (gpt-image-2):
- متاح فوراً في OpenAI API وCodex للمطورين.
- ادمجه في التطبيقات، وسير العمل الآلي، أو الأدوات المخصصة.
- يدعم توليد الصور القياسي والمعلمات المتقدمة للجودة/الدقة.
منصات الطرف الثالث: مزودون مثل fal.ai وPollo AI وComfyUI (عبر عقد شركاء) وغيرهم يقدّمون وصولاً مستضافاً، غالباً مع أدوات إضافية أو حواجز دخول أقل.
للوصول السلس وعالي الحجم عبر API دون إدارة مفاتيح OpenAI مباشرةً، يجمّع CometAPI النماذج الرائدة بما في ذلك GPT Image 2 معادِلاتها وبدائلها. يقدم تسعيراً تنافسياً، ونقاط نهاية موحّدة، ومراقبة استخدام، وتكاملاً سهلاً—مثالي للمطورين الذين يوسّعون توليد الصور في الويب/التطبيقات دون صداع حدود المعدّل أو الفوترة المعقّدة. تفقد لوحة تحكم CometAPI لمعرفة دعم GPT Image 2 الحالي وخطط النماذج المتعددة المجمّعة لدمج مزايا نماذج OpenAI وGoogle.
التسعير: كم يكلف GPT Image 2؟
مستويات اشتراك ChatGPT:
- المستوى المجاني: وصول أساسي للوضع الفوري مع حدود يومية.
- Plus (~$20/الشهر): حدود أعلى + الوضع التفكيري.
- Pro/Team/Enterprise: مخرجات متقدمة، حجم أعلى، وصول أولوية.
تسعير OpenAI API (gpt-image-2):
- إدخال صورة: $8/مليون رمز؛ إخراج صورة: $30/مليون رمز
- إدخال نص: $5/مليون رمز؛ إخراج نص: $10/مليون رمز
- محوّل إلى تكلفة لكل صورة: تقريباً $0.006 إلى $0.211، بحسب جودة المخرجات ودقتها
- دقة API: 2K قياسية، و4K حالياً في المرحلة التجريبية

تسعير CometAPI (اعتباراً من أبريل 2026): $6.4 / 1M (وحدات إدخال/إخراج) — أقل بنسبة 20–40% من الأسعار الرسمية. مثالي لتطبيقات الإنتاج عالية التردد، وأتمتة التسويق، أو منتجات SaaS. كما يقدّم CometAPI Nano Banana 2 بأسعار تنافسية بالثانية، ليمنحك اختبار A/B فوري بين القائدين.
يعالج CometAPI ذلك عبر:
- مفتاح API واحد لأكثر من 500 نموذج متقدم.
- تسعير شفاف قائم على الاستخدام دون حد أدنى.
- صيغة متوافقة مع OpenAI—بديل يُستخدم مباشرةً.
- نقاط نهاية عالمية منخفضة الكمون (يستفيد مستخدمو طوكيو من توجيه محسّن لآسيا).
- موصى به لأحمال العمل الضخمة للتحويل من نص إلى صورة.
سواء كنت تبني أداة تصميم بالذكاء الاصطناعي، أو مُصوّر منتجات للتجارة الإلكترونية، أو محرّك محتوى اجتماعي آلي، فإن CometAPI يوفّر GPT Image 2 (وNano Banana 2) بتكلفة أقل وأسرع من التعامل المباشر. سجّل في CometAPI وابدأ التوليد خلال دقائق.
حالات استخدام عملية ونصائح احترافية
- فرق التسويق: توليد شرائح Instagram مكونة من 8 لوحات أو كتالوجات منتجات كاملة بموجه واحد.
- مصممو UI/UX: لقطات شاشة تطبيقات واقعية بنصوص دقيقة بأي لغة فوراً.
- صنّاع المحتوى: صفحات مانغا، لوحات قصص، ورسوم كتب أطفال مع شخصيات متسقة.
- المعلّمون والمحللون: إنفوجرافيكس، خرائط، تصورات بيانات بنص دقيق.
- نصيحة احترافية: في الوضع التفكيري، أضف "تحقق ذاتي من دقة النص وتوازن التخطيط" إلى الموجه لرفع الدقة أكثر.
مستقبل الذكاء الاصطناعي البصري هنا
GPT Image 2 ليس مجرد نموذج صور آخر—إنه أول مُنشئ بصري حقيقي قائم على الوكلاء. من خلال الجمع بين السرعة الفورية والاستدلال العميق، والنص متعدد اللغات المتقن، والاتساق الدفعي، وضعت OpenAI معياراً جديداً سيسعى المنافسون للحاق به لأشهر.
بالنسبة للأفراد، تجعل واجهة ChatGPT المرئيات الاحترافية في المتناول خلال ثوانٍ. بالنسبة للمطورين والشركات، يوفّر الجمع بين API وCometAPI أداءً-مقابل-تكلفة لا يُضاهى ومرونة عالية.
هل أنت مستعد للبدء في التوليد؟
توجّه إلى chatgpt.com/images للوصول الفوري، أو زر CometAPI للحصول على وصول API بمستوى إنتاج وبأدنى الأسعار. سواء كنت تحتاج لافتة مبهرة واحدة أو 10,000 صورة منتجات يومياً، فإن GPT Image 2 + CometAPI هو التكديس الفائز في 2026.
