أعلنت OpenAI عن GPT Image 1.5، نموذجها الرائد الجديد لتوليد الصور وتحريرها، وطرحت تجربة “ChatGPT Images” المُحدَّثة عبر ChatGPT وواجهة البرمجة API. تقدّم OpenAI هذا الإصدار كخطوة نحو إنشاء صور بمستوى الإنتاج: اتباع تعليمات أقوى، وتحريرات أكثر دقة تحافظ على التفاصيل المهمة (الوجوه، الإضاءة، الشعارات)، ومخرجات أسرع بما يصل إلى 4×، وتكاليف إدخال/إخراج الصور أقل في الـ API. الخبر السار هو أن CometAPI قد دمجت GPT-image 1.5 (gpt-image-1.5) وتقدّم سعراً أقل من OpenAI.
ما هو GPT Image 1.5؟
GPT Image 1.5 هو أحدث جيل من نماذج الصور لدى OpenAI، أُطلق كمحرّك وراء تجربة ChatGPT Images المُعاد بناؤها وأُتيح عبر واجهة OpenAI API باسم gpt-image-1.5. لا تضعه OpenAI كأداة فنون للعرض فقط، بل كاستوديو إبداعي جاهز للإنتاج: يهدف إلى إجراء تعديلات دقيقة وقابلة للتكرار ودعم سير العمل مثل كتالوجات التجارة الإلكترونية، وإنشاء متغيرات لأصول العلامة، وخطوط أصول إبداعية، والنمذجة السريعة. يبرز صراحةً التقدم في الحفاظ على تفاصيل الصورة المهمة — الوجوه، الشعارات، الإضاءة — وفي اتباع تعليمات التحرير خطوة بخطوة.
تفصيلان تشغيليان جديران بالتذكر: يعرض GPT Image 1.5 الصور بسرعة تصل إلى أربعة أضعاف سلفه، كما أن إدخالات/إخراجات الصور أرخص بنحو ~20% في الـ API مقارنةً بـ GPT Image 1.0 — وكلاهما مهم للفرق التي تُكرر كثيراً. تضيف واجهة ChatGPT Images الجديدة أيضاً مساحة عمل جانبية مخصصة، ومرشحات مضبوطة مسبقاً ومطالبات رائجة، وميزة تحميل “الشبه” لمرة واحدة للتخصيصات المتكررة.
كيف تطوّر GPT Image 1.5 انطلاقاً من نماذج الصور السابقة لدى OpenAI؟
انتقلت سلسلة نماذج الصور لدى OpenAI من DALL·E → عبر تجارب صور داخلية متعددة → إلى GPT Image 1 (ومتغيرات أصغر). مقارنةً بالنماذج السابقة (مثل GPT-image-1 ومكدسات الصور السابقة في ChatGPT)، فإن 1.5 مُحسَّن صراحةً من أجل:
- اتباع تعليمات أكثر إحكاماً — يلتزم النموذج بالتوجيهات النصية بدقة أكبر.
- تحسين موثوقية تحرير الصور — يحافظ على التكوين والملامح الوجهية والإضاءة والشعارات عبر عمليات التحرير بحيث تبقى التعديلات المتكررة متسقة.
- استدلال أسرع وأرخص — تزعم OpenAI تحسينات سرعة تصل إلى 4× مقارنة بالنموذج السابق وتخفيض تكاليف الرموز/الصور لعمليات الإدخال والإخراج.
باختصار: بدلاً من التعامل مع توليد الصور كـ “لعبة فنية” لمرة واحدة، تدفع OpenAI نماذج الصور نحو أدوات قابلة للتنبؤ والتكرار لفرق الإبداع وسير عمل المؤسسات.
الميزات الرئيسية في GPT Image 1.5
قدرات التحرير والحفاظ على الصورة
يؤدي GPT Image 1.5 بقوة عبر عدة لوائح متصدرين لتوليد الصور وتحريرها منذ الإطلاق. تشير تقارير LMArena إلى تصدّر GPT Image 1.5 أو اقترابه من القمة في قوائم النص-إلى-صورة وتحرير الصور، متقدماً أحياناً بفارق بسيط على منافسين مثل Nano Banana Pro من Google.

من أبرز الميزات في GPT Image 1.5 التحرير الدقيق الذي يحافظ على “ما يهم”: عندما تطلب من النموذج تغيير كائن أو سمة معينة فإنه يسعى لتغيير ذلك العنصر فقط مع الإبقاء على التكوين والإضاءة ومظهر الأشخاص ثابتة عبر التعديلات. بالنسبة للعلامات التجارية وفِرق التجارة الإلكترونية يترجم ذلك إلى تقليل اللمسات اليدوية بعد التعديلات المؤتمتة.
ما مدى سرعته وماذا يعني "أسرع 4×"؟
تفيد OpenAI بأن توليد الصور في ChatGPT Images أسرع بما يصل إلى 4× من السابق، مع ~20% انخفاضاً في تكاليف إدخال/إخراج الصور في الـ API مقارنةً بـ GPT Image 1. هذا ادعاء على مستوى المنتج: زمن العرض الأسرع يعني أنه يمكنك تكرار المزيد من الصور في الجلسة نفسها، والبدء في عمليات توليد إضافية بينما لا تزال أخرى قيد المعالجة، وتقليل الاحتكاك في سير العمل الاستكشافي. الاستدلال الأسرع لا يقلل زمن الاستجابة للمستخدمين النهائيين فحسب، بل يخفض أيضاً الطاقة لكل طلب والتكلفة التشغيلية للنشر. ملاحظة: تعني عبارة “حتى” أن المكاسب الواقعية ستعتمد على تعقيد المطالبة، وحجم الصورة، وحِمل النظام.
تحسّن اتباع التعليمات وعرض النص داخل الصور
اتباع تعليمات أقوى مقارنةً بـ GPT Image 1.0: أصبح النموذج أفضل في تفسير المطالبات متعددة الخطوات والاحتفاظ بنيّة المستخدم عبر سلاسل من التعديلات. كما يبرزون تحسناً في عرض النصوص (نص مقروء مضمن في الصور) وفي عرض الوجوه الصغيرة، لكنّه ما يزال يشير إلى حدود في بعض الحالات الطرفية متعددة اللغات/عرض النص، ومع ذلك يهدف إجمالاً إلى سد الفجوة القديمة حيث كانت الصور المولَّدة تنتج لافتات غير مقروءة أو غير منطقية.
GPT Image 1.5 مقابل Nano Banana Pro (Google) مقابل Qwen-Image (Alibaba)؟
ما هو Nano Banana Pro من Google؟
Nano Banana Pro (يُسوَّق ضمن عائلة Gemini من Google تحت اسم Gemini 3 Pro Image / Nano Banana Pro) هو نموذج صور بمستوى الاستوديو من Google/DeepMind. تؤكد Google على تميّزه في عرض النصوص، وتأليف صور متعددة (دمج صور كثيرة في صورة واحدة)، والتكامل مع قدرات Gemini الأوسع (إسناد إلى البحث، ترجمات مدركة للمحليّة، وسير عمل مؤسسي ضمن Vertex AI). يهدف Nano Banana Pro ليكون جاهزاً للإنتاج للمصممين الذين يحتاجون تخطيط نص عالي الدقة وقابلية تنبؤ داخل الصور.
ما هو Qwen-Image؟
Qwen-Image (من عائلة Qwen/Tongyi) هو نموذج صور من Alibaba تم تقييمه عبر معايير أكاديمية وعامة. يوثّق التقرير التقني لفريق Qwen أداءً قوياً عبر معايير متعددة (GenEval، DPG، OneIG-Bench) ويبرز نقاط قوة خاصة في فهم المطالبات، وعرض النصوص متعددة اللغات (لا سيما الصينية)، والتحرير المتين. غالباً ما يُذكر Qwen-Image كأحد الخيارات الرائدة مفتوحة المصدر/الملائمة للمؤسسات خارج الشركات السحابية الأميركية.
مواجهة مباشرة: أين يتألق كل نموذج
- GPT Image 1.5 (OpenAI) — نقاط القوة: توليد سريع، اتباع تعليمات قوي في سير العمل متعدد الخطوات، تجربة مستخدم ChatGPT متكاملة جيداً، وإتاحة واسعة عبر الـ API. تضعه المقاييس المبكرة في القمة أو قريباً جداً منها في مقاييس التوليد والتحرير المجمّعة؛ تركّز OpenAI على تقديمه كـ “استوديو إبداعي” للإنتاجية العملية.
- Nano Banana Pro (Google) — نقاط القوة: عرض نصوص استثنائي وتكاملات مؤسسية (Vertex AI، Google Workspace)، توطين قوي وميزات تركيب متعدد الصور، وضوابط بمستوى الاستوديو لزاوية/إضاءة/نسبة/مخرجات 2K. تؤكد Google على فائدة النموذج لسلاسل التسويق/التوطين والإخراج الدقيق للبوسترات/النماذج.
- Qwen-Image (Alibaba) — نقاط القوة: أداء متقاطع عبر مجموعات بيانات دولية، تقارير تقنية مفتوحة، وعرض نصوص متعدد اللغات قوي. يُعد خياراً مقنعاً للمطورين والمؤسسات التي تركز على الأسواق الآسيوية والفرق التي تبحث عن نتائج قياس شفافة.
فروقات عملية سيلاحظها المطورون
- واجهات وبرامج التكامل: تطرح OpenAI GPT Image 1.5 عبر Image API وResponses API؛ وتطرح Google Nano Banana Pro عبر Gemini/Vertex؛ وتنشر Alibaba وثائق النموذج ونقاط نهاية العرض. تختلف الأسعار وحدود المعدل عبر المزوّدين وستؤثر على تكاليف الإنتاج وقرارات الإنتاجية.
- المفاضلة بين التحكم والسرعة: يقدّم بعض المزوّدين أوضاع “سريع/فلاش” مقابل “تفكير/احترافي” — على سبيل المثال، Nano Banana (سريع) مقابل Nano Banana Pro (تفكير). توحي رسائل OpenAI بأن GPT Image 1.5 يقلل الحاجة العملية للمفاضلة بين الجودة والسرعة، لكن ضبط التكلفة/الأداء سيظل مهماً للتوليد بالجملة.
كيفية الوصول إلى GPT Image 1.5 واستخدامه
هناك طريقتان للوصول إلى GPT Image 1.5:
ChatGPT (واجهة المستخدم) — يشغّل GPT Image 1.5 تجربة ChatGPT Images الجديدة (علامة التبويب Images). استخدمها للتوليد من نص، ورفع الصور وإجراء تعديلات، أو التكرار بشكل تفاعلي.
API — استخدم Image API (/v1/images/generations و/v1/images/edits) لتوليد الصور وتحريرها باستخدام gpt-image-1.5. تكون الاستجابات عبارة عن صور مُرمّزة بصيغة base64 لنماذج صور GPT.
الخبر السار هو أن CometAPI قد دمجت GPT-image 1.5 (gpt-image-1.5) وتقدّم سعراً أقل من OpenAI. يمكنك استخدام CometAPI لاستخدام ومقارنة Nano banana pro وQwen image في الوقت نفسه.
ما هي حالات الاستخدام العملية وسير العمل الموصى بها؟
حالات استخدام تستفيد أكثر
- التجارة الإلكترونية وفهرسة المنتجات: إنشاء العديد من صور المنتج المتسقة من عيّنة واحدة، وتبديل الخلفيات، والحفاظ على الإضاءة والسمات ثابتة عبر الصور. يساعد ثبات التحرير في GPT Image 1.5 هنا.
- إبداعيات الإعلانات والتكرار السريع: يقلّل التوليد الأسرع زمن الدورة لنسخ A/B الإبداعية.
- تنقيح الصور والتوطين: تبديل الدعائم أو الأزياء مع الحفاظ على هوية العارض/العارضة من أجل حملات مُوطّنة حسب المناطق.
- نمذجة التصاميم وفن المفاهيم: يدعم النموذج مخرجات فوتورية وعالية الأسلوب، وهو مفيد للاستكشاف المفاهيمي في المراحل المبكرة.
من يستفيد أكثر من GPT Image 1.5؟
- صانعو المحتوى وفرق وسائل التواصل الاجتماعي الذين يحتاجون تعديلاً وتحوّلات إبداعية سريعة ومتكررة.
- المصممون وفرق المنتج الذين ينمذجون أصول UI/UX، وصور الواجهة، أو نماذج إعلانات تتطلب مسودات سريعة.
- فرق التجارة الإلكترونية التي تقوم بنماذج منتجات (تجربة الملابس افتراضياً، تبديل الخلفيات، تراكب النصوص).
- المطورون الذين يبنون تجارب محادثة قائمة على الصور (مثل محرري الصور المعتمدين على الدردشة، وأتمتة التسويق).
سير عمل مقترح للمبدعين
- جرّب في ChatGPT Images لصقل التعليمات (استخدم القوالب المسبقة لاكتشاف الأساليب).
- ثبّت لقطة في استخدام الـ API لاستقرار الإنتاج (
gpt-image-1.5-YYYY-MM-DD). - شغّل اختبارات A/B مضبوطة تقارن مخرجات النموذج وتكاليف المعالجة البشرية اللاحقة.
- ادمج فحوصات الإشراف وعنصر المراجعة البشرية للمهام الحساسة للعلامة أو السلامة.
اعتبارات التكلفة والأداء
يمكن أن يقلّل التوليد الأسرع زمن الاستجابة و(اعتماداً على التسعير) تكلفة الصورة الواحدة، لكن على الاستخدام المؤسسي قياس كلٍ من الإنتاجية وتسعير الرموز/الحوسبة.
السلامة والتحيّز والهلوسة
يقلّل GPT Image 1.5 بعض أنماط الفشل (تعديلات سيئة، وجوه غير متسقة) لكنه لا يقضي على المخرجات المُهلوسة أو المتحيّزة. مثل النماذج التوليدية الأخرى، قد يُعيد إنتاج تحيزات ثقافية أو ينتج تصويراً غير دقيق إذا كانت المطالبات غير محددة جيداً. نفّذ حواجز أمان: مرشحات المحتوى، مراجعة بشرية، وأطقم اختبارات تعكس الحالات الطرفية المتوقعة.
الخلاصة — هل يجدر بك تجربة GPT Image 1.5؟
إذا كان مشروعك يحتاج توليد صور عالي الجودة أو تحريراً قوياً ومتكرراً ضمن سير عمل محادثي (على سبيل المثال: إبداعات تسويقية، نماذج منتجات، تجربة ارتداء افتراضي، أو SaaS ممكّن بالصور pro.
للبدء، استكشف قدرات GPT Image 1.5 في Playground واطّلع على دليل API للحصول على إرشادات مفصلة. قبل الوصول، يرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. تقدّم CometAPI سعراً أقل بكثير من السعر الرسمي لمساعدتك على الدمج.
Ready to Go?→ Free trial of GPT image 1.5 models !
