ما هو GPT-Image-1.5 API؟
يُعد GPT-Image-1.5 أحدث عضو في عائلة GPT Image من OpenAI، وهو النموذج الذي يقف وراء تجربة Images المُجددة في ChatGPT. صُمم لنقل توليد الصور من مرحلة التجارب الجديدة إلى أدوات إبداعية جاهزة للإنتاج: واقعية تصويرية أعلى، وتحكم أدق في التعديلات التكرارية، واستدلال أسرع لدعم سير العمل التفاعلي وعلى مستوى المؤسسات.
إن gpt-image-1.5 API هي نقطة نهاية لنموذج صور متعدد الوسائط تقبل إدخال صورة واحدة أو أكثر (مُعرّفات ملفات أو بايتات) بالإضافة إلى مطالبة نصية، وتُرجع صورًا مُولَّدة أو صورًا مُعدَّلة. وهي تدعم:
- توليد الصور من النص (الإنشاء من المطالبة)،
- تحرير الصور / in-painting / compositing (تطبيق التعليمات على الصور الموجودة، مع السماح بعدة مدخلات صور)، و
- سير عمل التحرير التكراري متعدد الأدوار عبر Responses API (يمكّن واجهات “التعديل والتحسين” التدريجية).
تتعامل الواجهة البرمجية مع مطالبات الصور بشكل مختلف عن حدود DALL·E القديمة: تقبل نماذج GPT image مطالبات نصية أطول بكثير (إرشاد 32 ألف حرف)، مما يجعل التعليمات المعقدة والمليئة بالقيود ممكنة.
الميزات الرئيسية (عمليًا)
- تحسين قابلية التحرير / الاتساق متعدد الأدوار: يحافظ على مظهر الشخصية، والإضاءة، والسمات البصرية الأساسية عبر التعديلات التكرارية. وهذا يجعل “النموذج نفسه، مع تعديلات متكررة” أكثر موثوقية لسير العمل مثل كتالوجات المنتجات أو أصول العلامة التجارية.
- إنتاجية أسرع — تحسينات سرعة بمقدار 4× مقارنةً بـ GPT Image 1، بهدف تقليل زمن الاستجابة لسير العمل الإبداعي التكراري.
- تحسينات في التكلفة — تم خفض تكاليف إدخال/إخراج الصور بنحو 20% مقارنةً بـ GPT Image 1، مما يقلل تكلفة التكرار لكل صورة للمستخدمين ذوي الحجم الكبير.
- التركيب من عدة صور والإشارة إلى الأنماط — يقبل عدة صور مرجعية لتركيب المشاهد أو نقل النمط/الإضاءة.
- خيارات الجودة/الدقة — معلمات API توازن بين السرعة والدقة (استخدم جودة أقل للتوليد بالجملة؛ وجودة أعلى للأصول الجاهزة للإنتاج).
- التحرير متعدد الأدوار / تكامل Responses API — يمكّن سير العمل المرحلي (طلب تغييرات، ثم “إجراء تعديلات” مع الحفاظ على الحالة).
القدرات التقنية
- حد المطالبة النصية (لنماذج الصور): حتى 32,000 حرف (ملاحظة: توثق OpenAI هذا باعتباره حد طول النص المسموح به لنماذج GPT image). استخدمه للمطالبات الطويلة والمليئة بالقيود.
- مدخلات الصور: تقبل File IDs (مفضلة لتدفقات العمل متعددة الأدوار) أو البايتات الخام؛ ويمكن تقديم عدة صور للتركيب والمرجعية.
- المخرجات: PNG/JPEG أو عناصر صور افتراضية للمنصة تُرجعها API (أو كمرفقات داخل ChatGPT). يمكن أن تتضمن المخرجات عدة صور مرشحة وتدعم الطلبات التكرارية لتحسين الناتج.
- أوضاع التوليد: توليد من النص إلى صورة، وتحرير الصور (inpaint/extend مع تعليمات)، وإنشاء متغيرات. يدعم التحرير متعدد الأدوار تعليمات بأسلوب “إضافة/إزالة/دمج”.
- تحرير مدرك للتعليمات: تم تحسين النماذج للالتزام بالتعليمات (مع الحفاظ على الثوابت المحددة مثل “لا تغيّر الشعار”، “احتفظ بالوضعية والإضاءة”). تقلل أنماط هندسة المطالبات (تكرار الثوابت الصريحة في كل تكرار) من الانحراف الدلالي.
الأداء في المعايير
- الموقع على لوحات الصدارة: أشار تقرير تجميعي إلى تصدر GPT Image 1.5 لتصنيفات تحويل النص إلى صورة بحوالي ~1264 نقطة على لوحة صدارة Artificial Analysis، متقدمًا على النموذج التالي بفارق ملحوظ.
- مقاييس على مستوى المهام (التحرير والحفاظ): يُظهر ملخص Microsoft Foundry لمقاييس التقييم أن GPT-Image-1.5 حقق نجاحًا شبه كامل في التعديل الثنائي (100% في BinaryEval أحادي الدور) ودرجات قوية في الحفاظ على الوجوه (حوالي 90% في مقاييس AuraFace) في جدول المقارنة الخاص بهم مقابل المنافسين ونماذج OpenAI السابقة. وتضع هذه المقاييس المقارنة GPT-Image-1.5 في المقدمة أمام بعض المنافسين من حيث الحفاظ على العناصر ودقة التحرير.

كيف يقارن GPT-Image-1.5 بالمنافسين
- مقارنةً بـ GPT Image 1 (جيل OpenAI السابق): أسرع (حتى 4×)، وأرخص (انخفاض بنحو 20% في تكلفة إدخال/إخراج الصور)، وأقوى في دقة التحرير — وهو موجّه للانتقال من سير عمل صور “النموذج الأولي/العرض التوضيحي” إلى سير عمل “صديق للإنتاج”.
- مقارنةً بـ Nano Banana Pro / Gemini من Google: يُعد GPT-Image-1.5 وNano Banana Pro / Gemini 3 من Google منافسين متقاربين — ولكل منهما نقاط قوة في فئات مختلفة من المطالبات. تؤكد رسائل OpenAI على دقة التحرير وسرعة التكرار؛ بينما حظيت عروض Google بإشادة بسبب الواقعية على مستوى الاستوديو في بعض الأمثلة.
- مقارنةً بـ Qwen Image ونماذج أخرى مفتوحة/مغلقة: يتفوق GPT-Image-1.5 على Qwen Image في عدة مقاييس للتحرير والحفاظ في تقييمات أحادية الدور، لكن الفروق تتقلص في الاختبارات متعددة الأدوار أو الاختبارات الأخرى الخاصة بمجالات معينة.
أين يتفوق GPT-Image-1.5
- تصوير منتجات التجارة الإلكترونية: إنشاء نسخ متعددة بكميات كبيرة، وتبديل الخلفيات، والحفاظ على اتساق كتالوجات المنتجات انطلاقًا من صورة واحدة (مع الحفاظ على العلامة التجارية/الشعار).
- إنتاج الأصول الإبداعية والتسويقية: تكرارات سريعة للمفاهيم، ونماذج واقعية تصويريًا، ونقل أنماط مضبوط.
- تنقيح الصور وسير العمل التحريري: تجارب واقعية للملابس/تسريحات الشعر، وتنقيح انتقائي يحافظ على الهوية والإضاءة.
- تكامل أدوات التصميم: دمجه في منصات التصميم أو CMS لإنشاء متغيرات صور عند الطلب (تساعد خيارات الدقة في التحكم بالتكلفة).
- خطوط أنابيب التركيب متعددة الخطوات: تتيح مدخلات الصور المتعددة التركيب والتوليد المعتمد على المراجع للمشاهد المعقدة.
كيفية الوصول إلى GPT Image 1.5 API
الخطوة 1: التسجيل للحصول على API Key
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيرجى التسجيل أولًا. سجّل الدخول إلى وحدة تحكم CometAPI الخاصة بك. احصل على بيانات الاعتماد للوصول، أي مفتاح API الخاص بالواجهة. انقر على “Add Token” ضمن API token في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.
الخطوة 2: إرسال الطلبات إلى GPT Image 1.5 API
حدّد نقطة النهاية “gpt-image-1.5” لإرسال طلب API وقم بتعيين نص الطلب. يتم الحصول على طريقة الطلب ونص الطلب من وثائق API على موقعنا. كما يوفّر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي الخاص بحسابك. base url هو Images (https://api.cometapi.com/v1/images/generations) و [Image Editing]
أدخل سؤالك أو طلبك في حقل content — فهذا هو ما سيرد عليه النموذج. عالج استجابة API للحصول على الإجابة المُولَّدة.
الخطوة 3: استرداد النتائج والتحقق منها
عالج استجابة API للحصول على الإجابة المُولَّدة. بعد المعالجة، تستجيب API بحالة المهمة وبيانات المخرجات.
راجع أيضًا Gemini 3 Pro Preview API