ما هي واجهة برمجة تطبيقات GPT-Image-1.5؟
GPT-Image-1.5 هو أحدث أفراد عائلة صور GPT والنموذج الذي يقف وراء تجربة الصور المعاد تصميمها في ChatGPT. تم تصميمه لنقل توليد الصور من مرحلة التجارب الطريفة إلى أدوات إبداعية جاهزة للإنتاج: واقعية تصويرية أعلى، وتحكم أدق لعمليات التحرير التكرارية، واستدلال أسرع لدعم التدفقات التفاعلية وتدفقات العمل المؤسسية.
تُعد واجهة gpt-image-1.5 نقطة نهاية لنموذج صور متعدد الوسائط تقبل إدخال صورة واحدة أو أكثر (مُعرّفات ملفات أو بايتات) بالإضافة إلى مطالبة نصية وتُرجع صورًا مولدة أو محررة. وهي تدعم:
- توليد نص إلى صورة (الإنشاء من المطالبة)،
- تحرير الصور / الترميم داخل الصورة / التركيب (تطبيق التعليمات على صور موجودة، مع السماح بعدة صور مرجعية)، و
- تدفقات تحرير تكرارية متعددة الجولات عبر Responses API (تمكّن واجهات “عدّل وكرّر”).
تتعامل الواجهة مع مطالبات الصور بشكل مختلف عن قيود DALL·E القديمة: تقبل نماذج صور GPT مطالبات نصية أطول بكثير (إرشاد 32k للأحرف)، مما يجعل التعليمات المعقدة والغنية بالقيود ممكنة.
الميزات الرئيسية (عمليًا)
- قابلية تحرير محسّنة / اتساق عبر الجولات: تحفظ مظهر الشخصيات، والإضاءة، والسمات البصرية الأساسية عبر التحريرات التكرارية. هذا يجعل “النموذج ذاته مع تحريرات متكررة” أكثر موثوقية لتدفقات العمل مثل كتالوجات المنتجات أو أصول العلامة.
- معدل تمرير أسرع — تحسينات سرعة بمقدار 4× مقارنةً بـ GPT Image 1، بهدف خفض زمن الاستجابة لتدفقات الإبداع التكرارية.
- تحسينات التكلفة — خفض تكاليف إدخال/إخراج الصور بنحو 20% مقارنةً بـ GPT Image 1، ما يقلل تكلفة كل تكرار صورة للمستخدمين ذوي الحجم الكبير.
- التركيب متعدد الصور والإحالة الأسلوبية — قبول عدة صور مرجعية لتركيب المشاهد أو نقل الأسلوب/الإضاءة.
- مقابض ضبط الجودة/الدقة — معاملات في الواجهة توازن بين السرعة والدقة (استخدم جودة أقل للإنتاج بالجملة؛ وجودة أعلى للأصول الإنتاجية).
- تحرير متعدد الجولات / تكامل مع Responses API — يمكّن تدفقات عمل خطوة بخطوة (اطلب تغييرات، ثم “أجرِ تعديلات” مع الحفاظ على الحالة).
القدرات التقنية
- حد المطالبة النصية (لنماذج الصور): حتى 32,000 حرف (ملاحظة: توثق OpenAI هذا على أنه حد طول النص لنماذج صور GPT). استخدمه للمطالبات الطويلة والغنية بالقيود.
- مدخلات الصور: تقبل مُعرّفات الملفات (المفضلة للتدفقات متعددة الجولات) أو البايتات الخام؛ يمكن تقديم عدة صور للتركيب والإحالات المرجعية.
- المخرجات: ملفات PNG/JPEG أو عناصر الصور الافتراضية للمنصة التي تُرجعها الواجهة (أو كمرفقات داخل ChatGPT). يمكن أن تتضمن المخرجات عدة صور مرشحة وتدعم الطلبات التكرارية لتنقيح النتيجة.
- أنماط التوليد: نص إلى صورة، تحرير الصور (الترميم/التمديد وفق التعليمات)، والمتغيرات. يدعم التحرير متعدد الجولات تعليمات نمط “إضافة/طرح/دمج”.
- تحرير واعٍ للتعليمات: النماذج مُحسّنة لالتزام التعليمات (الحفاظ على الثوابت المحددة مثل “لا تغيّر الشعار”، “أبقِ الوضعية والإضاءة”). أنماط هندسة المطالبات (تكرار الثوابت صراحةً في كل تكرار) تقلل الانحراف الدلالي.
أداء المقاييس المرجعية
- الترتيب على لوحة الصدارة: أشار تقرير تجميعي إلى تصدّر GPT Image 1.5 لترتيب النص إلى صورة بـ ~1264 نقطة على لوحة صدارة Artificial Analysis، متقدمًا على أقرب نموذج بفارق ملحوظ.
- مقاييس على مستوى المهام (التحرير والحفظ): يعرض ملخص تقييم من Microsoft Foundry تحقيق GPT-Image-1.5 لنجاح تعديلات ثنائية شبه كامل (100% على BinaryEval أحادي الجولة) ودرجات قوية للحفاظ على الوجوه (حوالي 90% على مقاييس AuraFace) في جدول المقارنة مقابل المنافسين ونماذج OpenAI السابقة. تضع هذه المقارنات GPT-Image-1.5 في موقع متقدم على بعض المنافسين من حيث الحفاظ والدقة في التحرير.

مقارنة GPT-Image-1.5 بالنظراء
- مقارنة بـ GPT Image 1 (الجيل السابق من OpenAI): أسرع (حتى 4×)، أقل تكلفةً (~20% خفض في تكلفة إدخال/إخراج الصور)، ودقة تحرير أقوى — يستهدف الانتقال من “نموذج أولي/عرض” إلى تدفقات صور مناسبة للإنتاج.
- مقارنة بنماذج Google Nano Banana Pro / Gemini للصور: يُعد GPT-Image-1.5 وعائلة Google Nano Banana Pro / Gemini 3 منافسين متقاربين — لكل منهما نقاط قوة في فئات مطالبات مختلفة. تؤكد رسائل OpenAI على دقة التحرير وسرعة التكرار؛ وقد نالت عروض Google استحسانًا لواقعية بمستوى الاستوديو في بعض الأمثلة.
- مقارنة بـ Qwen Image ونماذج أخرى مفتوحة/مغلقة: يتفوّق GPT-Image-1.5 على Qwen Image في عدة مقاييس للتحرير والحفظ في تقييمات أحادية الجولة، لكن الفروق تضيق في التحرير متعدد الجولات أو اختبارات مجالات أخرى محددة.
أين يتفوّق GPT-Image-1.5
- تصوير منتجات التجارة الإلكترونية: إنشاء متغيرات بالجملة، استبدال الخلفيات، كتالوجات منتجات متسقة من صورة واحدة (الحفاظ على العلامة/الشعار).
- إنتاج الأصول الإبداعية والتسويقية: تكرارات سريعة للمفاهيم، نماذج أولية واقعية التصوير، نقل أسلوب مضبوط.
- معالجة الصور وتحسينها تحريريًا: تجارب ملابس/تسريحات شعر واقعية، تحسينات انتقائية مع الحفاظ على الهوية والإضاءة.
- تكامل أدوات التصميم: الاندماج مع منصات التصميم أو أنظمة إدارة المحتوى لإصدار متغيرات صور عند الطلب (أدوات ضبط الدقة تساعد على التحكم في التكلفة).
- خطوط تركيب متعددة الخطوات: تسمح المدخلات متعددة الصور بالتركيب والتوليد المعتمد على مرجع لمشاهد معقدة.
كيفية الوصول إلى واجهة GPT Image 1.5 API
الخطوة 1: التسجيل للحصول على مفتاح API
سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، فيُرجى التسجيل أولًا. سجّل الدخول إلى وحدة تحكم CometAPI. احصل على بيانات اعتماد الوصول لمفتاح API للواجهة. انقر “Add Token” في قسم رموز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.
الخطوة 2: إرسال الطلبات إلى واجهة GPT Image 1.5 API
حدّد نقطة النهاية “gpt-image-1.5” لإرسال طلب API واضبط جسم الطلب. تُستمد طريقة الطلب وجسم الطلب من وثائق API على موقعنا. يوفر موقعنا أيضًا اختبار Apifox لراحتك. استبدل <YOUR_API_KEY> بمفتاح CometAPI الفعلي من حسابك. عنوان URL الأساسي هو Images (https://api.cometapi.com/v1/images/generations) و [تحرير الصور]
أدخل سؤالك أو طلبك في حقل المحتوى—هذا ما سيستجيب له النموذج. عالج استجابة API للحصول على الإجابة المولدة.
الخطوة 3: استرجاع النتائج والتحقق منها
عالج استجابة API للحصول على الإجابة المولدة. بعد المعالجة، تستجيب الواجهة بحالة المهمة وبيانات المخرجات.
انظر أيضًا Gemini 3 Pro Preview API