GPT-Image-1.5 API کیا ہے؟
GPT-Image-1.5، OpenAI کے GPT Image خاندان کا نیا رکن ہے اور ChatGPT کے ازسرِنو ترتیب دیے گئے Images تجربے کے پیچھے موجود ماڈل ہے۔ اسے تصویری جنریشن کو محض تجرباتی دلچسپی سے نکال کر پروڈکشن گریڈ تخلیقی ٹولنگ میں منتقل کرنے کے لیے ڈیزائن کیا گیا ہے: اعلیٰ فوٹو ریئلزم، تکراری ترامیم پر باریک کنٹرول، اور انٹرایکٹو و انٹرپرائز ورک فلو کی معاونت کے لیے تیز تر انفرنس۔
gpt-image-1.5 API ایک ملٹی ماڈل امیج ماڈل اینڈ پوائنٹ ہے جو ایک یا زائد امیج اِن پٹس (فائل شناخت کار یا بائٹس) کے ساتھ ایک ٹیکسٹ پرامپٹ قبول کرتا ہے اور جنریٹ کی گئی یا ایڈٹ کی گئی تصاویر واپس کرتا ہے۔ یہ سپورٹ کرتا ہے:
- ٹیکسٹ ٹو امیج جنریشن (پرامپٹ سے تخلیق)،
- امیج ایڈٹنگ / اِن-پینٹنگ / کمپوزٹنگ (موجودہ تصاویر پر ہدایات لاگو کرنا، متعدد امیج اِن پٹس کی اجازت)، اور
- تکراری، ملٹی ٹرن ایڈٹنگ ورک فلو Responses API کے ذریعے (“tweak & iterate” جیسی UI کو ممکن بناتا ہے)۔
API امیج پرامپٹس کو پرانے DALL·E حدود سے مختلف طریقے سے ہینڈل کرتی ہے: GPT امیج ماڈلز نمایاں طور پر طویل ٹیکسٹ پرامپٹس قبول کرتے ہیں (32k کریکٹر گائیڈ لائن)، جس سے پیچیدہ، پابندیوں سے بھرپور ہدایات ممکن ہو جاتی ہیں۔
اہم خصوصیات (عملی)
- بہتر ایڈیٹیبلٹی / ملٹی ٹرن مستقل مزاجی: تکراری ترامیم کے دوران کردار کی ظاہری شکل، لائٹنگ، اور کلیدی بصری اوصاف کو محفوظ رکھتی ہے۔ اس سے “ایک ہی ماڈل، بار بار ایڈٹ” جیسے ورک فلو مثلاً پروڈکٹ کیٹلاگ یا برانڈ اثاثہ جات کے لیے زیادہ قابلِ اعتماد ہو جاتا ہے۔
- زیادہ تھروپٹ — GPT Image 1 کے مقابلے میں 4× رفتار میں بہتری، تاکہ تکراری تخلیقی ورک فلو میں لیٹنسی کم کی جا سکے۔
- لاگت کی بہترے — امیج اِن پٹ/آؤٹ پٹ کی لاگت GPT Image 1 کے مقابلے میں تقریباً 20% کم، جس سے ہائی والیوم صارفین کے فی امیج اٹریشن اخراجات کم ہوتے ہیں۔
- ملٹی امیج کمپوزٹنگ اور اسٹائل ریفرنسنگ — متعدد ریفرنس تصاویر قبول کرتا ہے تاکہ مناظر کو کمپوز کیا جا سکے یا اسٹائل/لائٹنگ ٹرانسفر کی جا سکے۔
- کوالٹی/فیڈیلیٹی کنٹرولز — API پیرامیٹرز جو رفتار اور فیڈیلیٹی کے درمیان ٹریڈ آف فراہم کرتے ہیں (بلک جنریشن کے لیے کم کوالٹی؛ پروڈکشن اثاثہ جات کے لیے زیادہ کوالٹی)۔
- ملٹی ٹرن ایڈٹنگ / Responses API انٹیگریشن — مرحلہ وار ورک فلو ممکن بناتا ہے (تبدیلیاں مانگیں، پھر حالت محفوظ رکھتے ہوئے “چھوٹی ترامیم” کریں)۔
تکنیکی صلاحیتیں
- ٹیکسٹ پرامپٹ حد (امیج ماڈلز): زیادہ سے زیادہ 32,000 کریکٹرز (نوٹ: OpenAI اسے GPT امیج ماڈلز کے لیے ٹیکسٹ لمبائی الاؤنس کے طور پر دستاویزی بناتا ہے)۔ اسے طویل، پابندیوں سے بھرپور پرامپٹس کے لیے استعمال کریں۔
- امیج اِن پٹس: File IDs (ملٹی ٹرن فلو کے لیے موزوں) یا raw bytes قبول کرتا ہے؛ کمپوزٹنگ اور ریفرنس کے لیے متعدد تصاویر فراہم کی جا سکتی ہیں۔
- آؤٹ پٹس: PNG/JPEG یا پلیٹ فارم ڈیفالٹ امیج آرٹی فیکٹس جو API کے ذریعے واپس آتے ہیں (یا ChatGPT کے اندر اٹیچمنٹس کے طور پر)۔ آؤٹ پٹس میں متعدد کینڈیڈیٹ تصاویر شامل ہو سکتی ہیں اور بہتر بنانے کے لیے تکراری درخواستوں کی سپورٹ موجود ہے۔
- جنریشن موڈز: ٹیکسٹ ٹو امیج، امیج ایڈٹنگ (اِن پینٹ/ایکسٹینڈ مع ہدایات)، اور ویریئنٹس۔ ملٹی ٹرن ایڈٹنگ “شامل کریں/کم کریں/جوڑیں” طرز کی ہدایات کو سپورٹ کرتی ہے۔
- انسٹرکشن اویئر ایڈٹنگ: ماڈلز ہدایات کی پابندی کے لیے آپٹمائزڈ ہیں (مخصوص غیر متغیرات مثلاً “لوگو نہ بدلیں”، “پوز اور لائٹنگ برقرار رکھیں” کو محفوظ رکھتے ہیں)۔ پرومپٹ انجینیئرنگ پیٹرنز (ہر اٹریشن میں غیر متغیرات کو واضح طور پر دہرانا) معنوی انحراف کو کم کرتے ہیں۔
بینچ مارک کارکردگی
- لیڈر بورڈ پوزیشننگ: ایک جامع رپورٹ کے مطابق GPT Image 1.5 نے Artificial Analysis لیڈر بورڈ پر ٹیکسٹ ٹو امیج درجہ بندی میں تقریباً ~1264 پوائنٹس کے ساتھ برتری حاصل کی، اگلے ماڈل پر قابلِ پیمائش فرق کے ساتھ۔
- ٹاسک لیول میٹرکس (ایڈٹ اور برقرار رکھنا): Microsoft Foundry کے ایک خلاصے کے مطابق GPT-Image-1.5 نے بائنری ترمیمی کامیابی میں قریباً کامل نتائج (سنگل ٹرن BinaryEval پر 100%) اور چہرہ برقرار رکھنے کے اسکورز (AuraFace پر تقریباً 90%) حاصل کیے، جو ان کے تقابلی جدول میں حریفوں اور سابق OpenAI ماڈلز کے مقابلے میں خاص برتری دکھاتے ہیں۔

GPT-Image-1.5 ہم منصبوں کے مقابلے میں
- GPT Image 1 (سابقہ OpenAI جنریشن) کے مقابلے میں: تیز تر (حدود 4× تک)، سستا (امیج IO لاگت تقریباً 20% کم)، اور ایڈٹ فیڈیلیٹی مضبوط — “پروٹوٹائپ/ڈیمو” سے “پروڈکشن فرینڈلی” امیج ورک فلو کی طرف منتقلی کو ہدف بناتا ہے۔
- Google کے Nano Banana Pro / Gemini امیج ماڈلز کے مقابلے میں: GPT-Image-1.5 اور Google کا Nano Banana Pro / Gemini 3 خاندان قریبی حریف ہیں — ہر ایک مختلف پرامپٹ کلاسز میں مضبوطیاں رکھتا ہے۔ OpenAI کے پیغام میں ایڈٹنگ فیڈیلیٹی اور اٹریشن اسپیڈ پر زور ہے؛ جب کہ Google کی پیشکش کو بعض مثالوں میں اسٹوڈیو لیول ریئلزم کے لیے سراہا گیا ہے۔
- Qwen Image اور دیگر اوپن/کلوزڈ ماڈلز کے مقابلے میں: سنگل ٹرن ایوالویشنز میں کئی ایڈٹ اور پریزرویشن میٹرکس پر GPT-Image-1.5 کی کارکردگی Qwen Image سے بہتر رپورٹ ہوئی ہے، تاہم ملٹی ٹرن یا مخصوص ڈومین ٹیسٹس میں فرق کم ہو جاتا ہے۔
GPT-Image-1.5 کن شعبوں میں مضبوط ہے
- ای کامرس پروڈکٹ امیجنگ: بڑی تعداد میں ویریئنٹس، بیک گراؤنڈ کی تبدیلیاں، ایک ہی تصویر سے مستقل مزاج پروڈکٹ کیٹلاگ (برانڈ/لوگو برقرار رکھنا)۔
- تخلیقی اور مارکیٹنگ اثاثہ جات کی تیاری: تیز تصوراتی اٹریشنز، فوٹو ریئلسٹک ماک اپس، کنٹرولڈ اسٹائل ٹرانسفرز۔
- فوٹو ریٹچنگ اور ایڈیٹوریل ورک فلو: حقیقی معلوم ہونے والے کپڑوں/بالوں کے ٹرائی آنز، ایسی منتخب ریٹچنگ جو شناخت اور لائٹنگ برقرار رکھے۔
- ڈیزائن ٹولنگ انٹیگریشن: ڈیزائن پلیٹ فارمز یا CMS میں پلگ کریں تاکہ آن ڈیمانڈ امیج ویریئنٹس بن سکیں (فیڈیلیٹی کنٹرولز لاگت پر قابو میں مدد دیتے ہیں)۔
- کثیر مرحلہ کمپوزٹنگ پائپ لائنز: ملٹی امیج اِن پٹس پیچیدہ مناظر کی کمپوزٹنگ اور ریفرنس پر مبنی جنریشن کو ممکن بناتے ہیں۔
GPT Image 1.5 API تک کیسے رسائی حاصل کریں
مرحلہ 1: API Key کے لیے سائن اپ کریں
cometapi.com میں لاگ اِن کریں۔ اگر آپ ابھی تک ہمارے صارف نہیں ہیں تو پہلے رجسٹر کریں۔ اپنے CometAPI console میں سائن اِن کریں۔ انٹرفیس کی ایکسس اسناد یعنی API key حاصل کریں۔ ذاتی مرکز میں API token پر “Add Token” پر کلک کریں، ٹوکن key حاصل کریں: sk-xxxxx اور جمع کروائیں۔
مرحلہ 2: GPT Image 1.5 API کو درخواست بھیجیں
API درخواست بھیجنے کے لیے “gpt-image-1.5” اینڈ پوائنٹ منتخب کریں اور ریکوئسٹ باڈی سیٹ کریں۔ ریکوئسٹ میتھڈ اور ریکوئسٹ باڈی ہماری ویب سائٹ کے API ڈاک سے حاصل کیے جا سکتے ہیں۔ ہماری ویب سائٹ آپ کی سہولت کے لیے Apifox ٹیسٹ بھی فراہم کرتی ہے۔ اپنے اکاؤنٹ سے اصل CometAPI key کے ساتھ <YOUR_API_KEY> کو تبدیل کریں۔ base url ہے Images (https://api.cometapi.com/v1/images/generations) اور [Image Editing]
اپنا سوال یا درخواست content فیلڈ میں درج کریں—یہی وہ چیز ہے جس کا ماڈل جواب دے گا۔ API کے ریسپانس کو پروسیس کر کے جنریٹ کیا گیا جواب حاصل کریں۔
مرحلہ 3: نتائج حاصل کریں اور توثیق کریں
API کے ریسپانس کو پروسیس کر کے جنریٹ کیا گیا جواب حاصل کریں۔ پروسیسنگ کے بعد، API ٹاسک اسٹیٹس اور آؤٹ پٹ ڈیٹا کے ساتھ جواب دیتی ہے۔
یہ بھی دیکھیں Gemini 3 Pro Preview API