اگست 2025 کے آخر میں گوگل (ڈیپ مائنڈ) جاری ہوا۔ جیمنی 2.5 فلیش امیج - بڑے پیمانے پر عرفی نام "نینو کیلا" — ایک کم لیٹنسی، اعلیٰ معیار کی امیج جنریشن + ایڈیٹنگ ماڈل جو Gemini ایپ، Google AI Studio، Gemini API اور CometAPI میں ضم کیا گیا ہے۔ اسے فوٹو ریئلسٹک امیجز بنانے، تمام ترامیم میں کردار کی مستقل مزاجی کو برقرار رکھنے، متعدد ان پٹ امیجز کو فیوز کرنے اور قدرتی زبان کے اشارے کے ذریعے عمدہ، مقامی ترمیمات کرنے کے لیے ڈیزائن کیا گیا ہے۔ ماڈل پیش نظارہ / ابتدائی GA میں دستیاب ہے اور حفاظتی میکانزم (SynthID واٹر مارکنگ اور پروڈکٹ لیول فلٹرز) کے ساتھ شپنگ کے دوران پہلے سے ہی امیج لیڈر بورڈز (LMArena) کو ٹاپ کر رہا ہے۔
جیمنی 2.5 فلیش امیج (عرف "نانو کیلا") کیا ہے؟
جیمنی 2.5 فلیش امیج — کھیل کے ساتھ عرفی نام نینو کیلا — جیمنی فیملی میں گوگل ڈیپ مائنڈ کا تازہ ترین تصویر بنانے اور ترمیم کرنے کا ماڈل ہے۔ اگست 2025 کے آخر میں اعلان کیا گیا، اس ماڈل کو ایک پیش نظارہ ریلیز کے طور پر رکھا گیا ہے جو کہ اعلیٰ فیڈیلیٹی ایڈیٹس، ملٹی امیج فیوژن، بہتر کردار کی مستقل مزاجی (متعدد ترامیم میں ایک ہی شخص/پالتو جانور/آبجیکٹ کو قابل شناخت رکھنا)، اور جیمنی کے ملٹی موڈل ٹول سیٹ میں کم لیٹینسی امیج جنریشن لاتا ہے۔ یہ انٹرپرائز صارفین کے لیے Gemini API، Google AI Studio، Gemini موبائل/ویب ایپس، اور Vertex AI کے ذریعے دستیاب ہے۔
اصل اور نام
"نانو کیلے" کا عرفی نام سوشل فیڈز اور کمیونٹی لیڈر بورڈز پر ایک وائرل شارٹ ہینڈ بن گیا جب ابتدائی ٹیسٹرز اور LMArena کے اندراجات نے پھلوں پر مشتمل لیبل استعمال کیا۔ گوگل نے کنکشن کی تصدیق کی اور اپنے ڈویلپر اور پروڈکٹ کی پوسٹس میں عوامی طور پر چنچل ہینڈل کو قبول کیا۔ سرکاری پروڈکٹ کا نام ہے۔ جیمنی 2.5 فلیش امیج اور آپ کو عام طور پر کوڈ اور API کالز میں استعمال ہونے والا ماڈل شناخت کنندہ نظر آئے گا (پیش نظارہ کے استعمال کے لیے یہ ظاہر ہوتا ہے جیسے gemini-2.5-flash-image-preview).
جیمنی 2.5 فلیش امیج کی ہیڈ لائن کی خصوصیات کیا ہیں؟
"کردار کی مستقل مزاجی" کا اصل مطلب کیا ہے؟
مارکی صلاحیتوں میں سے ایک ہے۔ کردار کی مطابقت: آپ ماڈل سے ایک ہی موضوع (ایک شخص، پالتو جانور، شوبنکر، یا پروڈکٹ) کو کئی ترمیمات یا نئے مناظر میں دوبارہ استعمال کرنے کے لیے کہہ سکتے ہیں جبکہ شناختی بصری خصوصیات (چہرہ/شکل، رنگ پیلیٹ، امتیازی نشانات) کو محفوظ رکھتے ہوئے یہ پہلے کے تصویری ماڈلز میں ایک عام کمزوری کو دور کرتا ہے جہاں بعد میں ہونے والی ترامیم سے بصری طور پر قابل فہم لیکن نمایاں طور پر مختلف افراد/اشیاء پیدا ہوں گے۔ اس لیے ڈویلپرز کم دستی اصلاح کے ساتھ پروڈکٹ کیٹلاگ، ایپی سوڈک کہانی سنانے، یا برانڈ اثاثہ تیار کرنے کے لیے ورک فلو بنا سکتے ہیں۔
کون سے دوسرے ایڈیٹنگ کنٹرولز شامل ہیں؟
جیمنی 2.5 فلیش امیج سپورٹ کرتا ہے:
- ھدف شدہ مقامی ترامیم سادہ زبان کے اشارے کے ذریعے (کسی چیز کو ہٹا دیں، لباس تبدیل کریں، جلد کو دوبارہ چھوئیں، پس منظر کے عنصر کو ہٹا دیں)۔
- ملٹی امیج فیوژن: ایک مربوط کمپوزیشن میں تین ان پٹ امیجز کو یکجا کریں (مثال کے طور پر، روشنی کو محفوظ رکھتے ہوئے تصویر A سے ایک پروڈکٹ کو منظر B میں ڈالیں)۔
- اسٹائل اور فارمیٹ کنٹرولز: فوٹو ریئلسٹک ہدایات، کیمرہ اور لینس کی خصوصیات، پہلو کا تناسب، اور اسٹائلائزڈ آؤٹ پٹس (تمثال، اسٹیکر، وغیرہ)۔
- مقامی دنیا کا علم: ماڈل جیمنی خاندان کے وسیع تر علم سے فائدہ اٹھاتا ہے تاکہ وہ سیمینٹک طور پر آگاہی میں ترمیم کر سکے (مثلاً، سمجھیں کہ "رینائسنس لائٹنگ" یا "ٹوکیو کراس واک" کا مطلب کیا ہے)۔
رفتار، لاگت اور دستیابی کے بارے میں کیا خیال ہے؟
جیمنی 2.5 فلیش امیج جیمنی 2.5 کے فلیش ٹائر کا حصہ ہے—مضبوط معیار کو برقرار رکھتے ہوئے کم تاخیر اور لاگت کے لیے موزوں ہے۔ گوگل نے امیج آؤٹ پٹ ٹوکنز کے لیے قیمتوں کا جائزہ لیا ہے اور API اور AI اسٹوڈیو کے ذریعے دستیابی فراہم کی ہے۔ انٹرپرائز کے صارفین ورٹیکس اے آئی کے ذریعے اس تک رسائی حاصل کر سکتے ہیں۔ اعلان کے وقت جیمنی 2.5 فلیش امیج ٹائر کے لیے شائع شدہ قیمتوں کا تعین کیا گیا تھا۔ $30 فی 1M آؤٹ پٹ ٹوکن, ایک مثال کے ساتھ فی تصویری لاگت کے طور پر رپورٹ کیا گیا ہے۔ 1290 آؤٹ پٹ ٹوکن ≈ $0.039 فی تصویر.
جیمنی 2.5 فلیش امیج ہڈ کے نیچے کیسے کام کرتا ہے؟
فن تعمیر اور تربیت کا طریقہ
جیمنی 2.5 فلیش امیج کو جیمنی 2.5 فیملی فن تعمیر کا ورثہ ملتا ہے: ماہرین کا ایک ویرل مرکب (MoE) طرز کی بیک بون ملٹی موڈل ٹریننگ کے ساتھ جو متن، تصویر، آڈیو اور دیگر ڈیٹا کو یکجا کرتی ہے۔ گوگل نے فلیش امیج کو بہت بڑے، فلٹر شدہ ملٹی موڈل کارپورا پر تربیت دی اور امیج کے کاموں (جنریشن، ایڈیٹنگ، فیوژن) اور حفاظتی رویے کے لیے ماڈل کو ٹھیک بنایا۔ ٹریننگ گوگل کے TPU فیبرک پر چلائی گئی اور خودکار اور انسانی فیصلے دونوں میٹرکس سے جانچی گئی۔
گفتگو سے چلنے والی ترمیم
اعلیٰ سطح پر، ماڈل متعلقہ کنڈیشنگ کا استعمال کرتا ہے: جب آپ ایک تصویر (یا متعدد تصاویر) کے علاوہ ٹیکسٹ پرامپٹ فراہم کرتے ہیں، تو ماڈل موضوع کی بصری شناخت کو اس کی اندرونی نمائندگی میں انکوڈ کرتا ہے۔ بعد میں ہونے والی ترامیم یا نئے مناظر کے دوران، یہ اس نمائندگی پر جنریشن کی شرط لگاتا ہے اس لیے مطلوبہ بصری صفات (چہرے کی جیومیٹری، کلیدی لباس یا مصنوعات کی شناخت کرنے والے، رنگ پیلیٹ) محفوظ رہتے ہیں۔ عملی اصطلاحات میں یہ Gemini API کے ذریعے سامنے آنے والی ملٹی موڈل مواد پائپ لائن کے حصے کے طور پر لاگو کیا جاتا ہے: آپ ترمیمی ہدایات کے ساتھ حوالہ جات کی تصاویر بھیجتے ہیں اور ماڈل ایک جواب میں ترمیم شدہ امیج آؤٹ پٹس (یا متعدد امیدواروں کی تصاویر) واپس کرتا ہے۔
واٹر مارکنگ اور پرووننس
گوگل حفاظتی اور مواد کی پالیسی کے فلٹرز کو جیمنی 2.5 فلیش امیج میں ضم کرتا ہے۔ ریلیز میں نقصان دہ نتائج کو کم سے کم کرتے ہوئے مندرجہ ذیل ہدایات کے لیے تشخیص اور ریڈ ٹیمنگ، خودکار فلٹرنگ کے اقدامات، نگرانی شدہ فائن ٹیوننگ اور کمک سیکھنے پر زور دیا گیا ہے۔ آؤٹ پٹس میں ایک غیر مرئی SynthID واٹر مارک شامل ہوتا ہے تاکہ ماڈل کے ذریعہ تیار کردہ یا ترمیم شدہ تصاویر کو بعد میں AI سے تیار کردہ کے طور پر شناخت کیا جاسکے۔
یہ کتنی اچھی کارکردگی کا مظاہرہ کرتا ہے؟ (بینچ مارک ڈیٹا)
جیمنی 2.5 فلیش امیج (کچھ بینچ مارکنگ سیاق و سباق میں "نینو کیلے" کے طور پر مارکیٹ کیا گیا) پہنچ گیا LMArena کے امیج ایڈیٹ اور ٹیکسٹ ٹو امیج لیڈر بورڈز پر #1 اگست 2025 کے آخر تک، رپورٹ شدہ موازنہ میں بڑے Elo/ترجیح حریفوں پر برتری کے ساتھ۔ میں LMArena اور GenAI-Bench انسانی تشخیص کے نتائج کا حوالہ دیتا ہوں جو ٹیکسٹ ٹو امیج اور امیج ایڈیٹنگ دونوں کاموں کے لیے اعلی ترجیحی اسکور دکھاتا ہے۔
متن سے تصویر کا موازنہ
| قابلیت کا بینچ مارک | جیمنی فلیش 2.5 امیج | تصویر 4 الٹرا 06-06 | ChatGPT 4o / GPT امیج 1 (اعلی) | FLUX.1 Context | جیمنی فلیش 2.0 امیج |
|---|---|---|---|---|---|
| مجموعی ترجیح (LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| بصری معیار (GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| متن سے تصویر کی سیدھ (GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
تصویری ترمیم
| قابلیت کا بینچ مارک | جیمنی فلیش 2.5 امیج | ChatGPT 4o / GPT امیج 1 (اعلی) | FLUX.1 Context | Qwen تصویر میں ترمیم کریں | جیمنی فلیش 2.0 امیج |
|---|---|---|---|---|---|
| مجموعی ترجیح (LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| کریکٹر | 1170 | 1059 | 1010 | 911 | 850 |
| تخلیقی | 1112 | 1057 | 968 | 983 | 879 |
| infographics میں | 1067 | 1029 | 967 | 1012 | 925 |
| آبجیکٹ / ماحولیات | 1064 | 1023 | 1002 | 1010 | 901 |
| پروڈکٹ ری سیاق و سباق | 1128 | 1032 | 943 | 1009 | 888 |
| اسٹائلائزیشن | 1062 | 1165 | 949 | 1091 | 733 |

عملی طور پر ان معیارات کا کیا مطلب ہے؟
بینچ مارکس ہمیں دو چیزیں بتاتے ہیں: (1) ماڈل فوٹو ریئلسٹک جنریشن میں مسابقتی ہے اور (2) یہ ترمیم وہ کام جہاں کردار کی مستقل مزاجی اور فوری پابندی اہم ہے۔ انسانی ترجیحی درجہ بندی اس بات کی نشاندہی کرتی ہے کہ آؤٹ پٹس دیکھنے والے صارفین نے جیمنی کے آؤٹ پٹس کو حقیقت پسندی کے لیے اعلیٰ درجہ دیا اور بہت سے جانچے گئے اشارے میں ہدایات کے ساتھ سیدھ میں رکھا۔ تاہم، معلوم حدود کے بارے میں واضح (حقیقی تفصیلات پر فریب کاری کا خطرہ، تصویروں کے اندر طویل شکل کا متن پیش کرنا، اسٹائل ٹرانسفر ایج کیسز) - لہذا بینچ مارک ایک رہنما ہیں، ضمانت نہیں۔
آپ جیمنی 2.5 فلیش امیج کے ساتھ کیا کر سکتے ہیں (کیسز استعمال کریں)؟
جیمنی 2.5 فلیش امیج واضح طور پر تخلیقی، پیداواری صلاحیت، اور اپلائیڈ امیجنگ منظرناموں کے لیے بنائی گئی ہے۔ عام اور ہنگامی استعمال کے معاملات میں شامل ہیں:
ریپڈ پروڈکٹ موک اپس اور ای کامرس
پروڈکٹ کی تصاویر کو مناظر میں گھسیٹیں، ماحول میں مسلسل کیٹلاگ کی تصویر کشی کریں، یا پروڈکٹ لائن میں رنگوں/فیبرکس کو تبدیل کریں — یہ سب کچھ پروڈکٹ کی شناخت کو محفوظ رکھتے ہوئے کریں۔ ملٹی امیج فیوژن فیچرز اور کردار/مصنوعات کی مستقل مزاجی اسے کیٹلاگ ورک فلو کے لیے پرکشش بناتی ہے۔
فوٹو ری ٹچنگ اور ٹارگٹڈ ایڈیٹس
اشیاء کو ہٹا دیں، داغوں کو ٹھیک کریں، کپڑے/لوازمات کو تبدیل کریں، یا قدرتی زبان کے اشارے کے ساتھ روشنی میں تبدیلی کریں۔ مقامی ترمیم کی اہلیت غیر ماہرین کو بات چیت کے حکموں کا استعمال کرتے ہوئے پیشہ ورانہ طرز کی تزئین و آرائش کرنے دیتی ہے۔
اسٹوری بورڈنگ اور بصری کہانی سنانا
ایک ہی کردار کو مختلف مناظر میں رکھیں اور ان کی شکل کو مستقل رکھیں (کامکس، اسٹوری بورڈز یا پچ ڈیک کے لیے مفید)۔ تکراری ترامیم تخلیق کاروں کو شروع سے اثاثوں کی تعمیر نو کے بغیر مزاج، فریمنگ اور بیانیہ کے تسلسل کو بہتر بنانے دیتی ہیں۔
تعلیم، خاکے، اور ڈیزائن پروٹو ٹائپنگ
کیونکہ یہ متن کے اشارے اور تصاویر کو یکجا کر سکتا ہے اور "عالمی علم" رکھتا ہے، ماڈل تشریح شدہ خاکے، تعلیمی بصری، یا پریزنٹیشنز کے لیے فوری موک اپ بنانے میں مدد کر سکتا ہے۔ گوگل AI اسٹوڈیو میں ٹیمپلیٹس کو بھی ہائی لائٹ کرتا ہے جیسے کہ استعمال کے معاملات جیسے کہ رئیل اسٹیٹ مک اپس اور پروڈکٹ ڈیزائن۔
آپ Nano Banana API کیسے استعمال کرتے ہیں؟
ذیل میں عملی ٹکڑوں سے ڈھال لیا گیا ہے۔ CometAPI API دستاویزات اور گوگل کے API دستاویزات۔ وہ عام بہاؤ کا مظاہرہ کرتے ہیں: متن سے تصویر اور تصویر + متن سے تصویر (ترمیم) سرکاری GenAI SDK یا REST اینڈ پوائنٹ کا استعمال کرتے ہوئے
نوٹ: CometAPI کے دستاویزات میں پیش نظارہ ماڈل کا نام بطور ظاہر ہوتا ہے۔
gemini-2.5-flash-image-preview. نیچے دی گئی مثالیں SDK کی آفیشل مثالوں (Python اور JavaScript) اور REST curl کی مثالوں کی بازگشت کرتی ہیں۔ چابیاں اور فائل کے راستوں کو اپنے ماحول کے مطابق ڈھالیں۔
CometAPI سے REST curl کی مثال
Gemini کا آفیشل استعمال کریں۔ generateContent متن سے تصویر بنانے کے لیے اختتامی نقطہ۔ ٹیکسٹ پرامپٹ کو اندر رکھیں contents.parts[].text.مثال (ونڈوز شیل، استعمال کرتے ہوئے ^ لائن کے تسلسل کے لیے):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
جواب بیس 64 امیج بائٹس پر مشتمل ہے۔ اوپر کی پائپ لائن نکالتی ہے۔ "data" سٹرنگ اور اس میں ڈی کوڈ کرتا ہے۔ gemini-generated.png.
یہ اختتامی نقطہ "امیج ٹو امیج" جنریشن کو سپورٹ کرتا ہے: ایک ان پٹ امیج (بطور Base64) اپ لوڈ کریں اور ایک ترمیم شدہ نئی تصویر حاصل کریں (بیس64 فارمیٹ میں بھی)۔: مثال کے طور پر
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**تفصیل:**سب سے پہلے، اپنی سورس امیج فائل کو بیس 64 سٹرنگ میں تبدیل کریں اور اس میں رکھیں inline_data.data. جیسے سابقے شامل نہ کریں۔ data:image/jpeg;base64,.آؤٹ پٹ میں بھی واقع ہے۔ candidates.content.parts اور اس میں شامل ہے: ایک اختیاری متن کا حصہ (تفصیل یا پرامپٹ)۔ تصویر کا حصہ بطور inline_data (کہاں data آؤٹ پٹ امیج کا بیس 64 ہے۔ متعدد امیجز کے لیے، آپ انہیں براہ راست شامل کر سکتے ہیں، مثال کے طور پر:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
ذیل میں گوگل کے آفیشل دستاویزات اور بلاگ سے تیار کردہ ڈویلپر کی مثالیں ہیں۔ اسناد اور فائل پاتھ کو اپنے ساتھ تبدیل کریں۔
ازگر (سرکاری SDK طرز)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
یہ گوگل کے دستاویزات سے کینونیکل ازگر کا ٹکڑا ہے (پیش نظارہ ماڈل ID دکھائی گئی ہے)۔ وہی SDK کال پیٹرن امیج + پرامپٹ ایڈیٹنگ کو سپورٹ کرتا ہے (تصویر کو ایک کے طور پر پاس کریں۔ contents).مزید تفصیلات کا حوالہ دیتے ہیں جیمنی دستاویز
نتیجہ
اگر آپ کے پروڈکٹ کو مضبوط، کم تاخیر والی تصویر بنانے کی ضرورت ہے اور خاص طور پر، موضوع کی مستقل مزاجی کے ساتھ قابل اعتماد ترمیم, Gemini 2.5 Flash Image اب ایک پروڈکشن گریڈ آپشن ہے جس کا جائزہ لیا جا سکتا ہے: یہ جدید ترین امیج کوالٹی کو APIs کے ساتھ جوڑتا ہے جو ڈویلپر انٹیگریشن (AI Studio، Gemini API، اور Vertex AI) کے لیے ڈیزائن کیا گیا ہے۔ ماڈل کی موجودہ حدود (تصاویر میں عمدہ متن، کچھ اسٹائلائزیشن ایج کیسز) کا احتیاط سے وزن کریں اور ذمہ دارانہ استعمال کے تحفظات کو لاگو کریں۔
شروع
CometAPI ایک متحد API پلیٹ فارم ہے جو سرکردہ فراہم کنندگان سے 500 سے زیادہ AI ماڈلز کو اکٹھا کرتا ہے — جیسے OpenAI کی GPT سیریز، Google کی Gemini، Anthropic's Claude، Midjourney، Suno، اور مزید — ایک واحد، ڈویلپر کے موافق انٹرفیس میں۔ مسلسل تصدیق، درخواست کی فارمیٹنگ، اور رسپانس ہینڈلنگ کی پیشکش کرکے، CometAPI ڈرامائی طور پر آپ کی ایپلی کیشنز میں AI صلاحیتوں کے انضمام کو آسان بناتا ہے۔ چاہے آپ چیٹ بوٹس، امیج جنریٹرز، میوزک کمپوزر، یا ڈیٹا سے چلنے والی اینالیٹکس پائپ لائنز بنا رہے ہوں، CometAPI آپ کو تیزی سے اعادہ کرنے، لاگت کو کنٹرول کرنے، اور وینڈر-ایگنوسٹک رہنے دیتا ہے—یہ سب کچھ AI ماحولیاتی نظام میں تازہ ترین کامیابیوں کو حاصل کرنے کے دوران۔
ڈویلپرز رسائی حاصل کر سکتے ہیں۔ جیمنی 2.5 فلیش امیج(نانو کیلے کامیٹ اے پی آئی کی فہرست gemini-2.5-flash-image-preview/gemini-2.5-flash-image ان کے کیٹلاگ میں طرز کے اندراجات۔ شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔ CometAPI آپ کو انضمام میں مدد کے لیے سرکاری قیمت سے کہیں کم قیمت پیش کریں۔
