في أواخر أغسطس 2025، أصدرت Google (DeepMind) صورة فلاشية لـ Gemini 2.5 - الملقب على نطاق واسع "الموز النانوي" نموذج توليد وتحرير صور عالي الجودة ومنخفض الكمون، مُدمج في تطبيق Gemini، وGoogle AI Studio، وواجهة برمجة تطبيقات Gemini، وواجهة برمجة تطبيقات Comet. صُمم هذا النموذج لإنتاج صور واقعية، والحفاظ على تناسق الأحرف في جميع عمليات التحرير، ودمج صور مُدخلة متعددة، وإجراء تعديلات دقيقة ومُترجمة بدقة من خلال مُطالبات اللغة الطبيعية. يتوفر النموذج في نسختي المعاينة والإصدارات التجريبية الأولية، ويتصدر بالفعل قوائم أفضل الصور (LMArena)، مع آليات أمان مُدمجة (علامة مائية SynthID وفلاتر على مستوى المنتج).
ما هو برنامج Gemini 2.5 Flash Image (المعروف أيضًا باسم "Nano Banana")؟
صورة فلاشية لـ Gemini 2.5 — تُلقب بشكل مرح الموز النانو — هو أحدث نموذج لتوليد وتحرير الصور من جوجل ديب مايند ضمن عائلة جيميني. أُعلن عنه في أواخر أغسطس 2025، وهو إصدار تجريبي يوفر تعديلات عالية الدقة، ودمجًا متعدد الصور، وتناسقًا أفضل للشخصيات (مع الحفاظ على إمكانية التعرف على نفس الشخص/الحيوان الأليف/الكائن عبر تعديلات متعددة)، وتوليد صور بزمن انتقال منخفض، ضمن مجموعة أدوات جيميني متعددة الوسائط. يتوفر النموذج من خلال واجهة برمجة تطبيقات جيميني، وجوجل إيه آي ستوديو، وتطبيقات جيميني للجوال/الويب، وفيرتكس إيه آي لعملاء المؤسسات.
الأصل والتسمية
أصبح لقب "الموزة النانوية" اختصارًا شائعًا على منصات التواصل الاجتماعي وقوائم المتصدرين في مجتمعاتنا، بعد أن استخدم المُختبرون الأوائل ومشاركات LMArena اسمًا مستوحى من الفاكهة. أكدت جوجل الصلة، واحتضنت الاسم المرح علنًا في منشورات المطورين والمنتجات. الاسم الرسمي للمنتج هو صورة فلاشية لـ Gemini 2.5 وسترى عادةً معرف النموذج المستخدم في التعليمات البرمجية ومكالمات واجهة برمجة التطبيقات (للاستخدام في المعاينة، يظهر على سبيل المثال gemini-2.5-flash-image-preview).
ما هي الميزات الرئيسية لبرنامج Gemini 2.5 Flash Image؟
ماذا يعني "اتساق الشخصية" في الواقع؟
واحدة من القدرات المميزة هي اتساق الشخصيةيمكنك أن تطلب من النموذج إعادة استخدام نفس الموضوع (شخص، حيوان أليف، تميمة، أو منتج) في العديد من التعديلات أو المشاهد الجديدة مع الحفاظ على السمات البصرية المميزة (الوجه/الشكل، لوحة الألوان، العلامات المميزة). يُعالج هذا نقطة ضعف شائعة في نماذج الصور السابقة، حيث تُنتج التعديلات اللاحقة أشخاصًا/أشياءً تبدو معقولة بصريًا ولكنها مختلفة بشكل ملحوظ. وبالتالي، يُمكن للمطورين بناء سير عمل لفهارس المنتجات، أو سرد القصص المتسلسلة، أو إنشاء أصول العلامة التجارية، مع تقليل التصحيح اليدوي.
ما هي عناصر التحكم الأخرى في التحرير المضمنة؟
يدعم برنامج Gemini 2.5 Flash Image ما يلي:
- التعديلات المحلية المستهدفة من خلال مطالبات باللغة البسيطة (إزالة كائن، تغيير الزي، تنقيح الجلد، إزالة عنصر الخلفية).
- دمج الصور المتعددة: دمج ما يصل إلى ثلاث صور إدخال في تركيبة متماسكة واحدة (على سبيل المثال، وضع منتج من الصورة أ في المشهد ب مع الحفاظ على الإضاءة).
- عناصر التحكم في الأسلوب والتنسيق: تعليمات واقعية للصور، وسمات الكاميرا والعدسة، ونسبة العرض إلى الارتفاع، والمخرجات المصممة (الرسوم التوضيحية، والملصقات، وما إلى ذلك).
- معرفة العالم الأصلي:يستفيد النموذج من المعرفة الأوسع لعائلة Gemini لإجراء تعديلات واعية دلاليًا (على سبيل المثال، فهم ما يعنيه "إضاءة عصر النهضة" أو "معبر المشاة في طوكيو").
ماذا عن السرعة والتكلفة والتوافر؟
صورة فلاش جيميني 2.5 جزء من فئة فلاش جيميني 2.5، وهي مُحسّنة لانخفاض زمن الوصول والتكلفة مع الحفاظ على جودة عالية. قدّمت جوجل معاينةً لأسعار رموز إخراج الصور، ووفرت إمكانية التوفر عبر واجهة برمجة التطبيقات (API) ومنصة AI Studio؛ ويمكن لعملاء المؤسسات الوصول إليها عبر Vertex AI. عند الإعلان، كان السعر المعلن لفئة صورة فلاش جيميني 2.5 هو 30 دولارًا لكل مليون رمز إخراج، مع مثال لتكلفة الصورة الواحدة المبلغ عنها على النحو التالي 1290 رمز إخراج ≈ $0.039 لكل صورة.
كيف تعمل صورة فلاش Gemini 2.5 تحت الغطاء؟
الهندسة المعمارية ونهج التدريب
يرث برنامج فلاش إيمج من جيميني 2.5 بنية عائلة جيميني 2.5: هيكل أساسي يعتمد على أسلوب "مزيج الخبراء" (MoE) مع تدريب متعدد الوسائط يجمع بين النصوص والصور والصوت وغيرها من البيانات. درّبت جوجل فلاش إيمج على مجموعات بيانات متعددة الوسائط كبيرة الحجم ومفلترة، وضبطت النموذج بدقة لمهام الصورة (التوليد، والتحرير، والدمج) وسلوك الأمان. أُجري التدريب على بنية TPU من جوجل، وقُيّم باستخدام مقاييس التقييم التلقائي والبشري.
التحرير الموجه بالمحادثة
على مستوى عالٍ، يستخدم النموذج التكييف السياقي: عند توفير صورة (أو صور متعددة) بالإضافة إلى مطالبات نصية، يُشفّر النموذج الهوية البصرية للموضوع في تمثيله الداخلي. أثناء عمليات التحرير اللاحقة أو المشاهد الجديدة، يُشترط إنشاء هذا التمثيل للحفاظ على السمات البصرية المطلوبة (هندسة الوجه، والملابس الرئيسية أو مُعرّفات المنتج، ولوحات الألوان). عمليًا، يُطبّق هذا كجزء من خط أنابيب المحتوى متعدد الوسائط الذي تُتيحه واجهة برمجة تطبيقات جيميني: تُرسل الصور المرجعية مع تعليمات التحرير، ويُعيد النموذج مخرجات الصور المُعدّلة (أو صورًا مُرشّحة متعددة) في استجابة واحدة.
العلامة المائية والمصدر
تُدمج جوجل فلاتر سياسة السلامة والمحتوى في صورة فلاش جيميني 2.5. يُركز الإصدار على التقييم وتشكيل فرق العمل الحمراء، وخطوات التصفية الآلية، والضبط الدقيق المُشرف، والتعلم المُعزز لمتابعة التعليمات، مع تقليل المخرجات الضارة إلى أدنى حد. تتضمن المخرجات علامة مائية غير مرئية لـ SynthID، مما يُتيح تحديد الصور التي يُنتجها النموذج أو يُحررها لاحقًا على أنها مُولّدة بواسطة الذكاء الاصطناعي.
ما مدى جودة أدائه؟ (بيانات المقارنة)
تم الوصول إلى صورة فلاش Gemini 2.5 (التي تم تسويقها باسم "الموز النانوي" في بعض سياقات المقارنة) #1 في قائمة المتصدرين في تحرير الصور وتحويل النص إلى صورة على موقع LMArena اعتبارًا من أواخر أغسطس 2025، مع تفوق كبير في تصنيف Elo/التفضيلات على المنافسين في المقارنات المُبلّغ عنها. أُشير إلى نتائج تقييم LMArena وGenAI-Bench للأفراد، والتي تُظهر أعلى درجات التفضيل لكلٍّ من مهام تحويل النص إلى صورة وتحرير الصور.
مقارنة النص بالصورة
| معيار القدرة | صورة Gemini Flash 2.5 | إيماجن 4 ألترا 06-06 | ChatGPT 4o / GPT Image 1 (عالية) | FLUX.1 Kontext | صورة Gemini Flash 2.0 |
|---|---|---|---|---|---|
| التفضيل العام (LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| الجودة المرئية (GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| محاذاة النص إلى الصورة (GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
تعديل الصوره
| معيار القدرة | صورة Gemini Flash 2.5 | ChatGPT 4o / GPT Image 1 (عالية) | FLUX.1 Kontext | تعديل صورة كوين | صورة Gemini Flash 2.0 |
|---|---|---|---|---|---|
| التفضيل العام (LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| حرف | 1170 | 1059 | 1010 | 911 | 850 |
| إبداعية | 1112 | 1057 | 968 | 983 | 879 |
| الرسوم البيانية | 1067 | 1029 | 967 | 1012 | 925 |
| الكائن / البيئة | 1064 | 1023 | 1002 | 1010 | 901 |
| إعادة صياغة المنتج | 1128 | 1032 | 943 | 1009 | 888 |
| أسلوب | 1062 | 1165 | 949 | 1091 | 733 |

ماذا تعني هذه المعايير في الممارسة العملية؟
تخبرنا المعايير بأمرين: (1) النموذج تنافسي في توليد الصور الواقعية و(2) يبرز في التحرير المهام التي تتطلب تناسق الأحرف والالتزام الفوري. تشير تصنيفات التفضيلات البشرية إلى أن المستخدمين الذين شاهدوا المخرجات منحوا مخرجات جيميني تقييمًا عاليًا من حيث الواقعية والتوافق مع التعليمات في العديد من المطالبات المُقيّمة. ومع ذلك، هناك قيود معروفة (مثل خطر الهلوسة في التفاصيل الواقعية الدقيقة، وعرض النصوص الطويلة داخل الصور، وحالات نقل الأنماط غير المتوقعة) - لذا فإن معايير الأداء هي دليل وليست ضمانًا.
ماذا يمكنك أن تفعل مع Gemini 2.5 Flash Image (حالات الاستخدام)؟
صُمم برنامج Gemini 2.5 Flash Image خصيصًا لسيناريوهات التصوير الإبداعي والإنتاجي والتطبيقي. تشمل حالات الاستخدام الشائعة والناشئة ما يلي:
نماذج سريعة للمنتجات والتجارة الإلكترونية
اسحب صور المنتجات إلى المشاهد، أو أنشئ صور كتالوج متسقة عبر البيئات، أو بدّل الألوان/الأقمشة عبر خط إنتاج واحد - كل ذلك مع الحفاظ على هوية المنتج. ميزات دمج الصور المتعددة وتناسق الشخصيات/المنتج تجعلها جذابة لسير عمل الكتالوج.
تنقيح الصور والتعديلات المستهدفة
أزل العناصر، أصلح العيوب، غيّر الملابس/الإكسسوارات، أو عدّل الإضاءة باستخدام أوامر اللغة الطبيعية. تتيح إمكانية التحرير الموضعي لغير المتخصصين إجراء تعديلات احترافية باستخدام أوامر المحادثة.
رسم القصص المصورة والسرد البصري
ضع الشخصية نفسها في مشاهد مختلفة وحافظ على تناسق مظهرها (مفيد للقصص المصورة، أو القصص المصورة، أو عروض تقديمية). تتيح التعديلات التكرارية للمبدعين تحسين الحالة المزاجية، والتأطير، واستمرارية السرد دون الحاجة إلى إعادة بناء الأصول من الصفر.
التعليم والرسوم البيانية والنماذج التصميمية
بفضل قدرته على دمج النصوص والصور، وامتلاكه "معرفة عالمية"، يُمكن لهذا النموذج المساعدة في إنشاء مخططات توضيحية، أو مواد مرئية تعليمية، أو نماذج سريعة للعروض التقديمية. حتى أن جوجل تُبرز القوالب في AI Studio لاستخدامات مثل نماذج العقارات وتصميم المنتجات.
كيف تستخدم Nano Banana API؟
فيما يلي مقتطفات عملية مقتبسة من وثائق واجهة برمجة التطبيقات CometAPI ومستندات واجهة برمجة تطبيقات جوجل. توضح هذه المستندات التدفقات الشائعة: نص إلى صورة و صورة + نص إلى صورة (تحرير) باستخدام GenAI SDK أو نقطة نهاية REST الرسمية.
ملاحظة: في مستندات CometAPI يظهر اسم نموذج المعاينة على النحو التالي
gemini-2.5-flash-image-previewتعكس الأمثلة أدناه أمثلة SDK الرسمية (Python وJavaScript) ومثال REST curl؛ قم بتكييف المفاتيح ومسارات الملفات مع بيئتك.
مثال على REST curl من CometAPI
استخدم حساب الجوزاء الرسمي generateContent نقطة نهاية لتوليد النص إلى صورة. ضع موجه النص في contents.parts[].text.مثال (غلاف Windows، باستخدام ^ (للاستمرار في السطر):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
تحتوي الاستجابة على بايتات صورة base64؛ يستخرج خط الأنابيب أعلاه "data" سلسلة ويفك تشفيرها إلى gemini-generated.png.
تدعم نقطة النهاية هذه إنشاء "صورة إلى صورة": قم بتحميل صورة إدخال (بتنسيق Base64) واستقبل صورة جديدة معدلة (أيضًا بتنسيق Base64).على سبيل المثال:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**الوصف:**أولاً، قم بتحويل ملف الصورة المصدر إلى سلسلة Base64 ووضعها في inline_data.data. لا تقم بتضمين البادئات مثل data:image/jpeg;base64,.يقع المخرج أيضًا في candidates.content.parts ويتضمن: جزء نص اختياري (وصف أو مطالبة). جزء الصورة كـ inline_data (أين data هو Base64 للصورة الناتجة).بالنسبة للصور المتعددة، يمكنك إضافتها مباشرة، على سبيل المثال:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
فيما يلي أمثلة للمطورين مُقتبسة من وثائق ومدونة جوجل الرسمية. استبدل بيانات الاعتماد ومسارات الملفات ببياناتك الخاصة.
بايثون (نمط SDK الرسمي)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
هذا هو مقتطف بايثون الرسمي من مستندات جوجل (يظهر مُعرّف نموذج المعاينة). يدعم نمط استدعاء SDK نفسه تحرير الصور + المطالبات (مرر صورة كإحدى contents).للمزيد من التفاصيل يرجى الرجوع إلى دكتور الجوزاء.
الخاتمة
إذا كان منتجك يحتاج إلى إنشاء صور قوية ومنخفضة الكمون، وخاصةً، تحرير موثوق به مع اتساق الموضوعأصبح برنامج Gemini 2.5 Flash Image الآن خيارًا إنتاجيًا يستحق التقييم: فهو يجمع بين جودة صورة متطورة وواجهات برمجة تطبيقات مصممة لتكامل المطورين (AI Studio وGemini API وVertex AI). قيّم بدقة القيود الحالية للنموذج (نصوص دقيقة في الصور، وبعض حالات التصميم المتطرفة) وطبّق ضمانات الاستخدام المسؤول.
كيف تبدأ
CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.
يمكن للمطورين الوصول صورة فلاشية لـ Gemini 2.5(قائمة Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image (من خلال CometAPI، أحدث إصدارات النماذج المدرجة هي تلك المُدرجة بتاريخ نشر المقال. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.
