Nano Banana هو لقب المجتمع (والاختصار الداخلي) لـ Google صورة فلاشية لـ Gemini 2.5 — نموذج عالي الجودة ومنخفض زمن الوصول لتوليد وتحرير الصور متعدد الوسائط. يعرض هذا الدليل المطول (بما في ذلك الكود والأنماط وخطوات النشر وأمثلة CometAPI) ثلاث طرق اتصال عملية يمكنك استخدامها في الإنتاج: (1) واجهة دردشة متوافقة مع OpenAI (نص ← صورة)، (2) تطبيق Google الرسمي generateContent واجهة النص→الصورة، و(3) واجهة Google الرسمية generateContent واجهة صورة ← صورة باستخدام مدخلات ومخرجات Base64. ستحصل خلال هذه الدورة على نصائح تفصيلية للتوزيع والنشر، وإعداد البيئة، وكيفية الحصول على عمليات واجهة برمجة التطبيقات من CometAPI، وملاحظات حول التسعير والعلامة المائية، وأفضل النصائح للحصول على نتائج موثوقة واقتصادية.
ما هو Nano Banana (صورة فلاش Gemini 2.5)؟
نانو بانانا هو الاسم غير الرسمي لنموذج جيميني 2.5 فلاش إيمج، أحدث نموذج صور من جوجل ضمن سلسلة جيميني. صُمم هذا النموذج لتوليد صور واقعية وتحريرها بدقة (تعديلات محلية، دمج صور متعددة، الحفاظ على تناسق الأحرف في جميع التعديلات)، وهو متاح عبر واجهة برمجة تطبيقات جيميني من جوجل، وجوجل إيه آي ستوديو، وفيرتكس إيه آي. يأتي النموذج مزودًا بعلامة مائية غير مرئية من نوع SynthID لإثبات المصدر.
لماذا هذا مهم للمطورين: يوفر لك Nano Banana نموذجًا واحدًا عالي الجودة ومتعدد الوسائط يمكنه التعامل مع:
- النص → الصورة (إنشاء صور جديدة من المطالبات النصية)
- الصورة → الصورة (تعديل/تحويل الصورة المقدمة)
- دمج الصور المتعددة (دمج عدة صور في صورة واحدة مركبة)
كل هذا يمكن الوصول إليه إما من خلال حساب Google الرسميgenerateContentنقاط النهاية (Vertex AI / Gemini API) أو عبر نقاط النهاية المتوافقة مع OpenAI التي توفرها بوابات API خارجية مثل CometAPI وOpenRouter. هذا يعني أنه يمكنك دمج صورة فلاش Gemini 2.5 في قواعد بيانات OpenAI الحالية المتوافقة أو الاتصال بمجموعات تطوير البرامج الرسمية من Google مباشرةً.
ما يتفوق فيه
- تعديلات محلية مستهدفة (تغيير لون القميص، إزالة الكائنات، تعديل الوضعيات).
- الحفاظ على اتساق الموضوع/الشخصية عبر عمليات إعادة التحرير.
- دمج صور متعددة في صورة مركبة متماسكة.
- زمن انتقال منخفض واستدلال فعال من حيث التكلفة مقارنة بنماذج البحث الأكثر ثقلاً (تصنف Google نماذج "Flash" كخيارات عالية الإنتاجية).
كيف يمكنني إعداد بيئة التطوير الخاصة بي لاستدعاء Nano Banana عبر واجهة برمجة التطبيقات؟
فيما يلي قائمة مرجعية خطوة بخطوة يمكنك اعتبارها بمثابة خط أساس لأي من طرق الاتصال الثلاثة الموضحة لاحقًا.
المتطلبات الأساسية (الحسابات، المفاتيح، الحصة)
- حساب جوجل + مشروع سحابي إذا كنت تخطط للاتصال بـ Gemini مباشرةً عبر Google (Gemini API / Vertex AI)، فأنشئ مشروعًا على Google Cloud وفعّل واجهات برمجة تطبيقات Vertex AI / Gemini. ستحتاج إلى الفوترة والأدوار المناسبة (مثل:
Vertex AI AdminorService Accountمع حقوق الاستدلال). - الوصول إلى واجهة برمجة تطبيقات Gemini — بعض نماذج صور الجوزاء هي معاينة/توفر محدود؛ قد تحتاج إلى طلب الوصول أو استخدام النموذج عبر Google AI Studio أو Vertex AI اعتمادًا على حسابك.
- CometAPI (بوابة اختيارية) إذا كنت تفضل واجهة برمجة تطبيقات واحدة مستقلة عن مورد معين، والتي يمكنها تمثيل نماذج مختلفة (بما في ذلك Gemini)، فسجّل في CometAPI للحصول على مفتاح واجهة برمجة التطبيقات ومراجعة قائمة نماذجهم (حيث يعرضون إصدارات Gemini 2.5 Flash ونقطة نهاية متوافقة مع OpenAI). يُبسط CometAPI عملية التطوير ويتيح لك تغيير موردي الخدمة دون تغيير كود تطبيقك.
الأدوات المحلية
- أوقات تشغيل اللغة:يوصى باستخدام Node.js 18+ وPython 3.10+.
- عميل HTTP:
fetch/axiosلـ JS؛requests/httpxللبايثون (أو مجموعات SDK الرسمية). - مساعدو الصور:
Pillow(بايثون) أوsharp(العقدة) لتغيير الحجم، وتحويل التنسيق، وترميز/فك تشفير Base64. - أمن: خزّن المفاتيح في متغيرات البيئة أو في مخزن الأسرار (HashiCorp Vault، أو AWS Secrets Manager، أو Google Secret Manager). لا تُرسِل مفاتيح API أبدًا.
تثبيت SDK المتوافق مع Google (اختياري)
توفر Google مجموعات تطوير البرامج (SDKs) و openai تحسينات توافق المكتبات - يمكنك استخدام مكتبات عميل OpenAI مع Gemini بتغيير بعض الأسطر (عنوان URL الأساسي + مفتاح API)، ولكن يُنصح باستخدام عميل Gemini/Google الأصلي لميزات الوسائط المتعددة الكاملة. في حال استخدام CometAPI أو بوابة متوافقة مع OpenAI، فإن استخدام عميل OpenAI يُسرّع عملية التطوير. أمثلة:
المسار الرسمي لـ Google (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
عميل CometAPI / OpenAI المتوافق (Python):
pip install openai requests
كيف أختار بين طرق الاتصال الثلاثة لـ Nano Banana؟
يعتمد اختيار طريقة الاتصال على بنيتك، ومتطلبات زمن الوصول/التكلفة، وما إذا كنت ترغب بالاعتماد على نقطة النهاية الرسمية من جوجل أو بوابة خارجية متوافقة مع OpenAI. الأنماط الثلاثة الشائعة هي:
1) واجهة دردشة متوافقة مع OpenAI (تحويل النص إلى صورة)
استخدم هذا عندما يكون لديك بالفعل كود أو حزم تطوير برمجيات بنمط OpenAI وترغب في تبديل النماذج بأقل قدر من التغييرات. تعرض العديد من البوابات (CometAPI وOpenRouter) نماذج Gemini ضمن سطح REST متوافق مع OpenAI، لذا فإن... chat or completions تعمل المكالمات بطريقة مختلفة تمامًا base_url واسم الطراز. غالبًا ما يكون هذا أسرع مسار للإنتاج إذا كنت لا ترغب في إدارة مصادقة Google Cloud.
2) الجوزاء الرسمي generateContent — تحويل النص إلى صورة
استخدم موقع Google الرسمي generateContent عبر genai عميل (Google) أو Vertex AI إذا كنت ترغب في الحصول على حزمة تطوير البرامج الرسمية المدعومة بالكامل، بالإضافة إلى أحدث الميزات (معلمات توليد دقيقة، وبث مباشر، وواجهة برمجة تطبيقات للملفات للأصول الكبيرة)، بالإضافة إلى فوترة/مراقبة Google Cloud. يُنصح بهذا عند الحاجة إلى دعم الإنتاج وعناصر تحكم على مستوى المؤسسة.
3) الجوزاء الرسمي generateContent — صورة إلى صورة (إدخال/إخراج Base64)
استخدم هذا عندما يتعين عليك إرسال صور ثنائية مضمنة (Base64) أو تريد تحرير الصور/خطوط أنابيب الصور إلى الصور. generateContent يدعم الصور المضمنة (base64) وواجهة برمجة تطبيقات الملفات للأصول الأكبر حجمًا أو القابلة لإعادة الاستخدام. عادةً ما تُعاد استجابات الصور المُولَّدة/المحرَّرة كسلاسل Base64، والتي تُفكَّك وتُحفظ. هذا يُتيح تحكمًا متعدد الوسائط واضحًا للغاية.
كيف يمكنني الاتصال بـ Nano Banana عبر واجهة الدردشة المتوافقة مع OpenAI (تحويل النص إلى صورة)؟
تقبل نقطة نهاية الدردشة المتوافقة مع OpenAI تسلسلًا من {role, content} الرسائل؛ ما عليك سوى وصف الصورة التي تريدها في رسالة المستخدم، وتقوم البوابة (CometAPI أو أداة توافق OpenAI) بترجمة ذلك إلى استدعاء لنموذج Gemini الأساسي. يُعد هذا مناسبًا إذا كان تطبيقك يستخدم بالفعل تدفقات الدردشة، أو إذا كنت ترغب في دمج إنشاء النص وإنشاء الصورة في عملية تبادل واحدة.
خطوات
1.سجل في CometAPI واحصل على مفتاح API: سجّل في CometAPI، أنشئ مشروعًا، انسخ مفتاح API الخاص بك. يعرض CometAPI العديد من النماذج خلف نموذج واحد. base_url. ()
-
تثبيت عميل متوافق مع OpenAI: بايثون:
pip install openaiأو استخدم الإصدار الأحدثopenai/OpenAIغلاف SDK يستخدمه العديد من البوابات. -
قم بتوجيه SDK إلى CometAPI واستدعاء نقطة نهاية إكمال الدردشة:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
ملاحظة:
-
يجب أن يكون التدفق صحيحًا؛ سيتم إرجاع الاستجابة كتدفق؛
-
يتم تغليف بنية الاستجابة بواسطة CometAPI للتوافق مع OpenAI.
-
تتضمن الاستجابة صورة Base64؛ قم بفك تشفيرها وحفظها على العميل حسب الحاجة:
كيف يمكنني الاتصال بـ Nano Banana باستخدام تطبيق Gemini الرسمي؟ generateContent واجهة تحويل النص إلى صورة؟
توفر جوجل واجهة برمجة تطبيقات مطوري Gemini (واجهة برمجة تطبيقات Gemini) ويعرض أيضًا نماذج Gemini عبر فيرتكس الذكاء الاصطناعي. للوصول البرمجي إلى Gemini 2.5 Flash Image (Nano Banana) بطريقة مدعومة، فإن الموقع الرسمي generateContent الطريقة هي نقطة الدخول الأساسية لتوليد النصوص فقط أو الوسائط المتعددة. استخدم خدمة جوجل مجموعة أدوات تطوير البرامج GenAI (بايثون: google-genai) أو استدعاء نقطة نهاية REST مباشرةً. وهو يوفر الوصول المباشر إلى معلمات النموذج ووسائله، وهو الطريقة الموصى بها لاستخدام الميزات المتقدمة (التحرير الدقيق، ودمج الصور المتعددة) عند استدعاء نقاط نهاية Google.
- استخدم جوجل مجموعة أدوات تطوير البرامج GenAI (بايثون:
google-genai)
خطوات التوزيع / الاتصال (نظرة عامة):
- احصل على مفتاح API من Google AI Studio أو قم بإعداد حساب خدمة Vertex AI (اعتمادًا على النظام الأساسي).
- تثبيت سك (
pip install --upgrade google-genai) والمصادقة (مفتاح API أو بيانات اعتماد تطبيق Google الافتراضية). - اختار النموذج:
gemini-2.5-flash-imageأو عنوان المعاينة الموضح في المستندات (يعتمد العنوان الدقيق على حالة GA/المعاينة). - اتصل
client.models.generate_content(...)مع موجه نص عادي (تحويل النص إلى صورة). - فك تشفير تم إرجاع الصور (إذا تم إرجاع Base64) وحفظها/تخزينها.
مثال على Python (العميل الرسمي) — النص→الصورة:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(ملاحظة: تحقق من واجهة برمجة تطبيقات العميل الرسمية للحصول على أسماء المعلمات الدقيقة - تتبع الأمثلة أعلاه الأنماط في مستندات Google.)
2. دعوة نانو بانان عبر نقطة نهاية REST
نقطة نهاية EST (مثال على تحويل النص إلى صورة): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
خيارات المصادقة: توفير الرأس x-goog-api-key: $CometAPI_API_KEY(إنشاء مفتاح في CometAPI.)
يؤدي هذا إلى نشر مطالبة نصية وحفظ صورة base64 المرتجعة:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
ملاحظات: يتم إرجاع الصورة الثنائية بتنسيق base64 في
candidates.content.parts.inline_data.data. يستخدم المثال أعلاهjqلاختيار البيانات المضمنة وفك تشفيرها. تُظهر الوثائق الرسمية نفس العملية.
كيف يمكنني الاتصال بـ Nano Banana باستخدام تطبيق Gemini الرسمي؟ generateContent واجهة صورة إلى صورة (Base64 داخل/خارج)؟
متى يجب عليك استخدام صورة إلى صورة (base64 in/out)؟
استخدم صورة إلى صورة عندما تحتاج إلى:
- تحرير صورة موجودة (الرسم، نقل الأسلوب، استبدال الكائن).
- دمج صور متعددة المصدر في تركيبة واحدة.
- الحفاظ على هوية الموضوع عبر التعديلات (واحدة من نقاط قوة Nano Banana).
والجوزاء generateContent يدعم بيانات الصور المضمنة عبر Base64 (أو كمعرّفات URI للملفات) ويعيد الصور المُولّدة أو المُحرّرة كسلاسل Base64. تُقدّم الوثائق أمثلة واضحة لتوفير inline_data مع mime_type و data.
خطوات التوزيع/الاتصال (من صورة إلى صورة)
- إعداد صورة الإدخال: قراءة بايتات الملف، أو تشفير Base64، أو تمرير البايتات الخام عبر مساعد SDK.
- بناء a
contentsمجموعة حيث يكون أحد أجزائها هو الصورة المضمنة (معmimeTypeوdata) والأجزاء اللاحقة تتضمن تعليمات تحرير النص. - سأعين إلى
generateContent(SDK الرسمي أو REST). - احصل على الاستجابة: تُرجع واجهة برمجة التطبيقات الصور المُولَّدة/المُحرَّرة المُرمَّزة بسلاسل Base64. فك تشفيرها وحفظها محليًا.
مثال — Python (صورة إلى صورة باستخدام البايتات المضمنة عبر GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
مثال على Python: صورة→صورة باستخدام Base64 عبر نقطة السكون
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
إذا كنت تريد الوصول إليه باستخدام منفذ CometAPI rest:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
للتنزيل المباشر: اقرأ الصورة وترميزها بتنسيق base64. للاستخدام المتكرر أو عند تحميل أكثر من 20 ميجابايت، حمّل عبر واجهة برمجة التطبيقات للملفات، ثم أشر إلى مُعرِّف الملف في
generateContent.الأفضل للتحرير الدقيق وسير العمل التي تتطلب صورًا مدخلة بالإضافة إلى تعليمات تحرير نصية.
ما هي أفضل النصائح للعمل مع Nano Banana؟
الهندسة والتحكم الفوري
- كن صريحًا: تشمل نسبة العرض إلى الارتفاع المطلوبة، ومراجع الأسلوب (أسماء الفنانين فقط إن أمكن)، وعدسة الكاميرا، والإضاءة، والتركيب. على سبيل المثال، "صورة واقعية، 3:2، عمق مجال ضحل، ساعة ذهبية، عدسة نيكون 50 مم."
- استخدم التحرير المتتالي: أُفضّل التحرير المحلي الأصغر حجمًا في عدة تمريرات على التحرير المفرد الكبير - فهذا يحافظ على اتساق الموضوع. تكمن قوة نانو بانانا في التحرير التكراري.
نظافة الصورة
- مدخلات المعالجة المسبقة: تطبيع مساحة اللون، وإزالة EXIF المضمن إذا كانت الخصوصية مطلوبة، وتوسيع النطاق إلى دقة معقولة لحفظ الرموز.
- مخرجات ما بعد المعالجة: تشغيل اكتشاف الوجه، وتنظيف الآثار البسيطة عبر المرشحات خفيفة الوزن (Pillow / sharp) قبل العودة إلى المستخدمين.
سياسات السلامة والامتثال والمحتوى
- تنفيذ فحص أمان المحتوى التلقائي (نماذج تعديل الرؤية أو عمليات التحقق من القائمة السوداء) قبل تخزين/تقديم الصور.
- إذا قمت بتحميل صور الأشخاص، فاتبع قوانين الخصوصية المعمول بها (GDPR/CCPA) واحصل على الموافقات اللازمة.
- احترم سياسات استخدام النموذج وقواعد حقوق النشر عند المطالبة بشخصيات محمية بحقوق الطبع والنشر أو أعمال فنية موجودة.
ملاحظات ختامية
Nano Banana (Gemini 2.5 Flash Image) يمثل خطوة عملية وعالية الدقة لتوليد الصور متعددة الوسائط وتحريرها: فهو مصمم لتحقيق الاتساق عبر عمليات التحرير والمنطق المتعدد الوسائط الأكثر ثراءً. Nano Banana (Gemini 2.5 Flash Image) هو خطوة مهمة في توليد الصور/تحريرها - حيث يوفر اتساقًا عاليًا لعمليات التحرير متعددة الخطوات وأسطح التكامل المتعددة (بوابات متوافقة مع OpenAI مثل CometAPI وGoogle generateContent (واجهات برمجة التطبيقات). من أجل سرعة التبني، تتيح لك بوابات مثل CometAPI إعادة استخدام الكود بأسلوب OpenAI. تحقق دائمًا من صحة الاستجابات، واحترم سياسة المحتوى وميزات المنشأ (SynthID)، وراقب التكاليف أثناء التكرار.
كيف تبدأ
CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.
يمكن للمطورين الوصول صورة فلاشية لـ Gemini 2.5(قائمة Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image (من خلال CometAPI، أحدث إصدارات النماذج المدرجة هي تلك المُدرجة بتاريخ نشر المقال. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.



