Nano Banana Pro — رسميًا Gemini 3 Pro Image — هو نموذج من Google/DeepMind لتوليد الصور وتحريرها بمستوى الاستوديو، يجمع بين الاستدلال متعدد الوسائط المتقدم، وإخراج النص عالي الدقة داخل الصور، والتركيب متعدد الصور، وعناصر تحكم إبداعية بمستوى الاستوديو.
ما هو Nano Banana Pro ولماذا ينبغي أن تهتم؟
Nano Banana Pro هو أحدث نموذج من Google لتوليد الصور وتحريرها — إصدار “Gemini 3 Pro Image” — صُمم لإنتاج صور عالية الدقة وواعية بالسياق ونصوص على الصورة بجودة استوديو حتى 4K. وهو خليفة لنماذج Nano Banana السابقة (Gemini 2.5 Flash Image / “Nano Banana”) مع تحسينات في الاستدلال، وإسناد البحث (حقائق العالم الحقيقي)، وإخراج نص أقوى، وعناصر تحكم تحرير محلية أكثر قوة. النموذج متاح ضمن تطبيق Gemini للمستخدمين التفاعليين، ويمكن الوصول إلى Nano Banana Pro عبر واجهة Gemini القياسية، ولكنك تختار معرّف النموذج المحدد (gemini-3-pro-image-preview أو خليفته الثابت) للوصول البرمجي.
لماذا هذا مهم: بُني Nano Banana Pro ليس فقط لصنع صور جميلة بل لـ “تصوير المعلومات” — الرسوم المعلوماتية، اللقطات المعتمدة على البيانات (الطقس، الرياضة)، الملصقات الغنية بالنصوص، نماذج المنتجات ودمج الصور المتعدد (حتى 14 صورة إدخال مع الحفاظ على اتساق الشخصية عبر ما يصل إلى 5 أشخاص). بالنسبة للمصممين وفرق المنتج والمطورين، فإن هذا المزيج من الدقة والنص على الصورة وإمكانية الوصول البرمجي يفتح تدفقات إنتاج كانت صعبة الأتمتة سابقًا.
ما الوظائف المتاحة عبر واجهة البرمجة؟
القدرات النموذجية المتاحة للمطورين تشمل:
- توليد نص → صورة (خطوة واحدة أو تدفقات تركيب “تفكير” متعددة الخطوات).
- تحرير الصور (أقنعة محلية، إكمال مناطق، ضبط الأنماط).
- دمج متعدد الصور (جمع صور مرجعية).
- عناصر تحكم متقدمة للطلبات: الدقة، نسبة الأبعاد، خطوات المعالجة اللاحقة، وآثار “أفكار التركيب” لأغراض تصحيح/الفحص في أوضاع المعاينة.
الابتكارات والوظائف الأساسية في Nano Banana Pro
استدلال محتوى أكثر ذكاءً
يستخدم حزمة استدلال Gemini 3 Pro لتفسير تعليمات بصرية معقدة ومتعددة الخطوات (مثل “أنشئ رسمًا معلوماتيًا من 5 خطوات من مجموعة البيانات هذه وأضف تسمية توضيحية ثنائية اللغة”). تكشف الواجهة عن آلية “Thinking” التي يمكنها إنتاج اختبارات تركيب مرحلية لصقل المخرج النهائي.
لماذا يهم ذلك: بدلًا من مرور واحد يربط المُدخل → البكسل، يُجري النموذج عملية “تفكير” داخلية تنقّح التركيب ويمكنها استدعاء أدوات خارجية (مثل Google Search) لغرض الإسناد الحقائقي (مثل تسميات مخططات دقيقة أو لافتات صحيحة محليًا). ينتج عن ذلك صور ليست فقط أجمل بل أكثر صحة دلاليًا لمهام مثل الرسوم المعلوماتية والمخططات أو نماذج المنتجات.
كيف يتحقق ذلك: “Thinking” في Nano Banana Pro هو مرور استدلال/تركيب داخلي محكوم حيث يُنشئ النموذج مرئيات وسيطة وآثار استدلال قبل إنتاج الصورة النهائية. تكشف الواجهة أن النموذج قد يُنشئ ما يصل إلى إطارين مرحليين وأن الصورة النهائية هي المرحلة الأخيرة من تلك السلسلة. في الإنتاج يساعد ذلك في قرارات التركيب ووضع النص والتخطيط.
إخراج نصي أدق
تحسين كبير للنص المقروء والمحلي داخل الصور (قوائم، ملصقات، مخططات). يصل Nano Banana Pro إلى مستويات جديدة في إخراج النص داخل الصور:
- النص داخل الصور واضح ومقروء ومُهند بصورة دقيقة؛
- يدعم التوليد متعدد اللغات (بما في ذلك الصينية واليابانية والكورية والعربية، إلخ)؛
- يسمح للمستخدمين بكتابة فقرات طويلة أو نصوص وصفية متعددة الأسطر مباشرة داخل الصور؛
- الترجمة والتوطين التلقائيان متاحان.
لماذا هذا مهم: تقليديًا تعاني نماذج الصور في إخراج نص قابل للقراءة ومحاذى جيدًا. جرى تحسين Nano Banana Pro صراحةً لإخراج نص موثوق وتوطين (مثل الترجمة مع الحفاظ على التخطيط)، ما يفتح استخدامات إبداعية حقيقية مثل الملصقات والتغليف أو الإعلانات متعددة اللغات.
كيف يتحقق ذلك: تأتي تحسينات إخراج النص من البنية متعددة الوسائط الأساسية والتدريب على مجموعات بيانات تؤكد أمثلة النص داخل الصورة، إلى جانب مجموعات تقييم مستهدفة (تقييمات بشرية ومجموعات انحدار). يتعلم النموذج مواءمة أشكال الحروف والخطوط وقيود التخطيط ليُنتج نصًا مقروءًا ومحليًا داخل الصور — رغم أن النص الصغير والفقرات شديدة الكثافة قد تظل عرضة للأخطاء.
اتساق بصري أعلى ووفاء أكبر للتفاصيل
عناصر تحكم الاستوديو (الإضاءة، التركيز، زاوية الكاميرا، تصحيح الألوان) والتركيب متعدد الصور (حتى 14 صورة مرجعية، مع سماحات خاصة لعدة أشخاص) تساعد في الحفاظ على اتساق الشخصية (الحفاظ على الشخص/الشخصية نفسها عبر التحريرات) والهوية البصرية عبر الأصول المُولَّدة. يدعم النموذج مخرجات أصلية 1K/2K/4K.
لماذا هذا مهم: تتطلب أعمال التسويق والترفيه شخصيات متسقة عبر اللقطات والتحريرات. يمكن للنموذج الحفاظ على التشابه لما يصل إلى خمسة أشخاص ودمج ما يصل إلى 14 صورة مرجعية في تركيب واحد بينما يُنتج رسمًا تخطيطيًا → إخراج ثلاثي الأبعاد. هذا مفيد للإبداع الإعلاني، التغليف، أو سرد القصص عبر لقطات متعددة.
كيف يتحقق ذلك: تقبل مُدخلات النموذج عدة صور مع تعيينات أدوار صريحة (مثل “الصورة A: الوضعية”، “الصورة B: مرجع الوجه”، “الصورة C: ملمس الخلفية”). تُشرط البنية التوليد على تلك الصور للحفاظ على الهوية/الوضعية/الأسلوب مع تطبيق التحويلات (الإضاءة، الكاميرا).
معايير أداء Nano Banana Pro
يتفوّق Nano Banana Pro (Gemini 3 Pro Image) على معايير ذكاء نص→صورة ويُظهر استدلالًا مُحسّنًا وإسنادًا سياقيًا مقارنة بنماذج Nano Banana السابقة. يؤكد على وفاء أعلى وتحسين إخراج النص مقارنة بالإصدارات السابقة.

إرشادات أداء عملية
توقع زمن استجابة وتكلفة أعلى لعمليات إخراج 2K/4K عالية الوفاء مقارنة بـ 1K أو نماذج “Flash” المُحسّنة للسرعة. إذا كانت الإنتاجية/الزمن حرجين، استخدم النسخة السريعة (مثل Gemini 2.5 Flash / Nano Banana) للحجم العالي؛ واستخدم Nano Banana Pro / gemini-3-pro-image للجودة ومهام الاستدلال المعقدة.
كيف يمكن للمطورين الوصول إلى Nano Banana Pro؟
ما نقاط النهاية والنماذج التي ينبغي اختيارها
معرّف النموذج (معاينة / احترافي): gemini-3-pro-image-preview (معاينة) — استخدم هذا عندما تريد قدرات Nano Banana Pro. لأعمال أسرع وأقل تكلفة، يظل gemini-2.5-flash-image (Nano Banana) متاحًا.
الواجهات المتاحة
- Gemini API (نقطة generativelanguage): يمكنك استخدام مفتاح CometAPI للوصول إلى xx. تقدّم CometAPI نفس الواجهة بسعر أكثر ملاءمة من الموقع الرسمي. استدعاءات HTTP مباشرة / عبر SDK إلى
generateContentلتوليد الصور (أمثلة أدناه). - Google AI Studio: واجهة ويب للتجربة السريعة وإعادة مزج التطبيقات التجريبية.
- Vertex AI (مؤسسي): معدل إنتاجية مُجهَّز، خيارات الفوترة (ادفع حسب الاستخدام / مستويات مؤسسية)، ومرشحات الأمان للإنتاج واسع النطاق. استخدم Vertex عند الدمج في خطوط معالجة كبيرة أو مهام إخراج دفعية.
تتمتع الخطة المجانية بحد استخدام محدود؛ تجاوز الحد سيؤدي إلى الرجوع إلى Nano Banana. توفر مستويات Plus/Pro/Ultra حدودًا أعلى ومخرجات بلا علامة مائية، لكن يمكن استخدام Ultra في أدوات Flow للفيديو وAntigravity IDE في وضع 4K.
كيف أُنشئ صورة باستخدام Nano Banana Pro (خطوة بخطوة)؟
1) وصفة تفاعلية سريعة لاستخدام تطبيق Gemini
- افتح Gemini → Tools → Create images.
- اختر Thinking (Nano Banana Pro) كنموذج.
- أدخل مُدخلًا: اشرح الموضوع، الحركة، المزاج، الإضاءة، الكاميرا، نسبة الأبعاد، وأي نص تريد ظهوره على الصورة. مثال:
“أنشئ ملصق 4K لورشة عمل روبوتات: فريق متنوع حول طاولة، طبقة مخطط أزرق، عنوان بارز ‘Robots in Action’ بخط sans serif، إضاءة تنغستن دافئة، عمق مجال ضحل، تركيب سينمائي 16:9.” - (اختياري) ارفع حتى 14 صورة للدمج أو للاستخدام كمرجع. استخدم أداة التحديد/القناع لإجراء تعديلات محلية.
- أنشئ، ثم كرّر بالتعليمات الطبيعية (مثل “اجعل العنوان أزرق ومحاذى أعلى المنتصف؛ زِد التباين على المخطط”)، ثم صدّر.
2) استخدام HTTP للإرسال إلى نقطة توليد صور Gemini
تحتاج إلى تسجيل الدخول إلى CometAPI للحصول على المفتاح.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
يكتب هذا المثال حمولة الصورة بصيغة base64 إلى ملف PNG. يطلب معامل generationConfig.imageConfig.resolution إخراج 4K (متاح لنموذج 3 Pro Image).
3) استدعاءات SDK مباشرة إلى generateContent لتوليد الصور
يتطلب تثبيت SDK من Google والحصول على مصادقة Google. مثال Python (نص + صور مرجعية + إسناد):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
يُظهر هذا المثال رفع صورة مرجعية مضمنة وطلب تركيب 4K مع تمكين google_search كأداة. سيتولى SDK الخاص بـ Python تفاصيل REST منخفضة المستوى.
دمج متعدد الصور واتساق الشخصية
لإنتاج مركّب يحافظ على الشخص نفسه عبر المشاهد، مرّر عدة أجزاء inline_data (مختارة من مجموعة صورك)، وحدد التعليمات الإبداعية بأن يحافظ النموذج على “الهوية عبر المخرجات”.
مثال عملي قصير — مُدخل فعلي وتدفق مُتوقَّع
Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Expected pipeline: التطبيق → قالب المُدخل + بيانات CSV → استبدال العناصر النائبة في المُدخل → استدعاء الواجهة مع image_size=2048x1152 → استلام PNG بصيغة base64 → حفظ الأصل + بيانات المصدر → اختياريًا تركيب خط دقيق عبر المُركِّب إذا لزم.
كيف أصمّم خط إنتاج وأتعامل مع الأمان/المصدر؟
بنية إنتاج مُوصى بها
- مُدخل + مرور مسودة (نموذج سريع): استخدم
gemini-2.5-flash-image(Nano Banana) لإنتاج العديد من التنويعات صغيرة الدقة بتكلفة منخفضة. - الاختيار والصقل: اختر أفضل المرشحين، صَقِّل المُدخلات، وطبّق تحريرات إكمال/أقنعة لمزيد من الدقة.
- إخراج نهائي عالي الوفاء: استدعِ
gemini-3-pro-image-preview(Nano Banana Pro) لعمليات إخراج 2K/4K النهائية والمعالجة اللاحقة (ترقية الدقة، تصحيح الألوان). - المصدر والبيانات الوصفية: خزّن المُدخل، إصدار النموذج، الطوابع الزمنية، ومعلومات SynthID في مخزن بيانات الأصول — يُرفق النموذج علامة مائية SynthID ويمكن تتبع المخرجات للامتثال وتدقيق المحتوى.
السلامة والحقوق والمراجعة
- حقوق النشر والتصاريح: لا ترفع أو تُنتج محتوى ينتهك الحقوق. استخدم تأكيدات صريحة من المستخدم للصور أو المُدخلات التي قد تُنشئ تشابهاً يمكن التعرف عليه. يجب احترام سياسة الاستخدام المحظور الخاصة بـ Google ومرشحات السلامة الخاصة بالنموذج.
- التصفية والفحوصات الآلية: مرّر الصور المُولّدة عبر خط مراجعة محتوى داخلي (كشف المحتوى غير اللائق، رموز الكراهية، المحتوى السياسي/الملزم) قبل الاستهلاك أو العرض العام في المراحل اللاحقة.
كيف أجري تحرير الصور (إكمال المناطق)، التركيب متعدد الصور وإخراج النص؟
يدعم Nano Banana Pro تدفقات تحرير متعددة الوسائط: قدّم صورة أو أكثر وتعليمًا نصيًا يصف التحريرات (إزالة عنصر، تغيير السماء، إضافة نص). تقبل الواجهة صورة + نص في الطلب نفسه؛ يمكن للنموذج إنتاج نصوص وصور متداخلة كاستجابة. تتضمن الأنماط أمثلة تحرير بالقناع ودمج متعدد الصور (نقل الأسلوب/التركيب). راجع المستندات لأجل مصفوفات contents التي تجمع كتل نصية وصور ثنائية.
مثال: تحرير (تدفق شبه-بايثون)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
يتيح هذا التحرير الحواري لك ضبط النتائج تكراريًا حتى تصل إلى أصل جاهز للإنتاج.
مثال Node.js — تحرير صورة مع قناع ومراجع متعددة
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(تقبل الواجهات أحيانًا عناوين Cloud Storage أو حمولة صور بصيغة base64؛ راجع مستندات Gemini لهيئة الإدخال الدقيقة.)
لمعلومات عن التوليد وتحرير الصور باستخدام CometAPI، يُرجى الرجوع إلى دليل استدعاء gemini-3-pro-image .
الخلاصة
Nano Banana Pro (Gemini 3 Pro Image) نقلة على مستوى الإنتاج في توليد الصور: أداة لتصوير البيانات، وإجراء تحريرات محلية، وتمكين تدفقات عمل المطورين. استخدم تطبيق Gemini للنمذجة السريعة، والواجهة البرمجية للتكامل الإنتاجي، واتبِع التوصيات أعلاه لضبط التكلفة وضمان السلامة والحفاظ على جودة العلامة. اختبر دائمًا تدفقات المستخدم الحقيقية وخزّن بيانات المصدر لتلبية متطلبات الشفافية والتدقيق.
استخدم Nano Banana Pro عندما تحتاج إلى أصول بجودة الاستوديو، وتحكم دقيق في التركيب، وإخراج نص مُحسَّن داخل الصور، والقدرة على دمج عدة مراجع في مخرج واحد متماسك.
يمكن للمطورين الوصول إلى واجهة Gemini 3 Pro Image (Nano Banana Pro) البرمجية عبر CometAPI. للبدء، استكشف قدرات النموذج على CometAPI في Playground، وراجع دليل الواجهة لمزيد من الإرشادات. قبل الوصول، تأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح الواجهة. تقدّم CometAPI سعرًا أقل بكثير من السعر الرسمي لمساعدتك على الدمج.
جاهز للبدء؟→ سجّل في CometAPI اليوم !
إذا أردت المزيد من النصائح والأدلة والأخبار عن الذكاء الاصطناعي، تابعنا على VK، وX، وDiscord!
