كيفية استخدام واجهة برمجة التطبيقات Nano Banana Pro (Gemini 3 Pro Image)؟

CometAPI
AnnaDec 10, 2025
كيفية استخدام واجهة برمجة التطبيقات Nano Banana Pro (Gemini 3 Pro Image)؟

نانو بانانا برو — رسميًا صورة جيميني 3 برو — هو نموذج جديد من Google/DeepMind لإنشاء وتحرير الصور على مستوى الاستوديو والذي يجمع بين التفكير المتعدد الوسائط المتقدم، وتقديم نصوص عالية الدقة، وتكوين صور متعددة، وضوابط إبداعية على مستوى الاستوديو.

ما هو Nano Banana Pro ولماذا يجب أن تهتم به؟

نانو بانانا برو هو أحدث إصدار من جوجل لإنشاء الصور وتحريرها - إصدار "جيميني 3 برو إيمج" - مصمم لإنتاج صور عالية الدقة، وواضحة السياق، ونصوص على الصورة بجودة استوديو تصل إلى 4K. وهو خليفة لإصدارات نانو بانانا السابقة (جيميني 2.5 فلاش إيمج / "نانو بانانا")، مع تحسينات في المنطق، وأساسيات البحث (حقائق واقعية)، وعرض نصوص أقوى، وعناصر تحكم محلية أكثر فعالية في التحرير. يتوفر النموذج داخل تطبيق جيميني للمستخدمين التفاعليين، ويمكن الوصول إلى نانو بانانا برو من خلال واجهة برمجة تطبيقات جيميني القياسية، ولكن عليك اختيار مُعرّف النموذج المُحدد (gemini-3-pro-image-preview أو خليفته المستقر) للوصول البرمجي.

لماذا هذا مهم: تم تصميم Nano Banana Pro ليس فقط لالتقاط صور جميلة ولكن أيضًا تصور المعلومات — الرسوم البيانية، واللقطات الفورية المستندة إلى البيانات (الطقس، الرياضة)، والملصقات الغنية بالنصوص، ونماذج المنتجات، ودمج الصور المتعددة (حتى 14 صورة إدخال مع الحفاظ على تناسق الأحرف لما يصل إلى 5 أشخاص). بالنسبة للمصممين وفرق المنتجات والمطورين، فإن هذا المزيج من الدقة والنص الموجود على الصورة والوصول البرمجي يفتح مسارات عمل إنتاجية كان من الصعب أتمتتها سابقًا.

ما هي الوظائف التي يتم عرضها عبر واجهة برمجة التطبيقات (API)؟

تتضمن إمكانيات واجهة برمجة التطبيقات النموذجية المتاحة للمطورين ما يلي:

  • النص → إنشاء الصورة (تدفقات تأليفية "تفكيرية" ذات خطوة واحدة أو عدة خطوات).
  • تعديل الصوره (الأقنعة المحلية، والرسم الداخلي، وتعديلات الأسلوب).
  • دمج الصور المتعددة (دمج الصور المرجعية).
  • عناصر التحكم المتقدمة في الطلب: الدقة، ونسبة العرض إلى الارتفاع، وخطوات ما بعد المعالجة، وتتبعات "فكرة التكوين" للتصحيح/إمكانية الفحص في أوضاع المعاينة.

الابتكارات والوظائف الأساسية لجهاز Nano Banana Pro

التفكير في المحتوى بشكل أكثر ذكاءً

يستخدم حزمة التفكير المنطقي في Gemini 3 Pro لتفسير التعليمات المرئية المعقدة متعددة الخطوات (على سبيل المثال، "أنشئ رسمًا بيانيًا معلوماتيًا من خمس خطوات من مجموعة البيانات هذه وأضف تعليقًا ثنائي اللغة"). تعرض واجهة برمجة التطبيقات آلية "تفكير" يمكنها إنتاج اختبارات تكوين مؤقتة لتحسين الناتج النهائي.

لماذا يهم: بدلاً من تمريرة واحدة تربط بين الموجه والبكسل، يُجري النموذج عملية "تفكير" داخلية تُحسّن التركيب، ويمكنه استدعاء أدوات خارجية (مثل بحث جوجل) للحصول على معلومات أساسية (مثل تسميات دقيقة للمخططات أو لافتات مُلائمة للموقع). هذا يُنتج صورًا ليست أجمل فحسب، بل أكثر دقة من حيث الدلالة، لمهام مثل الرسوم البيانية، أو المخططات، أو نماذج المنتجات.

كيفية تحقيق ذلك: "التفكير" في Nano Banana Pro هو عملية تفكير/تركيب داخلية مُتحكم بها، حيث يُنشئ النموذج صورًا وسيطة ومسارات تفكير قبل إنتاج الصورة النهائية. تُشير واجهة برمجة التطبيقات (API) إلى أن النموذج قد يُنشئ ما يصل إلى إطارين مؤقتين، وأن الصورة النهائية هي المرحلة الأخيرة من هذه السلسلة. في مرحلة الإنتاج، يُساعد هذا في قرارات التركيب، ووضع النص، والتخطيط.

تقديم نص أكثر دقة

تم تحسين النص المقروء والموضعي بشكل كبير داخل الصور (القوائم والملصقات والرسوم البيانية). يصل Nano Banana Pro إلى مستويات جديدة في تقديم نصوص الصور:

  • يجب أن يكون النص الموجود في الصور واضحًا وقابلًا للقراءة ومكتوبًا بدقة؛
  • يدعم إنشاء لغات متعددة (بما في ذلك الصينية واليابانية والكورية والعربية وما إلى ذلك)؛
  • يتيح للمستخدمين كتابة فقرات طويلة أو نص وصفي متعدد الأسطر مباشرة في الصور؛
  • الترجمة الآلية والتوطين متاحان.

لماذا يهم: عادةً ما تواجه نماذج الصور صعوبة في عرض نصوص واضحة ومتناسقة. تم تحسين Nano Banana Pro خصيصًا لعرض النصوص وتوطينها بدقة (مثل الترجمة والحفاظ على التصميم)، مما يفتح المجال لاستخدامات إبداعية حقيقية، مثل الملصقات والتغليف والإعلانات متعددة اللغات.

كيفية تحقيق ذلك: تُعزى تحسينات عرض النصوص إلى البنية الأساسية متعددة الوسائط والتدريب على مجموعات البيانات التي تُركز على أمثلة النص داخل الصورة، بالإضافة إلى مجموعات التقييم المُستهدفة (التقييمات البشرية ومجموعات الانحدار). يتعلم النموذج محاذاة أشكال الحروف والخطوط وقيود التخطيط لإنتاج نص واضح ومُحدد الموقع داخل الصور - مع أن النصوص الصغيرة والفقرات الكثيفة للغاية قد تكون عرضة للأخطاء.

اتساق بصري أقوى ودقة

تُساعد عناصر التحكم في الاستوديو (الإضاءة، والتركيز، وزاوية الكاميرا، وتدرج الألوان) وتركيب الصور المتعددة (حتى 14 صورة مرجعية، مع مراعاة خاصة لشخصيات بشرية متعددة) في الحفاظ على تناسق الشخصيات (الحفاظ على نفس الشخص/الشخصية في جميع عمليات التحرير) وهوية العلامة التجارية في جميع الأصول المُولّدة. يدعم النموذج مخرجات أصلية بدقة 1K/2K/4K.

لماذا يهم: تتطلب سير عمل التسويق والترفيه شخصيات متناسقة في اللقطات والتعديلات. يمكن للنموذج الحفاظ على التشابه لمدة تصل إلى خمسة الناس ويمتزجون حتى 14 دمج الصور المرجعية في تركيبة واحدة أثناء إنتاج رسم تخطيطي ← عرض ثلاثي الأبعاد. هذا مفيد في الإعلانات الإبداعية، أو التغليف، أو سرد القصص متعددة اللقطات.

كيفية تحقيق ذلك: تقبل مدخلات النموذج صورًا متعددة بتعيينات أدوار واضحة (مثل: "الصورة أ: الوضعية"، "الصورة ب: مرجع الوجه"، "الصورة ج: نسيج الخلفية"). تُحدد بنية النموذج شروط التوليد على هذه الصور للحفاظ على هويتها/وضعيتها/أسلوبها أثناء تطبيق التحويلات (الإضاءة، الكاميرا).

معايير الأداء لجهاز Nano Banana Pro

نانو بانانا برو (صورة جيميني 3 برو) "يتفوق في معايير الذكاء الاصطناعي للنص ← الصورة"، ويُظهر تحسينًا في التفكير المنطقي والسياق مقارنةً بنماذج نانو بانانا السابقة. كما يُبرز دقة أعلى وعرضًا مُحسّنًا للنصوص مقارنةً بالإصدارات السابقة.

كيفية استخدام واجهة برمجة التطبيقات Nano Banana Pro (Gemini 3 Pro Image)؟

إرشادات الأداء العملي

توقع كمون أعلى وتكلفة عمليات العرض عالية الدقة بدقة 2K/4K أعلى من تكلفة عمليات العرض بدقة 1K أو نماذج "الفلاش" المُحسّنة للسرعة. إذا كانت الإنتاجية/زمن الوصول حرجًا، فاستخدم إصدار الفلاش (مثل Gemini 2.5 Flash / Nano Banana) للكميات الكبيرة؛ واستخدم Nano Banana Pro / gemini-3-pro-image لمهام التفكير المنطقي عالية الجودة والمعقدة.

كيف يمكن للمطورين الوصول إلى Nano Banana Pro؟

ما هي نقاط النهاية والنماذج التي يجب اختيارها

معرف النموذج (معاينة / احترافية): gemini-3-pro-image-preview (معاينة) - استخدم هذا عند رغبتك في استخدام إمكانيات Nano Banana Pro. لعمل أسرع وأقل تكلفة، gemini-2.5-flash-image (الموز النانو) لا يزال متاحًا.

الأسطح المستخدمة

  • واجهة برمجة تطبيقات Gemini (نقطة نهاية اللغة التوليدية): يمكنك استخدام مفتاح CometAPI للوصول إلى xx. يوفر CometAPI نفس واجهة برمجة التطبيقات بسعر أفضل من الموقع الرسمي. استدعاءات HTTP/SDK مباشرة إلى generateContent لتوليد الصور (الأمثلة أدناه).
  • ستوديو جوجل للذكاء الاصطناعي: سطح ويب للتجريب السريع وإعادة مزج التطبيقات التجريبية.
  • Vertex AI (المؤسسة): إنتاجية مُجهزة، وخيارات فوترة (دفع حسب الاستخدام / باقات مؤسسية)، ومرشحات أمان للإنتاج واسع النطاق. استخدم Vertex عند التكامل مع خطوط الأنابيب الكبيرة أو مهام العرض الدفعي.

للطبقة المجانية حد استخدام محدود؛ سيؤدي تجاوز هذا الحد إلى العودة إلى Nano Banana. توفر طبقات Plus/Pro/Ultra حدودًا أعلى وإخراجًا خاليًا من العلامات المائية، ولكن يمكن استخدام Ultra في أدوات الفيديو Flow وAntigravity IDE بدقة 4K.

كيف أقوم بإنشاء صورة باستخدام Nano Banana Pro (خطوة بخطوة)؟

1) وصفة تفاعلية سريعة لاستخدام تطبيق Gemini

  1. افتح الجوزاء → الأدوات → إنشاء الصور.
  2. أختار التفكير (نانو بانانا برو) كنموذج.
  3. أدخل مُطالبة: اشرح الموضوع، والحركة، والمزاج، والإضاءة، والكاميرا، ونسبة العرض إلى الارتفاع، وأي نص يظهر في الصورة. مثال:
    "أنشئ ملصقًا بدقة 4K لورشة عمل الروبوتات: فريق متنوع حول طاولة، وتراكب مخطط، وعنوان جريء "الروبوتات في العمل" بدون تشعبات، وضوء تنجستن دافئ، وعمق ضحل للمجال، و16:9 سينمائي."
  4. (اختياري) حمّل ما يصل إلى ١٤ صورة لدمجها أو استخدامها كمراجع. استخدم أداة التحديد/القناع لتحرير المناطق محليًا.
  5. إنشاء وتكرار باستخدام اللغة الطبيعية (على سبيل المثال، "جعل العنوان باللون الأزرق ومحاذاته في المنتصف العلوي؛ زيادة التباين في المخطط")، ثم التصدير

2) استخدم HTTP لإرسال صورة إلى نقطة نهاية Gemini

يجب عليك تسجيل الدخول إلى CometAPI للحصول على المفتاح.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

تكتب هذه العينة حمولة الصورة الأساسية 64 إلى ملف PNG. generationConfig.imageConfig.resolution تطلب المعلمات إخراج 4K (متوفر لنموذج 3 Pro Image)

3) مكالمات SDK المباشرة إلى generateContent لتوليد الصورة

يتطلب تثبيت حزمة تطوير برامج جوجل والحصول على مصادقة جوجل. مثال بايثون (نص + صور مرجعية + تأريض):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

يوضح هذا المثال تحميل صورة مرجعية مضمنة وطلب تركيبة 4K أثناء تمكينها google_search كأداة. ستتعامل مجموعة Python SDK مع تفاصيل REST منخفضة المستوى.

دمج الصور المتعددة وتناسق الأحرف

لإنتاج صورة مركبة تحافظ على نفس الشخص عبر المشاهد، مرر متعدد inline_data الأجزاء (المختارة من مجموعة الصور الخاصة بك)، وتحديد التعليمات الإبداعية التي تنص على أن النموذج يجب أن "يحافظ على الهوية عبر المخرجات".

مثال عملي قصير - موجه حقيقي وتدفق متوقع

موجه:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

خط الأنابيب المتوقع: التطبيق → قالب المطالبة + بيانات CSV → استبدال العناصر النائبة في المطالبة → استدعاء واجهة برمجة التطبيقات مع image_size=2048x1152 → استقبل PNG بتنسيق base64 → احفظ الأصل + بيانات التعريف الخاصة بالمصدر → يمكنك بشكل اختياري تراكب الخط الدقيق عبر المُركب إذا لزم الأمر.

كيف أقوم بتصميم خط إنتاج والتعامل مع السلامة / المصدر؟

هندسة الإنتاج الموصى بها

  1. تمريرة سريعة + مسودة (نموذج سريع): استعمل gemini-2.5-flash-image (الموز النانوي) لإنتاج العديد من الاختلافات ذات الدقة الصغيرة بتكلفة زهيدة.
  2. الاختيار والتحسين: اختيار أفضل المرشحين، وتحسين المطالبات، وتطبيق تحريرات الطلاء/القناع لتحقيق الدقة.
  3. العرض النهائي عالي الدقة: دعوة gemini-3-pro-image-preview (Nano Banana Pro) للمعالجة اللاحقة للصور النهائية بدقة 2K/4K (رفع العينات، وتصنيف الألوان).
  4. المنشأ والبيانات الوصفية: قم بتخزين مطالبات المتجر وإصدار النموذج وطوابع الوقت ومعلومات SynthID في مخزن بيانات الأصول لديك — يقوم النموذج بإرفاق علامة مائية SynthID ويمكن تتبع المخرجات للتحقق من الامتثال وتدقيق المحتوى.

السلامة والحقوق والاعتدال

  • حقوق الطبع والنشر والموافقة على الحقوق: لا تُحمّل أو تُنشئ محتوى ينتهك الحقوق. استخدم تأكيدات المستخدم الصريحة للصور أو المطالبات التي قد تُنشئ تشابهًا واضحًا. يجب الالتزام بسياسة الاستخدام المحظور من جوجل وفلاتر سلامة النماذج.
  • التصفية والفحوصات الآلية: قم بتشغيل الصور المولدة من خلال خط أنابيب تعديل المحتوى الداخلي (NSFW، ورموز الكراهية، والكشف عن المحتوى السياسي/الملزم) قبل الاستهلاك النهائي أو العرض العام.

كيف أقوم بتحرير الصور (الرسم داخل الصورة) وتركيب الصور المتعددة وتقديم النص؟

يدعم Nano Banana Pro تدفقات عمل تحرير متعددة الوسائط: توفير صورة إدخال واحدة أو أكثر وتعليمات نصية تصف عمليات التحرير (إزالة كائن، تغيير السماء، إضافة نص). تقبل واجهة برمجة التطبيقات الصورة والنص في الطلب نفسه؛ ويمكن للنموذج إنتاج نصوص وصور متداخلة كاستجابات. تتضمن أنماط الأمثلة عمليات التحرير المقنعة ودمج الصور المتعددة (نقل النمط/التركيب). راجع الوثائق للاطلاع على المزيد. contents مصفوفات تجمع بين كتل النص والصور الثنائية.

مثال: تحرير (تدفق زائف في بايثون)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

يتيح لك هذا التحرير المحادثة ضبط النتائج بشكل متكرر حتى تصل إلى أصل جاهز للإنتاج.

مثال Node.js — تحرير الصور باستخدام قناع ومراجع متعددة

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(تقبل واجهات برمجة التطبيقات في بعض الأحيان عناوين URI الخاصة بالتخزين السحابي أو حمولات الصور الأساسية 64؛ تحقق من مستندات واجهة برمجة تطبيقات Gemini للحصول على تنسيقات الإدخال الدقيقة.)

للحصول على معلومات حول إنشاء الصور وتحريرها باستخدام CometAPI، يرجى الرجوع إلى دليل الاتصال بـ Gemini-3-Pro-Image .

الخاتمة

نانو بانانا برو (Gemini 3 Pro Image) هو نقلة نوعية في مجال توليد الصور: أداة لتصور البيانات، وإجراء تعديلات محلية، ودعم سير عمل المطورين. استخدم تطبيق جيميني لإنشاء نماذج أولية سريعة، وواجهة برمجة التطبيقات (API) لدمج الإنتاج، واتبع التوصيات المذكورة أعلاه للتحكم في التكلفة، وضمان السلامة، والحفاظ على جودة العلامة التجارية. اختبر دائمًا سير عمل المستخدم الفعلي، وخزّن بيانات تعريف المصدر لتلبية متطلبات الشفافية والتدقيق.

استخدم Nano Banana Pro عندما تحتاج إليه جودة الاستوديو الأصول، والتحكم الدقيق في التركيب، وتقديم النصوص المحسّن داخل الصور، والقدرة على دمج المراجع المتعددة في إخراج واحد متماسك.

يمكن للمطورين الوصول واجهة برمجة تطبيقات Gemini 3 Pro Image (Nano Banana Pro) من خلال CometAPI. للبدء، استكشف إمكانيات النموذجكوميت ايه بي اي في  ملعب راجع دليل واجهة برمجة التطبيقات (API) للحصول على تعليمات مفصلة. قبل الوصول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح واجهة برمجة التطبيقات. معetAPI عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

هل أنت مستعد للذهاب؟→ سجل في CometAPI اليوم !

إذا كنت تريد معرفة المزيد من النصائح والإرشادات والأخبار حول الذكاء الاصطناعي، فتابعنا على VKX و ديسكورد!

SHARE THIS BLOG

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%