الميزات الأساسية
- النص → صورة: توليد كامل قائم على الموجّه مع التزام قوي بالموجّه.
- صورة → صورة (تحريرات): تعديلات دقيقة وموجّهة مع الحفاظ على اتساق الموضوع/الشخصية عبر تعديلات متعددة.
- أقصى دقة إخراج: حتى 4K (تعتمد الأمثلة وأحجام البكسل الدقيقة المدعومة على نسبة العرض إلى الارتفاع؛ وتعرض واجهة البرمجة إعدادات مسبقة 1K/2K/4K)
- التخطيط التكراري والتصحيح الذاتي: خط أنابيب داخلي “متعدد المراحل” يكتشف ويصحح الأخطاء البصرية الشائعة (المنظور، النص، الهندسة الدقيقة).
- عرض نص متقدم داخل الصور: نص متعدد اللغات واضح وقابل للقراءة (من التسميات القصيرة إلى الفقرات الطويلة) مناسب للملصقات والنماذج الأولية والرسوم المعلوماتية.
- 5 شخصيات ودقة حفظ حتى 14 عنصرًا/صورة مرجعية في سير عمل واحد.
- العلامة المائية/الإثبات: تتضمن جميع الصور المُنشأة علامة مائية SynthID؛ وي嵌ن النموذج بيانات تعريف C2PA لإثبات المصدر في بعض تكاملات المنتجات.
إصدارات Gemini 3 Pro Image والتسمية
gemini-3-pro-image-previewgemini-3-pro-image
تفاصيل تقنية
الهيكلية
- الأصل/العمود الفقري: تم بناء Nano Banana Pro على حزمة صور Gemini المتطورة من Google — تحديدًا هيكل Gemini 3 Pro Image / GEMPIX 2 الجديد (إطار متعدد الوسائط عالي السعة للصورة+النص). وهو تطوّر عن Gemini 2.5 Flash Image (الـ“nano-banana” الأصلي) إلى نموذج صور متعدد الوسائط أصيل مع قدرات موسّعة للاستدلال بين الرؤية واللغة.
- سلوك النموذج: تعددية وسائط أصلية (صورة + نص + معرفة بالعالم)، مسارات صريحة لدمج صور متعددة، ومخطِّط داخلي مرحلي يصقل المخرجات عبر عدة تمريرات بدلًا من إنتاج عينة ثابتة واحدة. تشير التقارير المبكرة إلى استدلال هندسي/بصري أقوى (الزجاج، الانكسار) مقارنة بالإصدارات السابقة.
- التفكير/التنقيح الداخلي: يستخدم النموذج عملية “تفكير” مرئية داخليًا لصقل التكوين (يوثق الـAPI هذا السلوك ويشير إلى أن هذه الخطوات الداخلية لا تُحتسب كرموز صور نهائية).
- الاستناد والأدوات: يدعم Search grounding (يمكنه دمج حقائق من الويب في إنشاء المخططات/الرسوم المعلوماتية). كما يدعم تعليمات النظام لمزيد من التحكم الحتمي.
معلمات الـAPI الرئيسية:
thinking_level(منخفض / مرتفع) للموازنة بين وقت الاستجابة وعمق الاستدلال؛media_resolution(منخفض/متوسط/مرتفع) للتحكم في رموز قراءة تفاصيل/OCR الصورة؛generationConfig.imageConfigللتحكم في نسبة العرض إلى الارتفاع/الدقة في مخرجات الصور.
حدود الصور:
- الوسائط المدخلة المدعومة: النص والصور (لا يقبل النموذج الصوت أو الفيديو كمدخلات لتوليد الصور).
- الحد الأقصى للصور لكل موجّه: 14 (لـ Gemini 3 Pro Image preview).
- الحد الأقصى لحجم الصورة (رفع): 7 MB لكل صورة مدخلة.
- نِسَب العرض إلى الارتفاع المدعومة: 1:1، 3:2، 16:9، 9:16، 21:9، وغيرها.
الصور/الرموز المخرجة: حدود مرتفعة، مع دعم 4K/4096px.
أداء المعايير
ملخص قصير: المعايير العامة/المبكرة حتى الآن ذات طابع نوعي/مجتمعي في الغالب، لكنها تُظهر باستمرار تحسينات كبيرة في الدقة وتقليل الشوائب والالتزام الفيزيائي مقارنة بـ“nano-banana” الأصلي (Gemini 2.5 Flash Image). أظهرت “التحديات” المسماة تحديدًا مكاسب بصرية واضحة، لكن لا توجد حتى الآن جداول معيارية رقمية (علنية) من Google تقارن الإصدار v1 → v2 عبر مقاييس توليد الصور القياسية.
- اختبارات المجتمع النوعية: حواف أنظف، تفاصيل دقيقة أكثر حدّة، ألوان أكثر صدقًا، والتزام أفضل بالموجّه (إبداعات أقل غير مطلوبة، وشخصيات أكثر اتساقًا). تشمل الاختبارات الشائعة غير الرسمية ما يسمى “Wine Glass Test” و“Glass Burger Challenge”، حيث يتعامل GEMPIX2 (Nano Banana Pro) مع الشفافية والانكسار بشكل أفضل بكثير من الإصدارات الأقدم.
- التعامل مع النص: يُظهر Nano Banana Pro تحسنًا مرئيًا في الطباعة ووضع النص داخل الصور (وهو ضعف مستمر لدى العديد من نماذج الصور). تشير مقارنات المجتمع إلى حروف أقل تشويهًا.
- الإنتاجية/تجربة المستخدم: سرعة تكرار أعلى وتجربة خلفية تقوم بالتنقيح متعدد المراحل بحيث يرى المستخدمون نتائج أولية أكثر موثوقية (تقليل إعادة التوليد اليدوي).
القيود والمخاطر
- عوامل التصفية والكشف عن المحتوى: قد تفعّل المنصات المدمج فيها النموذج (مثل Whisk/تطبيقات طرف ثالث) كشفًا صارمًا للمشاهير أو الشبه وتمنع مخرجات معينة، ما يؤثر على سير العمل الإبداعي الذي يعتمد على محاكاة واقعية لوجوه المشاهير.
- الهلوسة/حالات الاستدلال الحدّية: رغم التحسن، قد ينتج عن النموذج شوائب غير واقعية فيزيائيًا، خاصة مع النص الرمزي الكثيف داخل الصور أو الرسومات التقنية عالية التعقيد — مع أن NB2 يبدو أنه يقلل هذه الأخطاء مقارنة بالإصدارات السابقة.
- السلامة وسوء الاستخدام: يمكن استخدام نماذج توليد الصور لإنتاج محتوى إشكالي أو ضار. تطبّق Google قيودًا وعوامل تصفية وعلامة SynthID المائية للمساعدة في إثبات المصدر؛ ومع ذلك، حدثت إساءات استخدام (جدل بارز مرتبط بصورة وُلدت عبر Nano Banana في سياق سياسي حساس).
مكانة Nano Banana Pro مقارنة بالنماذج الأخرى
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — تكامل قوي مع الأجهزة المحمولة، دمج متعدد الصور، تصحيح ذاتي تكراري، دقة أصلية 2K/وترقية إلى 4K، وتكامل وثيق مع تطبيقات Google (Search وPhotos وWorkspace/Gemini). الأفضل لسير عمل يتطلب تعديلات موثوقة واستمرارية وتكاملًا مع خدمات Google.
- Midjourney — يتفوق في المخرجات الفنية المُؤسلَبة والهندسة المجتمعية للموجّهات؛ لا يستهدف عادة دمج صور متعددة بدقة فوتوغرافية أو خطوط تحرير متعددة الوسائط عميقة خارج الصندوق.
- Stable Diffusion / أوزان مفتوحة — مفتوح بالكامل، قابل للتخصيص بدرجة عالية، ويمكن استضافته محليًا؛ نظام بيئي غني بنقاط التحقق والتدريب الدقيق ميزة حاسمة للبحث والاستخدام دون اتصال. أقل “بنقرة واحدة” للتكامل مع الهاتف المحمول وأقل اتساقًا في ترابط التحرير متعدد الصور جاهزًا مقارنة بـ Nano Banana Pro.
- Seedream 4.0 (ByteDance) — وُضِع مؤخرًا كمنافس مباشر لـ Nano Banana، مع التركيز على التصيير فائق السرعة، ومخرجات 2K، ودعم العديد من الصور المرجعية (حتى ستة). موجه كمثال احترافي/للمبدعين.
(هذه المقارنات عامة؛ اختر الأنسب بمطابقة الأداة مع سير عملك: الانفتاح/قابلية التخصيص → Stable Diffusion؛ الفن المُؤسلَب → Midjourney؛ تحرير محمول متكامل ومتسق مع تكرار عدواني → عائلة Nano Banana Pro/Gemini 3 Pro Image.)
حالات استخدام واقعية
- تحرير الصور على الهاتف المحمول والفلاتر الإبداعية (تكامل Google Photos — إعادة التصميم، دمج الخلفية، إعادة تركيب الصور الشخصية).
- أصول التسويق والإعلانات — توليد سريع للأفكار، وشخصيات علامة تجارية متسقة عبر إطارات/زوايا متعددة.
- فن المفاهيم ولوحات القصة — يساعد الدمج متعدد الصور على الحفاظ على استمرارية الشخصيات عبر اللوحات.
- التجارة الإلكترونية/نماذج المنتجات — توليد صور منتجات متناسقة في سياقات/ظروف إضاءة مختلفة.
- النماذج الأولية السريعة لأصول AR/VR — مخرجات 2K/4K عالية الجودة يمكن ترقيتها لاستخدامات غامرة.
كيفية الوصول إلى gemini-3-pro-image(Nano Banana Pro) API
الخطوات المطلوبة
- سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يرجى التسجيل أولًا
- احصل على بيانات اعتماد مفتاح API للواجهة. انقر على “Add Token” عند “API token” في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم قدّمه.
- احصل على عنوان الرابط لهذا الموقع: https://api.cometapi.com/
طريقة الاستخدام
- اختر نقطة النهاية “
gemini-3-pro-image” لإرسال طلب الـAPI واضبط جسم الطلب. يتم الحصول على طريقة الطلب وجسم الطلب من وثائق الـAPI على موقعنا. يوفر موقعنا أيضًا اختبار Apifox لراحتك. - استبدل <YOUR_API_KEY> بمفتاح CometAPI الحقيقي من حسابك.
- أدخل سؤالك أو طلبك في حقل content — هذا ما سيستجيب له النموذج.
- قم بمعالجة استجابة الـAPI للحصول على الإجابة المُولَّدة.
يوفر CometAPI واجهة REST API متوافقة بالكامل — لهجرة سلسة. التفاصيل الرئيسية :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.