الميزات الأساسية
- نص → صورة: توليد كامل قائم على نص المطالبة مع التزام قوي بالمطالبة.
- صورة → صورة (تحريرات): تحريرات دقيقة وموجهة مع الحفاظ على اتساق الموضوع/الشخصية عبر تحريرات متعددة.
- أقصى دقة إخراج: حتى 4K (الأمثلة وأحجام البكسل الدقيقة المدعومة تعتمد على نسبة العرض إلى الارتفاع؛ واجهة API تعرض إعدادات مسبقة 1K/2K/4K)
- التخطيط التكراري والتصحيح الذاتي: خط أنابيب داخلي “متعدد المراحل” يكتشف ويصحح الأخطاء البصرية الشائعة (المنظور، النص، الهندسة الدقيقة).
- عرض نص متقدم داخل الصورة: نص متعدد اللغات واضح وقابل للقراءة (من العناوين القصيرة إلى الفقرات الطويلة) مناسب للملصقات والنماذج الأولية والرسوم المعلوماتية.
- 5 شخصيات وإمكانية التعامل بدقة مع ما يصل إلى 14 عنصرًا/صورة مرجعية في سير عمل واحد.
- العلامات المائية/إثبات المصدر: تتضمن جميع الصور المُولَّدة علامة مائية SynthID؛ ويضمّن النموذج بيانات تعريف C2PA لإثبات المصدر في بعض عمليات تكامل المنتجات.
إصدارات Gemini 3 Pro Image وأسماءها
gemini-3-pro-image-previewgemini-3-pro-image
تفاصيل تقنية
البنية
- السلالة/العمود الفقري: تم بناء Nano Banana Pro على حزمة صور Gemini المتطورة من Google — تحديدًا بنية Gemini 3 Pro Image / GEMPIX 2 الجديدة (إطار متعدد الوسائط نص+صورة بسعة أعلى). وهو تطوّر من Gemini 2.5 Flash Image (الـ“nano-banana” الأصلي) إلى نموذج صور متعدد الوسائط أصيل بقدرات موسّعة على الاستدلال بين الرؤية واللغة.
- سلوك النموذج: تعددية وسائط أصلية (صورة + نص + معرفة بالعالم)، خطوط أنابيب صريحة لدمج صور متعددة، ومخطِّط داخلي متدرّج يصقل المخرجات عبر عدة مرات مرور بدلًا من إنتاج عيّنة ثابتة واحدة. تشير التقارير المبكرة إلى استدلال هندسي/بصري أقوى (الزجاج، الانكسار) مقارنة بالإصدارات السابقة.
- التفكير/التحسين الداخلي: يستخدم النموذج عملية “تفكير” مرئية داخليًا لصقل التركيب (توثّق الـAPI هذا السلوك وتلاحظ أن تلك الخطوات الداخلية لا تُحتسب كرموز صور نهائية).
- الإسناد والأدوات: يدعم Search grounding (يمكنه إدماج حقائق من الويب في توليد المخططات/الرسوم المعلوماتية). كما يدعم تعليمات النظام للتحكم الأكثر حتمية.
معلمات API الأساسية:
thinking_level(منخفض / مرتفع) لموازنة زمن الاستجابة مقابل عمق الاستدلال؛media_resolution(منخفض/متوسط/مرتفع) للتحكم في رموز قراءة التفاصيل/النص داخل الصور؛generationConfig.imageConfigللتحكم في نسبة العرض إلى الارتفاع/الدقة في مخرجات الصور.
قيود الصور:
- أنماط الإدخال المدعومة: نص وصور (النموذج لا يقبل الصوت أو الفيديو كمدخلات لتوليد الصور).
- الحد الأقصى للصور لكل مطالبة: 14 (لـ Gemini 3 Pro Image preview).
- الحد الأقصى لحجم الصورة (رفع): 7 MB لكل صورة مدخلة.
- نسب العرض إلى الارتفاع المدعومة: 1:1، 3:2، 16:9، 9:16، 21:9، وغيرها.
صور/رموز الإخراج: حدود مرتفعة، مع دعم 4K/4096px.
أداء المعايير القياسية
ملخص قصير: المعايير العامة/البدئية حتى الآن ذات طابع نوعي يقودها المجتمع، لكنها تُظهر باستمرار تحسينات كبيرة في الدقة، تقليل العيوب المصطنعة، والاتساق الفيزيائي مقارنة بـ nano-banana الأصلي (Gemini 2.5 Flash Image). تحديات مسماة محددة أظهرت مكاسب بصرية واضحة، لكن لا توجد بعد جداول معيارية رقمية (عامة) من Google للمقارنة بين v1 → v2 عبر مقاييس توليد الصور القياسية.
- اختبارات مجتمعية نوعية: حواف أنظف، تفاصيل دقيقة أكثر حدة، ألوان أكثر صدقًا، والتزام أعلى بنص المطالبة (عوائق أقل، شخصيات أكثر اتساقًا). تتضمن الاختبارات الشائعة غير الرسمية ما يسمى “Wine Glass Test” و“Glass Burger Challenge”، حيث يتعامل GEMPIX2 (Nano Banana Pro) مع الشفافية والانكسار بشكل أفضل بكثير من البُنى السابقة.
- التعامل مع النص: يُظهر Nano Banana Pro تحسنًا ملحوظًا في الطباعة ووضع النص داخل الصور (وهو ضعف مستمر لدى العديد من نماذج الصور). تشير المقارنات المجتمعية إلى رموز أقل مشوّهة أثناء العرض.
- الإنتاجية/تجربة المستخدم: سرعة تكرار أعلى وتجربة خلفية تُجري تحسينًا متعدد المراحل بحيث يرى المستخدمون نتائج أكثر موثوقية من المرور الأول (ما يقلل من الحاجة لإعادة التوليد اليدوي).
القيود والمخاطر
- مرشّحات المحتوى والكشف: قد تمكّن المنصات التي تدمج النموذج (مثل Whisk/تطبيقات طرف ثالث) الكشف الصارم عن المشاهير أو الشبه وتمنع مخرجات معينة، مما يؤثر على سير العمل الإبداعي الذي يعتمد على أشباه المشاهير الواقعية.
- الهلاوس/حالات حافة الاستدلال: رغم التحسن، لا يزال النموذج قادرًا على إنتاج عيوب غير واقعية فيزيائيًا، خصوصًا مع النص الرمزي الكثيف داخل الصور أو المخططات التقنية عالية التعقيد — رغم أن NB2 يبدو أنه يقلل هذه الأخطاء مقارنة بالإصدارات السابقة.
- السلامة وإساءة الاستخدام: يمكن استخدام نماذج توليد الصور لإنشاء محتوى إشكالي أو ضار. تطبق Google قيودًا ومرشّحات محتوى، وتضيف علامة SynthID للمصدر؛ ومع ذلك، حدثت إساءات استخدام (جدل رفيع المستوى مرتبط بصورة Nano Banana أُنتجت في سياق سياسي حساس).
كيف يتفوّق Nano Banana Pro مقارنة بالنماذج الأخرى
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — تكامل قوي مع الأجهزة المحمولة، دمج متعدد الصور، تصحيح ذاتي تكراري، 2K أصلي/ترقية إلى 4K، متكامل بإحكام مع تطبيقات Google (Search وPhotos وWorkspace/Gemini). الأفضل لسير العمل الذي يحتاج إلى تحريرات موثوقة واستمرارية وتكامل مع خدمات Google.
- Midjourney — يتفوّق في المخرجات الفنية المُطعّمة بأسلوب وبالهندسة المجتمعية للمطالبة؛ ليس موجّهًا عادةً للدمج الفوتوغرافي الدقيق متعدد الصور أو أنظمة التحرير متعددة الوسائط المعمّقة.
- Stable Diffusion / أوزان مفتوحة — مفتوح بالكامل وقابل للتخصيص والاستضافة محليًا؛ نظام بيئي من نقاط التحقق والتعيير الدقيق ميزة حاسمة للبحث والاستخدام دون اتصال. تكامل أقل “بنقرة واحدة” مع المحمول واتساق أقل لتحرير متعدد الصور خارج الصندوق مقارنةً بـ Nano Banana Pro.
- Seedream 4.0 (ByteDance) — موضوعة حديثًا كمنافس مباشر لـ Nano Banana، مع تركيز على العرض فائق السرعة، مخرجات 2K، ودعم العديد من الصور المرجعية (حتى ست صور). تُقدَّم كبديل احترافي/إبداعي.
(هذه المقارنات عالية المستوى؛ اختر الأداة المناسبة وفق سير عملك: الانفتاح/قابلية التخصيص → Stable Diffusion؛ الفن المُطعّم بأسلوب → Midjourney؛ تحرير محمول متكامل ومتسق مع تكرار هجومي → عائلة Nano Banana Pro/ Gemini 3 Pro Image.)
حالات استخدام واقعية
- تحرير الصور على المحمول والفلاتر الإبداعية (تكاملات Google Photos — إعادة الأسلوب، دمج الخلفيات، إعادة تركيب البورتريه).
- أصول التسويق والإعلانات — توليد سريع للمفاهيم، شخصيات علامة تجارية متّسقة عبر عدة إطارات/زوايا.
- فن المفاهيم وتخطيط القصص — يساعد الدمج متعدد الصور في الحفاظ على اتساق الشخصية عبر اللوحات.
- التجارة الإلكترونية/نماذج المنتجات — توليد لقطات منتجات متّسقة في سياقات/ظروف إضاءة مختلفة.
- النمذجة السريعة لأصول AR/VR — مخرجات 2K/4K عالية الجودة يمكن ترقية دقتها للاستخدامات الغامرة.
- كيفية الوصول إلى واجهة gemini-3-pro-image(Nano Banana Pro) API
الخطوات المطلوبة
- سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا.
- احصل على مفتاح واجهة API للاعتماد. انقر “Add Token” ضمن رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx ثم أرسله.
- احصل على عنوان URL لهذا الموقع: https://api.cometapi.com/
طريقة الاستخدام
- حدّد نقطة النهاية “
gemini-3-pro-image” لإرسال طلب الـAPI واضبط جسم الطلب. طريقة الطلب وجسمه مُتاحة في وثائق الـAPI على موقعنا. يوفر موقعنا أيضًا اختبار Apifox لراحتك. - استبدل <YOUR_API_KEY> بمفتاح CometAPI الحقيقي من حسابك.
- أدخل سؤالك أو طلبك في حقل المحتوى — هذا ما سيستجيب له النموذج.
- . قم بمعالجة استجابة الـAPI للحصول على الإجابة المُولَّدة.
توفر CometAPI واجهة REST API متوافقة بالكامل — لانتقال سلس. التفاصيل الأساسية :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.