الميزات الأساسية
- Text → Image: توليد كامل قائم على الموجّه مع التزام قوي بالموجّه.
- Image → Image (تحريرات): تحريرات دقيقة ومُوجَّهة مع الحفاظ على اتساق الموضوع/الشخصية عبر تحريرات متعددة.
- Maximum output resolution: حتى 4K (تعتمد الأمثلة وأحجام البكسل الدقيقة المدعومة على نسبة العرض إلى الارتفاع؛ يوفّر الـ API إعدادات جاهزة 1K/2K/4K)
- Iterative planning & self-correction: خط أنابيب داخلي “متعدد المراحل” يكتشف ويصحح الأخطاء البصرية الشائعة (المنظور، النص، الهندسة الدقيقة).
- Advanced in-image text rendering: عرض نص داخل الصورة بوضوح وقابلية قراءة متعددة اللغات (من تسميات قصيرة إلى فقرات طويلة) مناسب للبوسترات والنماذج المعلوماتية والموكّبات.
- 5 شخصيات ودرجة وفاء تصل إلى 14 عنصرًا/صورة مرجعية في سير عمل واحد.
- Watermarking / provenance: تتضمن جميع الصور المُولَّدة علامة مائية SynthID؛ كما يضمّن النموذج بيانات وصفية C2PA لإثبات المصدر في بعض عمليات تكامل المنتجات.
إصدارات Gemini 3 Pro Image والتسمية
gemini-3-pro-image-previewgemini-3-pro-image
تفاصيل تقنية
البنية
- Lineage / backbone: Nano Banana Pro مبني على حزمة صور Gemini المتطورة من Google — وبشكل محدد معمارية Gemini 3 Pro Image / GEMPIX 2 (إطار متعدد الوسائط عالي السعة للصورة+النص). وهو تطوّر من Gemini 2.5 Flash Image (الـ “nano-banana” الأصلي) إلى نموذج صور متعدد الوسائط أصيل مع قدرات موسّعة للاستدلال بين الرؤية واللغة.
- Model behavior: تعددية وسائط أصلية (صورة + نص + معرفة العالم)، وخطوط أنابيب صريحة لدمج صور متعددة، ومخطط داخلي على مراحل يصقل المخرجات عبر عدة تمريرات بدلًا من إنتاج عينة ثابتة واحدة. تشير التقارير المبكرة إلى استدلال هندسي/بصري أقوى (الزجاج، الانكسار) مقارنة بالإصدارات السابقة.
- Thinking / internal refinement: يستخدم النموذج عملية “تفكير” مرئية داخليًا لصقل التكوين (التركيب)، ويوثّق الـ API هذا السلوك ويشير إلى أن تلك الخطوات الداخلية غير محتسبة كرموز صور نهائية.
- Grounding & tools: يدعم Search grounding (يمكنه دمج حقائق من الويب في توليد المخططات/الإنفوجرافيك). كما يدعم تعليمات النظام للتحكم الحتمي بدرجة أعلى.
معلمات API الرئيسية:
thinking_level(low / high) للمفاضلة بين زمن الاستجابة وعمق الاستدلال؛media_resolution(low/medium/high) للتحكم في رموز قراءة التفاصيل/OCR في الصور؛generationConfig.imageConfigللتحكم في نسبة العرض إلى الارتفاع/الدقة في مخرجات الصور.
حدود الصور:
- المدخلات المدعومة: نصوص وصور (النموذج لا يقبل الصوت أو الفيديو كمدخلات لتوليد الصور).
- الحد الأقصى لعدد الصور لكل موجّه: 14 (لإصدار المعاينة من Gemini 3 Pro Image).
- الحد الأقصى لحجم الصورة (رفع): 7 MB لكل صورة مدخلة.
- نسب العرض إلى الارتفاع المدعومة: 1:1، 3:2، 16:9، 9:16، 21:9، وغيرها.
الصور/الرموز المخرجة: حدود مرتفعة، مع دعم 4K/4096px.
أداء القياس المقارن
خلاصة قصيرة: القياسات العامة/المبكرة حتى الآن ذات طابع نوعي ومجتمعي بالأساس، لكنها تُجمع على تحسينات كبيرة في الدقة، وتقليل العيوب، والوفاء الفيزيائي مقارنة بـ nano-banana الأصلي (Gemini 2.5 Flash Image). لقد أظهرت “تحديات” مسماة محددة مكاسب بصرية واضحة، إلا أنه لا توجد بعد جداول قياس رقمية معيارية (عامة) من Google تقارن v1 → v2 عبر مقاييس توليد الصور القياسية.
- اختبارات مجتمعية نوعية: حواف أنظف، تفاصيل دقيقة أكثر حدة، ألوان أكثر صدقًا، ووفاء أعلى بالموجّه (عوائد أقل لعناصر متخيلة، وشخصيات أكثر اتساقًا). تشمل الاختبارات غير الرسمية الشائعة ما يسمى “Wine Glass Test” و“Glass Burger Challenge”، حيث يتعامل GEMPIX2 (Nano Banana Pro) مع الشفافية والانكسار بشكل أفضل بكثير من الإصدارات السابقة.
- التعامل مع النص داخل الصور: يُظهر Nano Banana Pro تحسنًا ملحوظًا في الطباعة ووضع النص داخل الصور (وهو ضعف مستمر لدى العديد من نماذج الصور). تشير المقارنات المجتمعية إلى عدد أقل من المحارف المشوّهة.
- Throughput / UX: سرعة تكرار أعلى وتجربة استخدام تُجري صقلًا متعدد المراحل في الخلفية بحيث يرى المستخدمون نتائج أولى أكثر موثوقية (ما يقلل إعادة المحاولات اليدوية).
القيود والمخاطر
- مرشحات المحتوى والكشف: قد تقوم المنصات التي تدمج النموذج (مثل Whisk/تطبيقات طرف ثالث) بتمكين اكتشاف صارم للمشاهير أو السمات الشبيهة بهم وحظر مخرجات معينة، ما يؤثر على سير العمل الإبداعي الذي يعتمد على صور مشاهير واقعية.
- هلوسة/حالات حافة الاستدلال: رغم التحسن، لا يزال بإمكانه إنتاج عيوب فيزيائية غير واقعية، خاصة مع النص الرمزي الكثيف داخل الصور أو المخططات التقنية جدًا — مع ذلك، يبدو أن NB2 يقلل هذه الأخطاء مقارنة بالبُنى الأسبق.
- السلامة وسوء الاستخدام: يمكن استخدام نماذج توليد الصور لإنتاج محتوى إشكالي أو ضار. تطبق Google قيودًا ومرشحات محتوى وعلامة مائية SynthID للمصدر؛ ومع ذلك، حدثت حالات سوء استخدام (جدل بارز مرتبط بصورة مُولّدة عبر Nano Banana في سياق سياسي حساس).
مقارنة Nano Banana Pro مع نماذج أخرى
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — تكامل قوي مع الهواتف، دمج متعدد الصور، تصحيح ذاتي تكراري، 2K أصلي/ترقية إلى 4K، مدمج بإحكام في تطبيقات Google (Search وPhotos وWorkspace/Gemini). الأفضل لسير العمل الذي يحتاج تحريرات موثوقة، واستمرارية، وتكاملًا مع خدمات Google.
- Midjourney — يتفوق في المخرجات الفنية المُصمّمة الأسلوب والمجتمع المحرِّك لهندسة الموجهات؛ ليس مستهدفًا عادةً لدمج صور متعددة بدقة فوتوغرافية أو خطوط تحرير متعددة الوسائط عميقة خارج الصندوق.
- Stable Diffusion / open weights — مفتوح بالكامل، قابل للتخصيص بدرجة عالية، وقابل للاستضافة محليًا؛ نظام بيئي من نقاط الفحص والتدريب الإضافي ميزة حاسمة للبحث والاستخدام دون اتصال. تكامل أقل “بنقرة واحدة” على الهاتف واتساق أقل لتحريرات متعددة الصور جاهزًا مقارنة بـ Nano Banana Pro.
- Seedream 4.0 (ByteDance) — طُرح مؤخرًا كمنافس مباشر لـ Nano Banana، مع تركيز على سرعة التصيير العالية، ومخرجات 2K، ودعم العديد من الصور المرجعية (حتى ست). يتموضع كبديل احترافي/للمبدعين.
(هذه المقارنات عالية المستوى؛ اختر الأنسب بمطابقة الأداة مع سير عملك: الانفتاح/قابلية التخصيص → Stable Diffusion؛ الفن المُصمَّم أسلوبيًا → Midjourney؛ تحرير جوال متكامل ومتّسق مع تكرار سريع → عائلة Nano Banana Pro/ Gemini 3 Pro Image.)
حالات استخدام واقعية
- تحرير الصور على الهواتف والفلاتر الإبداعية (تكامل Google Photos — إعادة الأسلوب، دمج الخلفيات، إعادة تركيب البورتريه).
- أصول التسويق والإعلانات — توليد سريع للأفكار، وشخصيات علامة تجارية متّسقة عبر عدة إطارات/زوايا.
- رسومات المفاهيم ولوحات القصة — يساعد الدمج متعدد الصور في الحفاظ على استمرارية الشخصية عبر اللوحات.
- التجارة الإلكترونية/نماذج المنتجات — توليد لقطات منتج متّسقة في سياقات/ظروف إضاءة مختلفة.
- النمذجة السريعة لأصول AR/VR — مخرجات 2K/4K عالية الجودة يمكن ترقيتها لاستخدامات غامرة.
- كيفية الوصول إلى gemini-3-pro-image(Nano Banana Pro) API
الخطوات المطلوبة
- سجّل الدخول إلى cometapi.com. إذا لم تكن مستخدمًا لدينا بعد، يُرجى التسجيل أولًا.
- احصل على اعتماد الوصول لمفتاح الـ API للواجهة. انقر “Add Token” في رمز API في المركز الشخصي، واحصل على مفتاح الرمز: sk-xxxxx وقدّمه.
- احصل على عنوان url لهذا الموقع:
https://api.cometapi.com/
طريقة الاستخدام
- اختر نقطة النهاية “
gemini-3-pro-image” لإرسال طلب الـ API واضبط جسم الطلب. يمكن الحصول على طريقة الطلب وجسم الطلب من وثائق الـ API على موقعنا. يوفّر موقعنا أيضًا اختبار Apifox لراحتك. - استبدل <YOUR_API_KEY> بمفتاح CometAPI الحقيقي من حسابك.
- أدخل سؤالك أو طلبك في حقل content — هذا ما سيستجيب له النموذج.
- عالج استجابة الـ API للحصول على الإجابة المُولَّدة.
توفر CometAPI واجهة REST متوافقة بالكامل — لانتقال سلس. التفاصيل الأساسية:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.