كيفية إنشاء الصور وتحريرها باستخدام معاينة برنامج Gemini 2.0 Flash

CometAPI
AnnaMay 9, 2025
كيفية إنشاء الصور وتحريرها باستخدام معاينة برنامج Gemini 2.0 Flash

منذ إطلاقه في 7 مايو 2025، أصبحت إمكانيات الصور في Gemini 2.0 Flash متاحةً بنسخة تجريبية، مما يُمكّن المطورين والمبدعين على حدٍ سواء من إنشاء وتحسين الصور من خلال محادثات باللغة الطبيعية. تُلخص هذه المقالة أحدث الإعلانات والتقارير العملية والوثائق الفنية لإرشادك خلال كل شيء، بدءًا من صياغة أول مُطالبة بالصورة ووصولًا إلى إجراء تعديلات دقيقة على الأصول الموجودة. يطرح كل عنوان فرعي سؤالًا رئيسيًا لتوجيه استكشافك، بينما تُفصّل العناوين الفرعية التفاصيل التي تحتاجها لبدء البناء اليوم.

ما هي معاينة Gemini 2.0 Flash لإنشاء الصور وتحريرها؟

جيميني 2.0 فلاش هو أحدث نموذج ذكاء اصطناعي من جوجل، مُحسّن للسرعة ("فلاش") والمهام متعددة الوسائط، ويُتيح الآن إنشاء الصور وتحريرها في وضع المعاينة عبر جوجل إيه آي ستوديو وفيرتكس إيه آي. أعلنت كات كامبف، مديرة منتجات جوجل إيه آي ستوديو، عن إطلاق النموذج في 7 مايو 2025، ويكشف عن اسم النموذج. gemini-2.0-flash-preview-image-generation من خلال واجهة برمجة تطبيقات GenAI، مما يتيح معدلات طلب أعلى وتكاملاً سلسًا في التطبيقات. تؤكد India Today Tech أنه يمكن للمستخدمين المجانيين (عبر تطبيق Gemini) والمطورين (عبر AI Studio/Vertex AI) تجربة هذه الأدوات المُحسّنة مجانًا، مما يُمثل توسعًا كبيرًا في استخدام الذكاء الاصطناعي المتقدم للصور.

ما الذي يميز Gemini 2.0 Flash عن إصدارات توليد الصور السابقة؟

بالمقارنة مع نموذج الصورة التجريبية المضمن سابقًا في Gemini، يقدم Flash ما يلي:

  • تحسين الدقة البصرية:تفاصيل أكثر وضوحًا، وملمس أكثر واقعية، ومعالجة أفضل للعناصر الدقيقة مثل الشعر، وأوراق الشجر، والانعكاسات.
  • تحسين عرض النص:يضع النصوص وينسقها بدقة داخل الصور، مما يقلل من الأحرف المشوهة والرموز غير المحاذاة الشائعة في الإصدارات السابقة.
  • معدلات كتلة الفلتر المنخفضة:تتيح مرشحات المحتوى المريحة إمكانية الحصول على مطالبات أكثر أمانًا، مع الاستمرار في فرض السياسة على المواد غير المسموح بها، وتبسيط سير العمل لحالات الاستخدام المتوافقة.

كيف يمكن للمطورين إنشاء صور باستخدام معاينة Gemini 2.0 Flash؟

إن إنشاء الصور أمر بسيط مثل استدعاء GenAI SDK أو REST API مع موجه الأوامر الخاص بك وتحديد أنك تريد كل من أنماط النص والصورة.

استخدم API في جوجل:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

يوضح هذا المقطع الإعداد الأدنى: الاستبدال GEMINI_API_KEY باستخدام مفتاحك، اضبط contents قم بإضافة سلسلة إلى رؤيتك الإبداعية، واحصل على رابط للصورة التي تم إنشاؤها.

استخدام توليد صور فلاش Gemini 2.0 في CometAPI

ما هي أفضل الممارسات التي تؤدي إلى الحصول على صور عالية الجودة؟

  1. كن محددًا بشأن الأسلوب والوسيلة:"الرسم بالألوان المائية"، أو "مشهد السايبربانك النيون"، أو "فن المتجهات البسيط" تساعد النموذج على ترسيخ إنتاجه.
  2. تضمين تلميحات تكوينية:عبارات مثل "قاعدة الأثلاث" أو "إضاءة درامية من اليسار" أو "موضوع في المقدمة بتركيز حاد" تساعد في تأطير الصورة.
  3. كرر مع مطالبات المتابعة:استخدم التحرير المحادثة (راجع القسم التالي) لتحسين توازن الألوان، أو ضبط النسب، أو تحسين التفاصيل دون البدء من الصفر.

كيف يمكنك تعديل الصور الموجودة محادثة؟

تتم عملية التحرير عن طريق تحميل صورة أو تحديد أصل تم إنشاؤه مسبقًا، ثم إصدار تعليمات باللغة الطبيعية لتغيير مناطق أو سمات محددة.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

ما هي ميزات تحرير المحادثة المدعومة؟

  • التعديلات الانتقائية:قم بتغيير المناطق المحددة فقط (على سبيل المثال، "تفتيح العيون"، "إضافة الخط إلى لوحة الإرشاد") دون التأثير على وحدات البكسل المحيطة.
  • الرسم المشترك في الوقت الفعلي:من خلال تطبيق Gemini Co-Drawing Sample، يمكن للعديد من المتعاونين الرسم والتعليق مباشرة في AI Studio، مما يؤدي إلى تسريع سير العمل التكراري.
  • إعادة السياق:ضع المنتجات أو الشخصيات في مشاهد جديدة تمامًا - مثالية للنماذج التسويقية أو النماذج الأولية السريعة للمفاهيم المرئية.
  • إزالة العلامة المائية:يبلغ المستخدمون الأوائل أن Gemini 2.0 Flash يمكنه إزالة العلامات المائية المرئية واستبدالها بعلامة SynthID محايدة، على الرغم من تطبيق إرشادات الاستخدام الأخلاقية.

الجوزاء 2.0 فلاش

ما هي حدود الأسعار والأسعار المطبقة في المعاينة؟

لقد رفعت جوجل العديد من القيود من المرحلة التجريبية: يستفيد المطورون من حصص أعلى لكل دقيقة ومعدلات معاينة مخفضة.

كيف تم تحسين حدود الأسعار؟

  • زيادة QPS:تضاعف عدد الطلبات في الثانية مقارنة بالنموذج التجريبي السابق، مما يدعم أحمال العمل المتقطعة والتطبيقات في الوقت الفعلي.
  • تحرير بالجملة:يقبل برنامج Gemini الآن ما يصل إلى 10 صور في دفعة واحدة للتحرير، مما يعمل على تبسيط سير العمل التي تتطلب تعديلات متسقة في الأسلوب عبر أصول متعددة.

كيف يبدو سعر المعاينة؟

  • توليد الصور:حوالي 0.039 دولارًا أمريكيًا لكل صورة (3.9 سنتًا)، يتم تحصيلها مقابل كل إخراج فريد.
  • عمليات التحرير:أسعار مماثلة لأسعار وظائف الجيل، مع المزيد من الخصومات المخطط لها بمجرد انتهاء المعاينة.

كيف يمكنك الوصول إلى المعاينة وتكوينها اليوم؟

  1. تسجيل الدخول إلى Google AI Studio أو Vertex AI في Google Cloud Console.
  2. تمكين واجهة برمجة التطبيقات GenAI وإنشاء مفتاح API ضمن "بيانات الاعتماد".
  3. أختار نموذج gemini-2.0-flash-preview-image-generation في الكود الخاص بك أو مكالمات API.
  4. تحميل صور المصدر (إذا كنت تقوم بالتحرير) عبر Cloud Storage أو مباشرة في واجهة مستخدم Studio.
  5. استدعاء يمكنك عرض مطالباتك ومخرجات المراجعة في لوحة معلومات الاستوديو أو برمجيًا.

ما هي التحسينات المستقبلية التي يمكننا أن نتوقعها؟

أشارت شركة Google إلى العديد من التحسينات القادمة بمجرد تجاوز Gemini 2.0 Flash لمرحلة المعاينة:

قدرات موسعة

  • مخرجات ذات دقة أعلى (حتى 4K+)، مثالية للطباعة والعروض واسعة النطاق.
  • مزج الأنماط المتقدمة، وهو عبارة عن دمج العديد من المراجع الفنية في صورة واحدة.

تكامل أوسع

  • الدعم الأصلي في Chrome وDocs وSlides، وتطبيقات G Suite الأخرى، مما يتيح إنشاء الصور وتحريرها بنقرة واحدة.
  • عوامل متعددة الوسائط معززة (مشروع أسترا)، دمج مهام الصورة في محادثات أطول وأكثر وعياً بالسياق.

بفضل تمكين إنشاء الصور وتحريرها بدقة عبر واجهة تفاعلية سهلة الاستخدام، تُمثل النسخة التجريبية من Gemini 2.0 Flash إنجازًا بارزًا في مجال الإبداع المُعزز بالذكاء الاصطناعي، والذي يتميز بسهولة الوصول والتوسع. سواء كنت تُنشئ نماذج أولية لصور المنتج، أو تتعاون في تطوير مواد تسويقية، أو ببساطة تستكشف آفاقًا فنية جديدة، تُتيح لك النسخة التجريبية الأدوات اللازمة للتكرار بشكل أسرع وأكثر ثراءً من أي وقت مضى. مع تطور النسخة التجريبية إلى الإصدار الكامل، توقع تكاملًا أعمق عبر منظومة جوجل وقدرات متطورة باستمرار لدعم إنجازاتك القادمة.

كيف تبدأ

يمكن للمطورين الوصول  واجهة برمجة تطبيقات توليد الصور التجريبية في برنامج Gemini 2.0 Flash من خلال كوميت ايه بي اي. للبدء، استكشف قدرات النموذج في ساحة اللعب واستشر دليل واجهة برمجة التطبيقات (اسم الموديل: gemini-2.0-flash-exp-image-generation) للحصول على تعليمات مفصلة. يُرجى ملاحظة أن بعض المطورين قد يحتاجون إلى التحقق من مؤسستهم قبل استخدام النموذج. سيتم إطلاق واجهة برمجة تطبيقات Gemini 2.0 Flash لما قبل إنشاء الصور قريبًا.

SHARE THIS BLOG

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%