Temel özellikler
- Metin → Görsel: güçlü isteme bağlılıkla tamamen istem odaklı üretim.
- Görsel → Görsel (düzenlemeler): birden fazla düzenleme boyunca özne/karakter tutarlılığını koruyan ince ve hedefli düzenlemeler.
- Maksimum çıktı çözünürlüğü: 4K'ya kadar (örnekler ve desteklenen kesin piksel boyutları en-boy oranına bağlıdır; API 1K/2K/4K ön ayarlarını sunar)
- Yinelemeli planlama ve öz-düzeltme: yaygın görsel hataları (perspektif, metin, ince geometri) tespit edip düzelten dahili bir “çok aşamalı” işlem hattı.
- Görsel içi gelişmiş metin oluşturma: posterler, mockup'lar ve infografikler için uygun, net ve okunaklı çok dilli metinler (kısa başlıklardan uzun paragraflara kadar).
- Tek bir iş akışında 5 karakter ve en fazla 14 nesne/referans görsel için yüksek sadakat.
- Filigran / köken bilgisi: oluşturulan tüm görsellerde bir SynthID filigranı bulunur; model, bazı ürün entegrasyonlarında köken bilgisi için C2PA meta verisi gömer.
Gemini 3 Pro Image sürümleri ve adlandırma
gemini-3-pro-image-previewgemini-3-pro-image
Teknik ayrıntılar
Mimari
- Soy / omurga: Nano Banana Pro, Google'ın gelişen Gemini görsel yığını üzerine inşa edilmiştir — özellikle yeni Gemini 3 Pro Image / GEMPIX 2 mimarisi (daha yüksek kapasiteli çok modlu bir görsel + metin çerçevesi). Bu, Gemini 2.5 Flash Image'dan (orijinal “nano-banana”) evrilerek genişletilmiş görsel-dil akıl yürütme yeteneklerine sahip yerel çok modlu bir görsel modele dönüşmüştür.
- Model davranışı: yerel çok modluluk (görsel + metin + dünya bilgisi), çoklu görsel birleştirme için açık işlem hatları ve tek bir statik örnek üretmek yerine çıktıları birden fazla geçişte iyileştiren dahili aşamalı bir planlayıcı. İlk raporlar, önceki sürümlere kıyasla daha güçlü geometrik/optik akıl yürütmeye (cam, kırılma) işaret ediyor.
- Düşünme / dahili iyileştirme: Model, kompozisyonu iyileştirmek için dahili olarak görünür bir “düşünme” süreci kullanır (API belgeleri bu davranışı açıklar ve bu dahili adımların nihai görsel token'ları olarak ücretlendirilmediğini belirtir).
- Grounding ve araçlar: Search grounding desteği sunar (diyagram/infografik üretimine web gerçeklerini dahil edebilir). Ayrıca daha belirleyici kontrol için sistem talimatlarını da destekler.
Temel API parametreleri:
thinking_level(low / high): gecikme ile akıl yürütme derinliği arasında denge kurmak için;media_resolution(low/medium/high): görsel OCR/ayrıntı okuma token'larını kontrol etmek için;generationConfig.imageConfig: görsel çıktılarında en-boy oranını/çözünürlüğü kontrol etmek için.
Görsel sınırları:
- Desteklenen giriş modaliteleri: Metin ve görseller (model, görsel üretim girdisi olarak ses veya video kabul etmez).
- İstem başına maksimum görsel: 14 (Gemini 3 Pro Image preview için).
- Maksimum görsel boyutu (yükleme): giriş görseli başına 7 MB.
- Desteklenen en-boy oranları: 1:1, 3:2, 16:9, 9:16, 21:9 vb.
Çıktı görselleri / token'lar: yüksek limitler; 4K/4096px desteklenir.
Benchmark performansı
Kısa özet: şu ana kadarki kamuya açık/erken benchmark'lar çoğunlukla niteliksel / topluluk odaklıdır, ancak orijinal nano-banana'ya (Gemini 2.5 Flash Image) kıyasla çözünürlükte, artefakt azaltımında ve fiziksel doğrulukta önemli iyileşmeler olduğunu tutarlı biçimde bildirir. Belirli adlandırılmış “zorluklar” açık görsel kazanımlar göstermiştir, ancak Google'dan v1 → v2'yi standart görsel üretim metrikleri üzerinden karşılaştıran kamuya açık standart sayısal benchmark tabloları henüz yoktur.
- Niteliksel topluluk testleri: Daha temiz kenarlar, daha keskin mikro ayrıntılar, daha gerçek renkler ve isteme daha sadık uyum (daha az halüsinasyon ürünü aksesuar, daha tutarlı karakterler). Popüler gayriresmî testler arasında “Wine Glass Test” ve “Glass Burger Challenge” yer alır; bu testlerde GEMPIX2 (Nano Banana Pro), saydamlık ve kırılmayı önceki sürümlere göre belirgin biçimde daha iyi işler.
- Metin işleme: Nano Banana Pro, görseller içindeki tipografi ve metin yerleşiminde gözle görülür biçimde geliştirilmiştir (bu, birçok görsel model için kalıcı bir zayıflıktır). Topluluk karşılaştırmaları, bozulmuş gliflerin daha az üretildiğini gösterir.
- İş hacmi / UX: daha hızlı yineleme hızı ve arka planda çok aşamalı iyileştirme yapan bir kullanıcı deneyimi; böylece kullanıcılar ilk denemede daha güvenilir sonuçlar görür (manuel yeniden üretim ihtiyacını azaltır).
Sınırlamalar ve riskler
- İçerik filtreleri ve tespit: Modeli entegre eden platformlar (ör. Whisk/üçüncü taraf uygulamalar), katı ünlü veya benzerlik tespiti etkinleştirebilir ve bazı çıktıları engelleyebilir; bu da gerçekçi ünlü benzerliklerine dayanan yaratıcı iş akışlarını etkiler.
- Halüsinasyon / akıl yürütme uç durumları: geliştirilmiş olsa da model, özellikle görseller içindeki yoğun sembolik metinlerde veya çok teknik diyagramlarda hâlâ fiziksel olarak gerçekçi olmayan artefaktlar üretebilir — ancak NB2, önceki sürümlere kıyasla bu hataları azaltıyor gibi görünmektedir.
- Güvenlik ve kötüye kullanım: üretken görsel modeller sorunlu veya zararlı içerik oluşturmak için kullanılabilir. Google, köken takibine yardımcı olmak için kısıtlamalar, içerik filtreleri ve SynthID filigranı uygular; yine de kötüye kullanım vakaları yaşanmıştır (politik açıdan hassas bir bağlamda Nano Banana tarafından üretilmiş bir görsele bağlı yüksek profilli bir tartışma gibi).
Nano Banana Pro'nun diğer modellerle karşılaştırması
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — güçlü mobil entegrasyon, çoklu görsel birleştirme, yinelemeli öz-düzeltme, yerel 2K / 4K yükseltme ve Google uygulamalarına (Search, Photos, Workspace/Gemini) sıkı entegrasyon. Güvenilir düzenlemeler, süreklilik ve Google hizmetleriyle entegrasyon gerektiren iş akışları için en uygunudur.
- Midjourney — stilize sanatsal çıktılarda ve topluluk odaklı istem mühendisliğinde öne çıkar; genellikle foto-gerçekçi çoklu görsel birleştirme veya derin çok modlu düzenleme işlem hatları için hedeflenmez.
- Stable Diffusion / açık ağırlıklar — tamamen açık, son derece özelleştirilebilir ve yerel olarak barındırılabilir; checkpoint ve ince ayar ekosistemi araştırma ve çevrimdışı kullanım için belirleyici bir avantajdır. Nano Banana Pro'ya kıyasla daha az “tek tıkla” mobil entegrasyon ve kutudan çıktığı haliyle daha az tutarlı çoklu görsel düzenleme uyumu sunar.
- Seedream 4.0 (ByteDance) — yakın zamanda açıkça bir Nano Banana rakibi olarak konumlandırılmıştır; ultra hızlı işleme, 2K çıktı ve çok sayıda referans görseli (altıya kadar) desteklemeyi vurgular. Profesyoneller/üreticiler için bir alternatif olarak konumlandırılmıştır.
(Bu karşılaştırmalar üst düzeydedir; kazananı iş akışınıza göre seçin: açıklık/özelleştirilebilirlik → Stable Diffusion; stilize sanat → Midjourney; entegre, tutarlı mobil düzenleme ve agresif yineleme → Nano Banana Pro / Gemini 3 Pro Image ailesi.)
Gerçek dünya kullanım senaryoları
- Mobil fotoğraf düzenleme ve yaratıcı filtreler (Google Photos entegrasyonları — yeniden stil verme, arka plan birleştirme, portre yeniden kompozisyonu).
- Pazarlama ve reklam varlıkları — hızlı konsept üretimi, birden fazla kare/açı boyunca tutarlı marka karakterleri.
- Konsept sanatı ve storyboard — çoklu görsel birleştirme, paneller arasında karakter sürekliliğini korumaya yardımcı olur.
- E-ticaret / ürün mockup'ları — farklı bağlamlarda/aydınlatma koşullarında tutarlı ürün çekimleri üretir.
- AR/VR varlıkları için hızlı prototipleme — sürükleyici kullanım senaryoları için yükseltilebilen yüksek kaliteli 2K/4K çıktılar.
- gemini-3-pro-image(Nano Banana Pro) API'sine nasıl erişilir
Gerekli Adımlar
- cometapi.com'a giriş yapın. Henüz kullanıcımız değilseniz, lütfen önce kayıt olun
- Arayüzün erişim kimlik bilgisi olan API anahtarını alın. Kişisel merkezde API token bölümündeki “Add Token” seçeneğine tıklayın, token anahtarını alın: sk-xxxxx ve gönderin.
- Bu sitenin URL'sini alın: https://api.cometapi.com/
Kullanım Yöntemi
- API isteğini göndermek ve istek gövdesini ayarlamak için “
gemini-3-pro-image” endpoint'ini seçin. İstek yöntemi ve istek gövdesi web sitemizdeki API dokümanından alınabilir. Web sitemiz ayrıca kolaylığınız için Apifox testi de sunar. - <YOUR_API_KEY> kısmını hesabınızdaki gerçek CometAPI anahtarınızla değiştirin.
- Sorunuzu veya isteğinizi content alanına ekleyin — modelin yanıtlayacağı kısım burasıdır.
- Oluşturulan yanıtı almak için API yanıtını işleyin.
CometAPI, sorunsuz geçiş için tamamen uyumlu bir REST API sunar. Temel ayrıntılar :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Adları:
gemini-3-pro-image - Kimlik Doğrulama:
Bearer YOUR_CometAPI_API_KEYbaşlığı - Content-Type:
application/json.