Ağustos 2025'in sonlarında Google (DeepMind) yayınladı Gemini 2.5 Flash Görüntüsü — yaygın olarak lakaplı "nano-muz" — Gemini uygulamasına, Google AI Studio'ya, Gemini API'sine ve CometAPI'ye entegre edilmiş, düşük gecikmeli, yüksek kaliteli bir görüntü oluşturma ve düzenleme modeli. Fotogerçekçi görüntüler üretmek, düzenlemeler arasında karakter tutarlılığını korumak, birden fazla giriş görüntüsünü birleştirmek ve doğal dil komutlarıyla incelikli, yerelleştirilmiş düzenlemeler yapmak üzere tasarlanmıştır. Model, önizleme/erken GA sürümlerinde mevcuttur ve güvenlik mekanizmalarıyla (SynthID filigranlama ve ürün düzeyinde filtreler) birlikte gelirken, görüntü lider tablolarında (LMArena) zirveye yerleşmiştir.
Gemini 2.5 Flash Image (nam-ı diğer “Nano Banana”) nedir?
Gemini 2.5 Flash Görüntüsü — şakacı bir lakap Nano Muz — Google DeepMind'ın Gemini ailesindeki en yeni görüntü oluşturma ve düzenleme modelidir. Ağustos 2025 sonlarında duyurulan model, Gemini'nin çok modlu araç setine daha yüksek doğrulukta düzenlemeler, çoklu görüntü birleştirme, daha iyi karakter tutarlılığı (aynı kişi/evcil hayvan/nesnenin birden fazla düzenlemede tanınabilirliğini koruma) ve düşük gecikmeli görüntü oluşturma özelliği getiren bir önizleme sürümü olarak konumlandırılmıştır. Gemini API, Google AI Studio, Gemini mobil/web uygulamaları ve kurumsal müşteriler için Vertex AI aracılığıyla kullanılabilir.
Kökeni ve adlandırılması
"Nano muz" takma adı, ilk test kullanıcıları ve LMArena katılımcıları meyve temalı bir etiket kullandıktan sonra sosyal medya akışlarında ve topluluk liderlik tablolarında viral bir kısaltma haline geldi; Google da bu bağlantıyı doğruladı ve geliştirici ve ürün gönderilerinde bu eğlenceli takma adı herkese açık bir şekilde benimsedi. Resmi ürün adı: Gemini 2.5 Flash Görüntüsü ve genellikle kodda ve API çağrılarında kullanılan model tanımlayıcısını göreceksiniz (önizleme kullanımı için örneğin şöyle görünür) gemini-2.5-flash-image-preview).
Gemini 2.5 Flash Image'ın öne çıkan özellikleri nelerdir?
"Karakter tutarlılığı" aslında ne anlama geliyor?
Önemli yeteneklerden biri şudur: karakter tutarlılığı: Modelden, tanımlayıcı görsel özellikleri (yüz/şekil, renk paleti, ayırt edici işaretler) koruyarak aynı nesneyi (bir kişi, evcil hayvan, maskot veya ürün) birçok düzenlemede veya yeni sahnede tekrar kullanmasını isteyebilirsiniz. Bu, daha önceki görüntü modellerinde, sonraki düzenlemelerin görsel olarak gerçekçi ancak fark edilir derecede farklı kişiler/nesneler ortaya çıkarabileceği yaygın bir zayıflığı giderir. Böylece geliştiriciler, daha az manuel düzeltmeyle ürün katalogları, epizodik hikaye anlatımı veya marka varlığı oluşturma için iş akışları oluşturabilirler.
Başka hangi düzenleme kontrolleri dahildir?
Gemini 2.5 Flash Image şunları destekler:
- Hedeflenen yerel düzenlemeler sade dilli komutlar aracılığıyla (bir nesneyi kaldırma, kıyafeti değiştirme, cildi rötuşlama, arka plan öğesini kaldırma).
- Çoklu görüntü füzyonu: Üç giriş görüntüsünü tek bir tutarlı kompozisyonda birleştirin (örneğin, aydınlatmayı koruyarak görüntü A'daki bir ürünü sahne B'ye yerleştirin).
- Stil ve biçim denetimleri: fotogerçekçi talimatlar, kamera ve lens özellikleri, en boy oranı ve stilize çıktılar (ilüstrasyon, çıkartma, vb.).
- Yerli dünya bilgisi: Model, anlamsal olarak bilinçli düzenlemeler yapmak için daha geniş Gemini ailesinin bilgisinden yararlanır (örneğin, "Rönesans aydınlatması" veya "Tokyo yaya geçidi"nin ne anlama geldiğini anlamak).
Peki ya hız, maliyet ve ulaşılabilirlik?
Gemini 2.5 Flash Image, Gemini 2.5'in Flash katmanının bir parçasıdır ve düşük gecikme süresi ve maliyet için optimize edilmiş olup güçlü kaliteyi korur. Google, görüntü çıktı belirteçleri için fiyatlandırmayı önceden bildirdi ve API ve AI Studio aracılığıyla kullanılabilirlik sağladı; kurumsal müşteriler buna Vertex AI aracılığıyla erişebilir. Duyuru sırasında, Gemini 2.5 Flash Image katmanı için yayınlanan fiyatlandırma şu şekildeydi: $30 her 1 milyon çıktı jetonu için, görüntü başına maliyet örneğinin şu şekilde bildirilmesiyle 1290 çıktı belirteci ≈ $0.039 görüntü başına.
Gemini 2.5 Flash Image arka planda nasıl çalışıyor?
Mimarlık ve eğitim yaklaşımı
Gemini 2.5 Flash Image, Gemini 2.5 ailesinin mimarisini devralır: metin, resim, ses ve diğer verileri birleştiren çok modlu eğitimle birlikte seyrek uzman karışımı (MoE) tarzı bir omurga. Google, Flash Image'ı çok büyük, filtrelenmiş çok modlu veri kümeleri üzerinde eğitti ve modeli görüntü görevleri (oluşturma, düzenleme, birleştirme) ve güvenlik davranışı için hassas bir şekilde ayarladı. Eğitim, Google'ın TPU altyapısında çalıştırıldı ve hem otomatik hem de insan yargısı metrikleriyle değerlendirildi.
Konuşma odaklı düzenleme
Model, üst düzeyde bağlamsal koşullandırma kullanır: Bir görüntü (veya birden fazla görüntü) ve metin istemleri sağladığınızda, model öznenin görsel kimliğini kendi iç temsiline kodlar. Sonraki düzenlemeler veya yeni sahneler sırasında, üretimi bu temsile göre koşullandırır, böylece istenen görsel nitelikler (yüz geometrisi, temel giyim veya ürün tanımlayıcıları, renk paletleri) korunur. Pratikte bu, Gemini API'si tarafından sunulan çok modlu içerik hattının bir parçası olarak uygulanır: Referans görüntüleri düzenleme talimatlarıyla birlikte gönderirsiniz ve model, düzenlenmiş görüntü çıktılarını (veya birden fazla aday görüntüyü) tek bir yanıtta döndürür.
Filigranlama ve menşe
Google, Gemini 2.5 Flash Image'a güvenlik ve içerik politikası filtreleri entegre ediyor. Bu sürüm, zararlı çıktıları en aza indirirken değerlendirme ve kırmızı takım oluşturma, otomatik filtreleme adımları, denetlenen ince ayar ve talimat takibi için pekiştirmeli öğrenmeyi vurguluyor. Çıktılar arasında, model tarafından üretilen veya düzenlenen görsellerin daha sonra yapay zeka tarafından üretildiği tespit edilebilmesi için görünmez bir SynthID filigranı bulunuyor.
Performansı ne kadar iyi? (Kıyaslama verileri)
Gemini 2.5 Flash Image (bazı kıyaslama bağlamlarında "nano-muz" olarak pazarlanmaktadır) LMArena'nın Görüntü Düzenleme ve Metinden Görüntüye liderlik tablolarında 1 numara Ağustos 2025 sonu itibarıyla, bildirilen karşılaştırmalarda rakiplerine göre büyük Elo/tercih üstünlükleri var. Hem metinden resme dönüştürme hem de resim düzenleme görevlerinde en yüksek tercih puanlarını gösteren LMArena ve GenAI-Bench insan değerlendirme sonuçlarına atıfta bulunuyorum.
Metin-Görüntü Karşılaştırması
| Yetenek Ölçütü | Gemini Flash 2.5 Görüntüsü | Imagen 4 Ultra 06-06 | ChatGPT 4o / GPT Görüntü 1 (Yüksek) | FLUX.1 Bağlam | Gemini Flash 2.0 Görüntüsü |
|---|---|---|---|---|---|
| Genel Tercih (LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| Görsel Kalite (GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| Metin-Görüntü Hizalaması (GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
Resim Düzenleme
| Yetenek Ölçütü | Gemini Flash 2.5 Görüntüsü | ChatGPT 4o / GPT Görüntü 1 (Yüksek) | FLUX.1 Bağlam | Qwen Resim Düzenleme | Gemini Flash 2.0 Görüntüsü |
|---|---|---|---|---|---|
| Genel Tercih (LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| Karakter | 1170 | 1059 | 1010 | 911 | 850 |
| Yaratıcı | 1112 | 1057 | 968 | 983 | 879 |
| İnfografik | 1067 | 1029 | 967 | 1012 | 925 |
| Nesne / Ortam | 1064 | 1023 | 1002 | 1010 | 901 |
| Ürün Yeniden Bağlamlandırması | 1128 | 1032 | 943 | 1009 | 888 |
| stilizasyon | 1062 | 1165 | 949 | 1091 | 733 |

Peki bu ölçütler pratikte ne anlama geliyor?
Ölçütler bize iki şey söyler: (1) model fotogerçekçi üretimde rekabetçidir ve (2) öne çıkmaktadır. kurgu Karakter tutarlılığı ve anında uyumun önemli olduğu görevler. İnsan tercihi sıralamaları, çıktıları görüntüleyen kullanıcıların Gemini'nin çıktılarını gerçekçilik ve değerlendirilen birçok komuttaki talimatlarla uyum açısından yüksek puanla değerlendirdiğini gösteriyor. Ancak, bilinen sınırlamalar hakkında açık olun (ince gerçek ayrıntılarda halüsinasyon riski, görsellerin içinde uzun metinlerin işlenmesi, stil aktarımında uç durumlar) — bu nedenle kıyaslamalar bir garanti değil, bir rehberdir.
Gemini 2.5 Flash Image ile neler yapabilirsiniz (kullanım örnekleri)?
Gemini 2.5 Flash Image, özellikle yaratıcılık, üretkenlik ve uygulamalı görüntüleme senaryoları için tasarlanmıştır. Tipik ve yeni kullanım örnekleri şunlardır:
Hızlı ürün maketleri ve e-ticaret
Ürün fotoğraflarını sahnelere sürükleyin, farklı ortamlarda tutarlı katalog görselleri oluşturun veya bir ürün serisinde renkleri/kumaşları değiştirin; tüm bunları yaparken ürünün kimliğini koruyun. Çoklu görsel birleştirme özellikleri ve karakter/ürün tutarlılığı, katalog iş akışları için cazip hale getirir.
Fotoğraf rötuşlama ve hedeflenen düzenlemeler
Doğal dil komutlarıyla nesneleri kaldırın, kusurları giderin, kıyafetleri/aksesuarları değiştirin veya aydınlatmayı ayarlayın. Yerelleştirilmiş düzenleme özelliği, uzman olmayanların bile konuşma komutlarını kullanarak profesyonel tarzda rötuş yapmalarını sağlar.
Hikaye panosu ve görsel hikaye anlatımı
Aynı karakteri farklı sahnelere yerleştirin ve görünümlerinin tutarlı olmasını sağlayın (çizgi romanlar, hikaye panoları veya tanıtım sunumları için kullanışlıdır). Yinelenen düzenlemeler, içerik oluşturucuların varlıkları sıfırdan yeniden oluşturmadan ruh halini, çerçeveyi ve anlatı sürekliliğini iyileştirmelerine olanak tanır.
Eğitim, diyagramlar ve tasarım prototipleme
Metin istemlerini ve görselleri birleştirebildiği ve "dünya bilgisine" sahip olduğu için, model açıklamalı diyagramlar, eğitici görseller veya sunumlar için hızlı taslaklar oluşturmaya yardımcı olabilir. Google, AI Studio'da gayrimenkul taslakları ve ürün tasarımı gibi kullanım durumları için şablonları bile vurgular.
Nano Banana API'yi nasıl kullanıyorsunuz?
Aşağıda, şu kaynaktan uyarlanan pratik kesitler yer almaktadır: CometAPI API belgeleri ve Google'ın API belgeleri. Bunlar yaygın akışları gösterir: metinden görüntüye ve resim + metinden resme (düzenleme) resmi GenAI SDK veya REST uç noktasını kullanarak.
Not: CometAPI belgelerinde önizleme modeli adı şu şekilde görünür:
gemini-2.5-flash-image-previewAşağıdaki örnekler resmi SDK örneklerini (Python ve JavaScript) ve bir REST curl örneğini yansıtmaktadır; anahtarları ve dosya yollarını ortamınıza uyarlayın.
CometAPI'den REST curl örneği
Gemini'nin resmi hesabını kullanın generateContent metinden görüntüye dönüştürme için uç nokta. Metin istemini şuraya yerleştirin: contents.parts[].text.Örnek (Windows kabuğu, kullanarak ^ (satır devamı için):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
Yanıt base64 görüntü baytlarını içerir; yukarıdaki işlem hattı şunları çıkarır: "data" dizeyi çözer ve onu şu şekilde kodlar: gemini-generated.png.
Bu uç nokta "görüntüden görüntüye" oluşturmayı destekler: bir giriş görüntüsü yükleyin (Base64 olarak) ve değiştirilmiş yeni bir görüntü alın (yine Base64 biçiminde).Örnek:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**Açıklama:**Öncelikle kaynak görüntü dosyanızı Base64 dizesine dönüştürün ve şuraya yerleştirin: inline_data.data. gibi önekleri dahil etmeyin data:image/jpeg;base64,Çıktı ayrıca şurada bulunur: candidates.content.parts ve şunları içerir: İsteğe bağlı bir metin parçası (açıklama veya istem). Görüntü parçası inline_data (nerede data (Çıktı görüntüsünün Base64'üdür).Birden fazla görüntü için bunları doğrudan ekleyebilirsiniz, örneğin:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
Aşağıda Google'ın resmi dokümanlarından ve blogundan uyarlanmış geliştirici örnekleri bulunmaktadır. Kimlik bilgilerini ve dosya yollarını kendi bilgilerinizle değiştirin.
Python (resmi SDK stili)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Bu, Google'ın belgelerinden alınan kanonik Python kod parçacığıdır (önizleme modeli kimliği gösterilmiştir). Aynı SDK çağrı modeli, görüntü + istem düzenlemeyi destekler (bir görüntüyü, contents).Daha fazla ayrıntı için bkz. ikizler doktoru.
Sonuç
Ürününüzün sağlam, düşük gecikmeli görüntü üretimine ve özellikle de konu tutarlılığıyla güvenilir düzenlemeGemini 2.5 Flash Image artık değerlendirilmeye değer bir üretim seviyesi seçeneği: En son görüntü kalitesini geliştirici entegrasyonu için tasarlanmış API'lerle (AI Studio, Gemini API ve Vertex AI) birleştiriyor. Modelin mevcut sınırlamalarını (görüntülerdeki ince metinler, bazı stilizasyon uç durumları) dikkatlice değerlendirin ve sorumlu kullanım önlemlerini uygulayın.
Başlamak
CometAPI, OpenAI'nin GPT serisi, Google'ın Gemini, Anthropic'in Claude, Midjourney, Suno ve daha fazlası gibi önde gelen sağlayıcılardan 500'den fazla AI modelini tek bir geliştirici dostu arayüzde toplayan birleşik bir API platformudur. Tutarlı kimlik doğrulama, istek biçimlendirme ve yanıt işleme sunarak CometAPI, AI yeteneklerinin uygulamalarınıza entegrasyonunu önemli ölçüde basitleştirir. İster sohbet robotları, görüntü oluşturucular, müzik bestecileri veya veri odaklı analiz hatları oluşturuyor olun, CometAPI daha hızlı yineleme yapmanızı, maliyetleri kontrol etmenizi ve satıcıdan bağımsız kalmanızı sağlar; tüm bunları yaparken AI ekosistemindeki en son atılımlardan yararlanırsınız.
Geliştiriciler erişebilir Gemini 2.5 Flash Görüntüsü(Nano Banana CometAPI listesi gemini-2.5-flash-image-preview/gemini-2.5-flash-image (kataloglarındaki stil girişleri) CometAPI aracılığıyla, listelenen en son model sürümleri makalenin yayınlandığı tarih itibarıyla geçerlidir. Başlamak için, modelin yeteneklerini keşfedin. Oyun Alanı ve danışın API kılavuzu Ayrıntılı talimatlar için. Erişimden önce, lütfen CometAPI'ye giriş yaptığınızdan ve API anahtarını edindiğinizden emin olun. Kuyrukluyıldız API'si Entegrasyonunuza yardımcı olmak için resmi fiyattan çok daha düşük bir fiyat teklif ediyoruz.
