Eind augustus 2025 bracht Google (DeepMind) Gemini 2.5 Flash-afbeelding — algemeen bijgenaamd “nano-banaan” — een model voor het genereren en bewerken van afbeeldingen met lage latentie en hoge kwaliteit, geïntegreerd in de Gemini-app, Google AI Studio, de Gemini API en CometAPI. Het is ontworpen om fotorealistische afbeeldingen te produceren, de tekenconsistentie te behouden bij bewerkingen, meerdere invoerafbeeldingen samen te voegen en nauwkeurige, gelokaliseerde bewerkingen uit te voeren via natuurlijke-taalprompts. Het model is beschikbaar in preview/vroege algemene release en staat nu al bovenaan de ranglijsten voor afbeeldingen (LMArena) en wordt geleverd met veiligheidsmechanismen (SynthID-watermerken en filters op productniveau).
Wat is Gemini 2.5 Flash Image (ook wel “Nano Banana” genoemd)?
Gemini 2.5 Flash-afbeelding — speels bijgenaamd Nano Banaan — is het nieuwste model voor het genereren en bewerken van afbeeldingen van Google DeepMind in de Gemini-familie. Het model, aangekondigd eind augustus 2025, is gepositioneerd als een previewversie die bewerkingen met hogere getrouwheid, fusie van meerdere afbeeldingen, betere tekenconsistentie (waardoor dezelfde persoon/hetzelfde huisdier/hetzelfde object herkenbaar blijft bij meerdere bewerkingen) en het genereren van afbeeldingen met lage latentie in de multimodale toolset van Gemini brengt. Het is beschikbaar via de Gemini API, Google AI Studio, de mobiele/webapps van Gemini en Vertex AI voor zakelijke klanten.
Oorsprong en naamgeving
De bijnaam "nanobanaan" werd een virale afkorting op sociale media en community-ranglijsten nadat vroege testers en LMArena-deelnemers een fruitthema-label gebruikten; Google bevestigde de connectie en omarmde de speelse naam publiekelijk in hun ontwikkelaars- en productposts. De officiële productnaam is Gemini 2.5 Flash-afbeelding en je zult doorgaans de model-ID zien die wordt gebruikt in code en API-aanroepen (voor preview-gebruik wordt het bijvoorbeeld weergegeven als gemini-2.5-flash-image-preview).
Wat zijn de belangrijkste kenmerken van Gemini 2.5 Flash Image?
Wat betekent ‘karakterconsistentie’ eigenlijk?
Een van de belangrijkste mogelijkheden is karakterconsistentie: je kunt het model vragen om hetzelfde onderwerp (een persoon, huisdier, mascotte of product) te hergebruiken in meerdere bewerkingen of nieuwe scènes, met behoud van identificerende visuele kenmerken (gezicht/vorm, kleurenpalet, onderscheidende kenmerken). Dit verhelpt een veelvoorkomend probleem in eerdere afbeeldingsmodellen, waarbij latere bewerkingen visueel plausibele maar opvallend verschillende personen/objecten opleverden. Ontwikkelaars kunnen daarom workflows bouwen voor productcatalogi, episodische storytelling of het genereren van merkactiva met minder handmatige correctie.
Welke andere bewerkingsfuncties zijn inbegrepen?
Gemini 2.5 Flash Image ondersteunt:
- Gerichte lokale bewerkingen via duidelijke taalopdrachten (een object verwijderen, outfit veranderen, de huid bijwerken, achtergrondelement verwijderen).
- Multi-image fusie: combineer maximaal drie invoerafbeeldingen tot één samenhangende compositie (plaats bijvoorbeeld een product van afbeelding A in scène B en behoud daarbij de belichting).
- Stijl- en opmaakinstellingen: fotorealistische instructies, camera- en lensattributen, beeldverhouding en gestileerde uitvoer (illustratie, sticker, enz.).
- Kennis van de inheemse wereld: het model maakt gebruik van de kennis van de bredere Gemini-familie om semantisch bewuste bewerkingen uit te voeren (bijvoorbeeld om te begrijpen wat “Renaissanceverlichting” of “oversteekplaats in Tokio” inhoudt).
Hoe zit het met snelheid, kosten en beschikbaarheid?
Gemini 2.5 Flash Image maakt deel uit van de Flash-laag van Gemini 2.5, geoptimaliseerd voor lage latentie en kosten, met behoud van een hoge kwaliteit. Google heeft een voorvertoning van de prijzen voor tokens voor afbeeldingsuitvoer gegeven en de beschikbaarheid ervan via API en AI Studio bekendgemaakt; zakelijke klanten kunnen er toegang toe krijgen via Vertex AI. Bij de aankondiging waren de gepubliceerde prijzen voor de Gemini 2.5 Flash Image-laag $30 per 1 miljoen output-tokens, met een voorbeeld van de kosten per afbeelding, gerapporteerd als 1290 output-tokens ≈ $0.039 per afbeelding.
Hoe werkt Gemini 2.5 Flash Image onder de motorkap?
Architectuur- en trainingsaanpak
Gemini 2.5 Flash Image erft de architectuur van de Gemini 2.5-familie: een sparse mixture-of-experts (MoE)-stijl backbone met multimodale training die tekst, afbeeldingen, audio en andere data combineert. Google trainde Flash Image op zeer grote, gefilterde multimodale corpora en verfijnde het model voor de afbeeldingstaken (generatie, bewerking, fusie) en veiligheidsgedrag. De training werd uitgevoerd op Google's TPU-netwerk en geëvalueerd met zowel automatische als menselijke beoordelingsgegevens.
Gespreksgestuurde bewerking
Op een hoog niveau maakt het model gebruik van contextuele conditionering: wanneer u een afbeelding (of meerdere afbeeldingen) plus tekstprompts aanlevert, codeert het model de visuele identiteit van het onderwerp in zijn interne representatie. Tijdens latere bewerkingen of nieuwe scènes conditioneert het de generatie op basis van die representatie, zodat gewenste visuele kenmerken (gezichtsgeometrie, belangrijke kleding- of productidentificaties, kleurenpaletten) behouden blijven. In de praktijk wordt dit geïmplementeerd als onderdeel van de multimodale contentpijplijn die beschikbaar wordt gesteld door de Gemini API: u stuurt de referentieafbeeldingen samen met bewerkingsinstructies en het model retourneert bewerkte afbeeldingsuitvoer (of meerdere kandidaatafbeeldingen) in één reactie.
Watermerken en herkomst
Google integreert veiligheids- en contentbeleidfilters in Gemini 2.5 Flash Image. De release legt de nadruk op evaluatie en red-teaming, geautomatiseerde filterstappen, gesuperviseerde finetuning en reinforcement learning voor het volgen van instructies, terwijl schadelijke output wordt geminimaliseerd. De output bevat een onzichtbaar SynthID-watermerk, zodat afbeeldingen die door het model zijn geproduceerd of bewerkt, later kunnen worden geïdentificeerd als door AI gegenereerd.
Hoe goed presteert het? (Benchmarkgegevens)
Gemini 2.5 Flash Image (in sommige benchmarking-contexten op de markt gebracht als “nano-banaan”) bereikte #1 op de Image Edit- en Text-to-Image-ranglijsten van LMArena Eind augustus 2025, met een grote voorsprong op Elo/voorkeur ten opzichte van concurrenten in de gerapporteerde vergelijkingen. Ik verwijs naar de resultaten van de menselijke evaluatie van LMArena en GenAI-Bench, die de hoogste voorkeurscores laten zien voor zowel tekst-naar-afbeelding- als beeldbewerkingstaken.
Tekst-naar-afbeelding vergelijking
| Capaciteitsbenchmark | Gemini Flash 2.5 Afbeelding | Afbeelding 4 Ultra 06-06 | ChatGPT 4o / GPT Afbeelding 1 (Hoog) | FLUX.1 Context | Gemini Flash 2.0 Afbeelding |
|---|---|---|---|---|---|
| Algemene voorkeur (LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| Visuele kwaliteit (GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| Uitlijning van tekst naar afbeelding (GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
beeldbewerking
| Capaciteitsbenchmark | Gemini Flash 2.5 Afbeelding | ChatGPT 4o / GPT Afbeelding 1 (Hoog) | FLUX.1 Context | Qwen Image Edit | Gemini Flash 2.0 Afbeelding |
|---|---|---|---|---|---|
| Algemene voorkeur (LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| Karakter | 1170 | 1059 | 1010 | 911 | 850 |
| Creatieve | 1112 | 1057 | 968 | 983 | 879 |
| Infographics | 1067 | 1029 | 967 | 1012 | 925 |
| Object / Omgeving | 1064 | 1023 | 1002 | 1010 | 901 |
| Productrecontextualisatie | 1128 | 1032 | 943 | 1009 | 888 |
| Stilering | 1062 | 1165 | 949 | 1091 | 733 |

Wat betekenen deze benchmarks in de praktijk?
Benchmarks vertellen ons twee dingen: (1) het model is concurrerend op het gebied van fotorealistische generatie en (2) het onderscheidt zich in editing Taken waarbij karakterconsistentie en prompt-adherentie van belang zijn. Menselijke voorkeursranglijsten geven aan dat gebruikers die de output van Gemini bekeken, deze hoog waardeerden voor realisme en aansluiting bij de instructies in veel geëvalueerde prompts. Er wordt echter expliciet gesproken over bekende beperkingen (hallucinatierisico bij fijne feitelijke details, weergave van lange tekst in afbeeldingen, randgevallen van stijloverdracht) – benchmarks zijn dus een richtlijn, geen garantie.
Wat kun je doen met Gemini 2.5 Flash Image (gebruiksscenario's)?
Gemini 2.5 Flash Image is specifiek ontwikkeld voor creatieve, productiviteits- en toegepaste beeldbewerkingsscenario's. Typische en opkomende use cases zijn onder andere:
Snelle productmodellen en e-commerce
Versleep productfoto's naar scènes, genereer consistente catalogusbeelden in verschillende omgevingen of wissel kleuren/stoffen binnen een productlijn – en dat alles met behoud van de identiteit van het product. De mogelijkheden voor het combineren van meerdere afbeeldingen en de consistentie tussen karakter en product maken het aantrekkelijk voor catalogusworkflows.
Fotobewerking en gerichte bewerkingen
Verwijder objecten, corrigeer oneffenheden, verwissel kleding/accessoires of pas de belichting aan met natuurlijke taalprompts. Dankzij de gelokaliseerde bewerkingsfunctie kunnen niet-experts professionele retouches uitvoeren met behulp van gesproken opdrachten.
Storyboarding en visueel vertellen
Plaats hetzelfde personage in verschillende scènes en zorg dat hun uiterlijk consistent blijft (handig voor strips, storyboards of pitchdecks). Met iteratieve bewerkingen kunnen makers de sfeer, kadrering en verhaallijn verfijnen zonder de content helemaal opnieuw op te bouwen.
Onderwijs, diagrammen en ontwerpprototyping
Omdat het tekstuele prompts en afbeeldingen kan combineren en over 'wereldkennis' beschikt, kan het model helpen bij het genereren van geannoteerde diagrammen, educatieve visuals of snelle mockups voor presentaties. Google markeert zelfs sjablonen in AI Studio voor toepassingen zoals mockups voor onroerend goed en productontwerp.
Hoe gebruik je de Nano Banana API?
Hieronder staan praktische fragmenten die zijn aangepast van CometAPI API-documentatie en de API-documentatie van Google. Ze demonstreren de gangbare stromen: tekst-naar-afbeelding en afbeelding + tekst naar afbeelding (bewerking) met behulp van de officiële GenAI SDK of REST-eindpunt.
Let op: in de documentatie van CometAPI wordt de naam van het voorbeeldmodel weergegeven als
gemini-2.5-flash-image-previewDe onderstaande voorbeelden zijn gebaseerd op de officiële SDK-voorbeelden (Python en JavaScript) en een REST curl-voorbeeld. Pas sleutels en bestandspaden aan uw omgeving aan.
REST curl-voorbeeld van CometAPI
Gebruik de officiële Gemini-app generateContent eindpunt voor het genereren van tekst naar afbeelding. Plaats de tekstprompt in contents.parts[].text.Voorbeeld (Windows-shell, met behulp van ^ voor voortzetting van de regel):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
Het antwoord bevat base64-afbeeldingsbytes; de bovenstaande pijplijn extraheert de "data" string en decodeert deze in gemini-generated.png.
Dit eindpunt ondersteunt de generatie van ‘image-to-image’: upload een invoerimage (als Base64) en ontvang een gewijzigde nieuwe image (ook in Base64-formaat).Voorbeeld:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**Beschrijving:**Converteer eerst uw bronafbeeldingsbestand naar een Base64-string en plaats deze in inline_data.dataGebruik geen voorvoegsels zoals data:image/jpeg;base64,De uitvoer bevindt zich ook in candidates.content.parts en omvat: Een optioneel tekstgedeelte (beschrijving of prompt). Het afbeeldinggedeelte als inline_data (waar data is de Base64 van de uitvoerafbeelding). Voor meerdere afbeeldingen kunt u deze rechtstreeks toevoegen, bijvoorbeeld:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
Hieronder vindt u voorbeelden voor ontwikkelaars, overgenomen uit de officiële documentatie en blog van Google. Vervang de inloggegevens en bestandspaden door uw eigen inloggegevens.
Python (officiële SDK-stijl)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Dit is het canonieke Python-fragment uit de documentatie van Google (voorbeeldmodel-ID wordt weergegeven). Hetzelfde SDK-aanroeppatroon ondersteunt het bewerken van afbeeldingen en prompts (een afbeelding doorgeven als een van de contents). Meer details vindt u op tweelingen doc.
Conclusie
Als uw product robuuste, laag-latente beeldgeneratie nodig heeft en vooral, betrouwbare bewerking met onderwerpconsistentieGemini 2.5 Flash Image is nu een productie-optie die het overwegen waard is: het combineert state-of-the-art beeldkwaliteit met API's die zijn ontworpen voor integratie door ontwikkelaars (AI Studio, Gemini API en Vertex AI). Weeg de huidige beperkingen van het model zorgvuldig af (kleine tekst in afbeeldingen, enkele randgevallen met betrekking tot stilering) en implementeer maatregelen voor verantwoord gebruik.
Beginnen
CometAPI is een uniform API-platform dat meer dan 500 AI-modellen van toonaangevende aanbieders – zoals de GPT-serie van OpenAI, Gemini van Google, Claude, Midjourney en Suno van Anthropic – samenvoegt in één, gebruiksvriendelijke interface voor ontwikkelaars. Door consistente authenticatie, aanvraagopmaak en responsverwerking te bieden, vereenvoudigt CometAPI de integratie van AI-mogelijkheden in uw applicaties aanzienlijk. Of u nu chatbots, beeldgenerators, muziekcomponisten of datagestuurde analysepipelines bouwt, met CometAPI kunt u sneller itereren, kosten beheersen en leveranciersonafhankelijk blijven – en tegelijkertijd profiteren van de nieuwste doorbraken in het AI-ecosysteem.
Ontwikkelaars hebben toegang tot Gemini 2.5 Flash-afbeelding(Nano Banana CometAPI-lijst gemini-2.5-flash-image-preview/gemini-2.5-flash-image stijlvermeldingen in hun catalogus.) via CometAPI, de nieuwste vermelde modelversies zijn van de publicatiedatum van het artikel. Om te beginnen, verken de mogelijkheden van het model in de Speeltuin en raadpleeg de API-gids voor gedetailleerde instructies. Zorg ervoor dat u bent ingelogd op CometAPI en de API-sleutel hebt verkregen voordat u toegang krijgt. KomeetAPI bieden een prijs die veel lager is dan de officiële prijs om u te helpen integreren.
