Basisfuncties
- Tekst → Afbeelding: volledige promptgestuurde generatie met sterke naleving van prompts.
- Afbeelding → Afbeelding (bewerkingen): fijne, gerichte bewerkingen met behoud van onderwerp-/karakterconsistentie over meerdere bewerkingen heen.
- Maximale uitvoerresolutie: tot 4K (voorbeelden en ondersteunde exacte pixelafmetingen hangen af van de beeldverhouding; de API biedt 1K/2K/4K-presets)
- Iteratieve planning en zelfcorrectie: een interne “meerfasen”-pipeline die veelvoorkomende visuele fouten detecteert en corrigeert (perspectief, tekst, fijne geometrie).
- Geavanceerde tekstweergave in afbeeldingen: duidelijke, leesbare meertalige tekst (van korte bijschriften tot lange alinea’s) geschikt voor posters, mockups en infographics.
- 5 personages en hoge getrouwheid voor maximaal 14 objecten/referentieafbeeldingen in één workflow.
- Watermerken / herkomst: alle gegenereerde afbeeldingen bevatten een SynthID-watermerk; het model voegt in sommige productintegraties C2PA-metadata toe voor herkomst.
Gemini 3 Pro Image-versies en naamgeving
gemini-3-pro-image-previewgemini-3-pro-image
Technische details
Architectuur
- Afstamming / backbone: Nano Banana Pro is gebouwd op Google’s evoluerende Gemini-image-stack — specifiek de nieuwe Gemini 3 Pro Image / GEMPIX 2-architectuur (een multimodaal afbeeldings- en tekstframework met hogere capaciteit). Dat is een evolutie van Gemini 2.5 Flash Image (de oorspronkelijke “nano-banana”) naar een native multimodaal afbeeldingsmodel met uitgebreide vision-language-redeneercapaciteiten.
- Modelgedrag: native multimodaliteit (afbeelding + tekst + wereldkennis), expliciete pipelines voor multi-image-fusie en een interne gefaseerde planner die uitvoer over meerdere passes verfijnt in plaats van één enkel statisch sample te produceren. Vroege rapporten wijzen op sterkere geometrische/optische redenering (glas, refractie) ten opzichte van eerdere versies.
- Denken / interne verfijning: het model gebruikt intern een zichtbaar “denkproces” om de compositie te verfijnen (de API-documentatie beschrijft dit gedrag en merkt op dat deze interne stappen niet als uiteindelijke afbeeldingstokens in rekening worden gebracht).
- Grounding en tools: ondersteunt Search grounding (kan webfeiten opnemen in diagram-/infographicgeneratie). Het ondersteunt ook system instructions voor meer deterministische controle.
Belangrijke API-parameters:
thinking_level(low / high) om latency af te wegen tegen diepte van redenering;media_resolution(low/medium/high) om afbeeldings-OCR-/detailleestokens te regelen;generationConfig.imageConfigom beeldverhouding/resolutie in afbeeldingsuitvoer te regelen.
Afbeeldingslimieten:
- Ondersteunde invoermodaliteiten: tekst en afbeeldingen (het model accepteert geen audio of video als invoer voor afbeeldingsgeneratie).
- Maximaal aantal afbeeldingen per prompt: 14 (voor de Gemini 3 Pro Image-preview).
- Maximale afbeeldingsgrootte (upload): 7 MB per invoerafbeelding.
- Ondersteunde beeldverhoudingen: 1:1, 3:2, 16:9, 9:16, 21:9, enz.
Uitvoerafbeeldingen / tokens: hoge limieten, met ondersteuning voor 4K/4096 px.
Benchmarkprestaties
Korte samenvatting: openbare/vroege benchmarks zijn tot nu toe vooral kwalitatief en communitygedreven, maar melden consequent aanzienlijke verbeteringen in resolutie, artefactreductie en fysieke getrouwheid ten opzichte van de oorspronkelijke nano-banana (Gemini 2.5 Flash Image). Specifieke benoemde “uitdagingen” hebben duidelijke visuele verbeteringen laten zien, maar er zijn nog geen (openbare) gestandaardiseerde numerieke benchmarktabellen van Google die v1 → v2 vergelijken op standaardmetrics voor afbeeldingsgeneratie.
- Kwalitatieve communitytests: schonere randen, scherpere microdetails, natuurgetrouwere kleuren en nauwkeurigere promptnaleving (minder gehallucineerde objecten, consistentere personages). Populaire informele tests zijn onder meer de zogeheten “Wine Glass Test” en “Glass Burger Challenge”, waarbij GEMPIX2 (Nano Banana Pro) transparantie en refractie merkbaar beter verwerkt dan eerdere versies.
- Tekstverwerking: Nano Banana Pro toont zichtbaar verbeterde typografie en tekstplaatsing in afbeeldingen (een hardnekkige zwakte van veel afbeeldingsmodellen). Communityvergelijkingen wijzen op minder vervormde weergegeven glyphs.
- Doorvoer / UX: snellere iteratiesnelheid en een UX die meerfasige verfijning aan de back-end uitvoert, zodat gebruikers betrouwbaardere resultaten bij de eerste poging zien (waardoor minder handmatige hergeneraties nodig zijn).
Beperkingen en risico’s
- Contentfilters en detectie: platforms die het model integreren (bijv. Whisk/apps van derden) kunnen strikte detectie van beroemdheden of gelijkenissen inschakelen en bepaalde uitvoer blokkeren, wat creatieve workflows beïnvloedt die afhankelijk zijn van realistische gelijkenissen met beroemdheden.
- Hallucinatie / randgevallen in redenering: hoewel verbeterd, kan het model nog steeds fysiek onrealistische artefacten produceren, vooral bij dichte symbolische tekst in afbeeldingen of zeer technische diagrammen — al lijkt NB2 deze fouten te verminderen ten opzichte van eerdere versies.
- Veiligheid en misbruik: generatieve afbeeldingsmodellen kunnen worden gebruikt om problematische of schadelijke inhoud te creëren. Google past beperkingen, contentfilters en het SynthID-watermerk toe om te helpen bij herkomstverificatie; desondanks heeft misbruik plaatsgevonden (een spraakmakende controverse gekoppeld aan een door Nano Banana gegenereerde afbeelding in een politiek gevoelige context).
Hoe Nano Banana Pro zich verhoudt tot andere modellen
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — sterke mobiele integratie, multi-image-fusie, iteratieve zelfcorrectie, 2K native/4K-upscaling, nauw geïntegreerd in Google-apps (Search, Photos, Workspace/Gemini). Het meest geschikt voor workflows die betrouwbare bewerkingen, continuïteit en integratie met Google-services vereisen.
- Midjourney — blinkt uit in gestileerde artistieke output en communitygedreven prompt-engineering; is doorgaans niet gericht op fotorealistische multi-image-fusie of diepgaande multimodale bewerkingspipelines.
- Stable Diffusion / open weights — volledig open, sterk aanpasbaar en lokaal te hosten; het ecosysteem van checkpoints en fine-tuning is een doorslaggevend voordeel voor onderzoek en offline gebruik. Minder “one-click”-mobiele integratie en minder consistente coherentie bij multi-image-bewerking out-of-the-box dan Nano Banana Pro.
- Seedream 4.0 (ByteDance) — recent expliciet gepositioneerd als concurrent van Nano Banana, met nadruk op ultrasnelle rendering, 2K-uitvoer en ondersteuning voor veel referentieafbeeldingen (tot zes). Gepositioneerd als een professioneel/creator-alternatief.
(Deze vergelijkingen zijn op hoog niveau; kies een winnaar door de tool af te stemmen op je workflow: openheid/aanpasbaarheid → Stable Diffusion; gestileerde kunst → Midjourney; geïntegreerde, consistente mobiele bewerking met agressieve iteratie → Nano Banana Pro/ Gemini 3 Pro Image-familie.)
Praktische toepassingen
- Mobiele fotobewerking en creatieve filters (Google Photos-integraties — restyling, achtergrondfusie, hercompositie van portretten).
- Marketing- en advertentie-assets — snelle conceptgeneratie, consistente merkpersonages over meerdere frames/hoeken heen.
- Concept art en storyboarding — multi-image-fusie helpt de continuïteit van personages over panelen heen te behouden.
- E-commerce / productmockups — genereer consistente productshots in verschillende contexten/lichtomstandigheden.
- Snelle prototyping voor AR/VR-assets — hoogwaardige 2K/4K-uitvoer die kan worden opgeschaald voor immersieve toepassingen.
- Hoe je toegang krijgt tot de gemini-3-pro-image(Nano Banana Pro) API
Vereiste stappen
- Log in op cometapi.com. Als je nog geen gebruiker bent, registreer je dan eerst.
- Verkrijg de toegangsgegevens API-sleutel van de interface. Klik op “Add Token” bij de API-token in het persoonlijke centrum, verkrijg de tokensleutel: sk-xxxxx en dien deze in.
- Verkrijg de url van deze site: https://api.cometapi.com/
Gebruiksmethode
- Selecteer het endpoint “
gemini-3-pro-image” om het API-verzoek te verzenden en stel de request body in. De request method en request body zijn te vinden in onze API-documentatie op de website. Onze website biedt ook Apifox-tests voor je gemak. - Vervang <YOUR_API_KEY> door je daadwerkelijke CometAPI-sleutel uit je account.
- Voeg je vraag of verzoek in het veld content in—dit is waar het model op zal reageren.
- Verwerk de API-respons om het gegenereerde antwoord te verkrijgen.
CometAPI biedt een volledig compatibele REST API—voor naadloze migratie. Belangrijke details:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modelnamen:
gemini-3-pro-image - Authenticatie:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json