Grundlæggende funktioner
- Tekst → Billede: fuld promptstyret generering med stærk overholdelse af prompten.
- Billede → Billede (redigeringer): fine, målrettede redigeringer med bevaret emne-/karakterkonsistens på tværs af flere redigeringer.
- Maksimal uddataopløsning: op til 4K (eksempler og præcise understøttede pixelstørrelser afhænger af billedformat; API’et eksponerer 1K/2K/4K-forudindstillinger)
- Iterativ planlægning og selvkorrektion: en intern “multitrins”-pipeline, der opdager og korrigerer almindelige visuelle fejl (perspektiv, tekst, fin geometri).
- Avanceret tekstgengivelse i billedet: klar, læsbar flersproget tekst (fra korte billedtekster til lange afsnit) egnet til plakater, mockups og infografikker.
- 5 figurer og troskab for op til 14 objekter/referencebilleder i et enkelt workflow.
- Vandmærkning / proveniens: alle genererede billeder inkluderer et SynthID-vandmærke; modellen indlejrer C2PA-metadata for proveniens i nogle produktintegrationer.
Gemini 3 Pro Image-versioner og navngivning
gemini-3-pro-image-previewgemini-3-pro-image
Tekniske detaljer
Arkitektur
- Slægt/rygrad: Nano Banana Pro er bygget på Googles udviklende Gemini-billedstack — specifikt den nye Gemini 3 Pro Image / GEMPIX 2-arkitektur (en højkapacitets multimodal billede+tekst-ramme). Det er en videreudvikling fra Gemini 2.5 Flash Image (den oprindelige “nano-banana”) til en indfødt multimodal billedmodel med udvidede vision-sprog-ræsonneringskapaciteter.
- Modeladfærd: indfødt multimodalitet (billede + tekst + verdensviden), eksplicitte pipelines til multi-billedfusion og en intern iscenesat planlægger, der forfiner output over flere passager i stedet for at producere en enkelt statisk prøve. Tidlige rapporter indikerer stærkere geometrisk/optisk ræsonnering (glas, brydning) sammenlignet med tidligere versioner.
- Tænkning / intern forfinelse: Modellen bruger en synlig “tænke”-proces internt til at forfine komposition (API’et dokumenterer denne adfærd og bemærker, at disse interne trin ikke opkræves som endelige billedtokens).
- Grounding og værktøjer: Understøtter Search grounding (kan indarbejde webfakta i diagram-/infografikgenerering). Understøtter også systeminstruktioner for mere deterministisk kontrol.
Nøgleparametre for API:
thinking_level(low / high) for at afveje latenstid vs. ræsonneringsdybde;media_resolution(low/medium/high) til at styre billed-OCR/detaljelæsningstokens;generationConfig.imageConfigtil at styre billedformat/opløsning i billeduddata.
Billedbegrænsninger:
- Understøttede inputmodaliteter: Tekst og billeder (modellen accepterer ikke lyd eller video som input til billedgenerering).
- Maks. antal billeder pr. prompt: 14 (for Gemini 3 Pro Image preview).
- Maks. billedstørrelse (upload): 7 MB pr. inputbillede.
- Understøttede billedformater: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Uddata-billeder / tokens: høje grænser, med 4K/4096px understøttet.
Benchmark-ydelse
Kort resumé: offentlige/tidlige benchmarks er indtil videre mest kvalitative/brugerdrevne, men rapporterer konsekvent betydelige forbedringer i opløsning, reduktion af artefakter og fysisk troskab sammenlignet med den originale nano-banana (Gemini 2.5 Flash Image). Specifikke navngivne “udfordringer” har vist klare visuelle forbedringer, men der findes endnu ikke (offentlige) standardiserede numeriske benchmark-tabeller fra Google, der sammenligner v1 → v2 på tværs af standard billedgenereringsmetrikker.
- Kvalitative community-tests: renere kanter, skarpere mikrodetaljer, mere sande farver og mere trofast overholdelse af prompten (færre hallucinerede rekvisitter, mere konsistente karakterer). Populære uformelle tests inkluderer den såkaldte “Wine Glass Test” og “Glass Burger Challenge”, hvor GEMPIX2 (Nano Banana Pro) håndterer transparens og brydning markant bedre end tidligere builds.
- Teksthåndtering: Nano Banana Pro viser synligt forbedret typografi og tekstplacering inde i billeder (en vedvarende svaghed for mange billedmodeller). Community-sammenligninger indikerer færre forvanskede gengivne tegn.
- Throughput / UX: hurtigere iterationshastighed og en UX, der udfører multitrins forfinelse på backend, så brugere ser mere pålidelige førstepas-resultater (reducing manual re-rolls).
Begrænsninger og risici
- Indholdsfiltre og detektion: Platforme, der integrerer modellen (f.eks. Whisk/tredjepartsapps), kan aktivere streng celebrity- eller lighedsdetektion og blokere visse outputs, hvilket påvirker kreative workflows, der er afhængige af realistiske celebrity-ligheder.
- Hallucination / ræsonneringskanttilfælde: selv om det er forbedret, kan modellen stadig producere fysisk urealistiske artefakter, især med tæt symbolsk tekst i billeder eller meget tekniske diagrammer — dog ser NB2 ud til at reducere disse fejl sammenlignet med tidligere versioner.
- Sikkerhed og misbrug: generative billedmodeller kan bruges til at skabe problematisk eller skadeligt indhold. Google anvender begrænsninger, indholdsfiltre og SynthID-vandmærket for at hjælpe med proveniens; ikke desto mindre er misbrug forekommet (højprofileret kontrovers knyttet til et Nano Banana-genereret billede i en politisk følsom sammenhæng).
Sådan står Nano Banana Pro i forhold til andre modeller
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — stærk mobilintegration, multi-billedfusion, iterativ selvkorrektion, 2K native/4K opskalering, tæt integreret i Google-apps (Search, Photos, Workspace/Gemini). Bedst til arbejdsgange, der kræver pålidelige redigeringer, kontinuitet og integration med Google-tjenester.
- Midjourney — udmærker sig ved stiliserede kunstneriske outputs og community-drevet prompt engineering; sigter typisk ikke mod foto-nøjagtig multi-billedfusion eller dybe multimodale redigeringspipelines.
- Stable Diffusion / open weights — fuldt åbent, stærkt tilpasningsbart og kan hostes lokalt; økosystemet af checkpoints og finjustering er en afgørende fordel for forskning og offline-brug. Mindre “one-click” mobilintegration og mindre konsistent multi-billed-redigeringssammenhæng out-of-the-box end Nano Banana Pro.
- Seedream 4.0 (ByteDance) — positioneret for nylig eksplicit som en Nano Banana-konkurrent, med vægt på ultrahurtig rendering, 2K output og understøttelse af mange referencebilleder (op til seks). Positioneret som et pro/creator-alternativ.
(Disse sammenligninger er på højt niveau; vælg en vinder ved at matche værktøjet til din arbejdsgang: åbenhed/tilpasning → Stable Diffusion; stiliseret kunst → Midjourney; integreret, konsistent mobilredigering med aggressiv iteration → Nano Banana Pro/Gemini 3 Pro Image-familien.)
Anvendelser i den virkelige verden
- Mobil billedredigering og kreative filtre (Google Photos-integrationer — restyling, baggrundsfusion, portræt-rekomposition).
- Marketing- og annonceaktiver — hurtig konceptgenerering, konsistente brandkarakterer på tværs af flere frames/vinkler.
- Konceptkunst og storyboard — multi-billedfusion hjælper med at bevare karakterkontinuitet på tværs af paneler.
- E-handel / produktmockups — generér konsistente produktbilleder i forskellige kontekster/lysforhold.
- Hurtig prototyping til AR/VR-aktiver — høj kvalitet 2K/4K-uddata, der kan opskaleres til immersive anvendelser.
- Sådan får du adgang til gemini-3-pro-image (Nano Banana Pro) API
Påkrævede trin
- Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, skal du først registrere dig
- Hent grænsefladens adgangslegitimations-API-nøgle. Klik på “Add Token” under API token i det personlige center, hent token-nøglen: sk-xxxxx og indsende.
- Hent URL’en til dette site:
https://api.cometapi.com/
Brugsmetode
- Vælg “
gemini-3-pro-image”-endpoint for at sende API-anmodningen og angiv request body. Request method og request body fås fra API-dokumentationen på vores website. Vores website tilbyder også Apifox-test for din bekvemmelighed. - Erstat <YOUR_API_KEY> med din faktiske CometAPI-nøgle fra din konto.
- Indsæt dit spørgsmål eller din forespørgsel i content-feltet — det er det, modellen svarer på.
- . Behandl API-svaret for at få det genererede svar.
CometAPI tilbyder et fuldt kompatibelt REST API — for problemfri migrering. Nøgleoplysninger :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modelnavne:
gemini-3-pro-image - Godkendelse:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json