Grundlæggende funktioner
- Tekst → Billede: fuldt promptstyret generering med stærk overholdelse af prompten.
- Billede → Billede (redigeringer): fine, målrettede ændringer med bevaret motiv-/karakterkonsistens på tværs af flere redigeringer.
- Maksimal outputopløsning: op til 4K (eksempler og understøttede præcise pixelstørrelser afhænger af billedformat; API’et eksponerer 1K/2K/4K-forudindstillinger)
- Iterativ planlægning og selvkorrektion: en intern “flertrins”-pipeline, der opdager og korrigerer almindelige visuelle fejl (perspektiv, tekst, fin geometri).
- Avanceret tekstrendering i billeder: klar, læselig flersproget tekst (fra korte billedtekster til lange afsnit), velegnet til plakater, mockups og infografikker.
- 5 karakterer og troskab for op til 14 objekter/referencebilleder i ét workflow.
- Vandmærkning / proveniens: alle genererede billeder inkluderer et SynthID-vandmærke; modellen indlejrer C2PA-metadata for oprindelse i nogle produktintegrationer.
Gemini 3 Pro Image-versioner og navngivning
gemini-3-pro-image-previewgemini-3-pro-image
Tekniske detaljer
Arkitektur
- Oprindelse / rygrad: Nano Banana Pro er bygget på Googles udviklende Gemini-billedstack — specifikt den nye Gemini 3 Pro Image / GEMPIX 2-arkitektur (en multimodal billed+tekst‑ramme med højere kapacitet). Det er en videreudvikling fra Gemini 2.5 Flash Image (den oprindelige “nano-banana”) til en oprindeligt multimodal billedmodel med udvidede vision‑sprog‑ræsonneringskapaciteter.
- Modeladfærd: indbygget multimodalitet (billede + tekst + verdenkendskab), eksplicitte pipelines til multi-billedefusion og en intern trinvis planlægger, der forfiner output over flere pass i stedet for at producere en enkelt statisk prøve. Tidlige rapporter indikerer stærkere geometrisk/optisk ræsonnering (glas, brydning) end tidligere versioner.
- Tænkning / intern forfinelse: Modellen bruger en synlig “tænke”-proces internt til at forfine komposition (API’et dokumenterer denne adfærd og bemærker, at de interne trin ikke takseres som endelige billedtokens).
- Forankring & værktøjer: Understøtter Search grounding (kan indarbejde webfakta i diagram-/infografikgenerering). Understøtter også systeminstruktioner for mere deterministisk kontrol.
Vigtige API-parametre:
thinking_level(low / high) til at afveje latenstid mod ræsonneringsdybde;media_resolution(low/medium/high) til at styre billed‑OCR/detaljelæsningstokens;generationConfig.imageConfigtil at styre billedformat/opløsning i billedoutput.
Billedbegrænsninger:
- Understøttede inputmodaliteter: Tekst og billeder (modellen accepterer ikke lyd eller video som billedgenereringsinput).
- Maks. billeder pr. prompt: 14 (for Gemini 3 Pro Image preview).
- Maks. billedstørrelse (upload): 7 MB pr. inputbillede.
- Understøttede billedformatforhold: 1:1, 3:2, 16:9, 9:16, 21:9 osv.
Outputbilleder / tokens: høje grænser, med 4K/4096px understøttet.
Benchmark-ydeevne
Kort resume: offentlige/tidlige benchmarks er indtil videre mest kvalitative / community‑drevne, men rapporterer konsekvent væsentlige forbedringer i opløsning, artefaktreduktion og fysisk troværdighed i forhold til den oprindelige nano-banana (Gemini 2.5 Flash Image). Specifikke navngivne “udfordringer” har vist klare visuelle gevinster, men der findes endnu ikke (offentlige) standardiserede numeriske benchmarktabeller fra Google, der sammenligner v1 → v2 på tværs af standardbilledgenereringsmetrikker.
- Kvalitative community‑tests: Renere kanter, skarpere mikrodetaljer, mere korrekte farver og mere trofast efterlevelse af prompten (færre hallucinerede rekvisitter, mere konsistente karakterer). Populære uformelle tests inkluderer den såkaldte “Wine Glass Test” og “Glass Burger Challenge”, hvor GEMPIX2 (Nano Banana Pro) håndterer transparens og brydning markant bedre end tidligere builds.
- Teksthåndtering: Nano Banana Pro viser synligt forbedret typografi og tekstplacering inde i billeder (en vedvarende svaghed for mange billedmodeller). Community‑sammenligninger indikerer færre forvanskede renderede glyffer.
- Gennemløb / UX: hurtigere iterationshastighed og en UX, der udfører flertrinsforfinelse på backend, så brugerne ser mere pålidelige førstegangsresultater (reducerer manuelle genkørsler).
Begrænsninger og risici
- Indholdsfiltre & detektion: Platforme, der integrerer modellen (f.eks. Whisk/tredjepartsapps), kan aktivere streng kendis‑ eller lighedsdetektion og blokere visse output, hvilket påvirker kreative workflows, der er afhængige af realistiske kendisligheder.
- Hallucinationer / ræsonneringsrandtilfælde: Selvom forbedret, kan modellen stadig producere fysisk urealistiske artefakter, især med tæt symbolsk tekst i billeder eller meget tekniske diagrammer — dog ser NB2 ud til at reducere disse fejl sammenlignet med tidligere versioner.
- Sikkerhed & misbrug: Generative billedmodeller kan bruges til at skabe problematisk eller skadeligt indhold. Google anvender begrænsninger, indholdsfiltre og SynthID‑vandmærket for at hjælpe med proveniens; ikke desto mindre er der forekommet misbrug (højprofileret kontrovers knyttet til et Nano Banana‑genereret billede i en politisk følsom kontekst).
Sådan klarer Nano Banana Pro sig i forhold til andre modeller
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — stærk mobilintegration, multi‑billedefusion, iterativ selvkorrektion, 2K native/4K opskalering, tæt integreret i Google‑apps (Search, Photos, Workspace/Gemini). Bedst til workflows, der kræver pålidelige redigeringer, kontinuitet og integration med Google‑tjenester.
- Midjourney — udmærker sig ved stiliserede kunstneriske output og community‑drevet prompt‑engineering; er typisk ikke målrettet foto‑korrekt multi‑billedefusion eller dybe multimodale redigeringspipelines.
- Stable Diffusion / open weights — fuldt åbent, højt tilpasningsbart og kan hostes lokalt; økosystemet af checkpoints og finjustering er en afgørende fordel for forskning og offline‑brug. Mindre “one‑click” mobilintegration og mindre konsistent multi‑billede‑redigeringskoherens out‑of‑the‑box end Nano Banana Pro.
- Seedream 4.0 (ByteDance) — er for nylig positioneret eksplicit som en Nano Banana‑konkurrent, med vægt på ultrahurtig rendering, 2K‑output og støtte for mange referencebilleder (op til seks). Positioneret som et pro/creator‑alternativ.
(Disse sammenligninger er på højt niveau; vælg en vinder ved at matche værktøjet til dit workflow: åbenhed/tilpasningsevne → Stable Diffusion; stiliseret kunst → Midjourney; integreret, konsistent mobilredigering med aggressiv iteration → Nano Banana Pro / Gemini 3 Pro Image‑familien.)
Anvendelser i den virkelige verden
- Mobil fotoredigering & kreative filtre (Google Photos‑integrationer — restyling, baggrundsfusion, portrætrekomposition).
- Marketing‑ & annonceaktiver — hurtig konceptgenerering, konsistente brandkarakterer på tværs af flere frames/vinkler.
- Konceptkunst & storyboard — multi‑billedefusion hjælper med at bevare karakterkontinuitet på tværs af paneler.
- E‑handel / produktmockups — generér konsistente produktbilleder i forskellige kontekster/lyssætninger.
- Hurtig prototypering til AR/VR‑aktiver — høj kvalitet 2K/4K‑output, der kan opskaleres til immersive anvendelser.
- Sådan får du adgang til gemini-3-pro-image(Nano Banana Pro) API
Påkrævede trin
- Log ind på cometapi.com. Hvis du endnu ikke er vores bruger, skal du først registrere dig.
- Hent adgangslegitimationens API‑nøgle for interfacet. Klik “Add Token” ved API‑token i det personlige center, hent token‑nøglen: sk-xxxxx og indsend.
- Hent webstedets URL: https://api.cometapi.com/
Brugsmetode
- Vælg “
gemini-3-pro-image”-endpointet for at sende API‑anmodningen og angiv anmodnings‑body. Anmodningsmetode og anmodnings‑body fås fra vores websteds API‑dokumentation. Vores websted giver også Apifox‑test for din bekvemmelighed. - Erstat <YOUR_API_KEY> med din faktiske CometAPI‑nøgle fra din konto.
- Indsæt dit spørgsmål eller din anmodning i content‑feltet — det er dette, modellen svarer på.
- . Behandl API‑svaret for at få det genererede svar.
CometAPI leverer en fuldt kompatibel REST API — for problemfri migrering. Nøgleoplysninger :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modelnavne:
gemini-3-pro-image - Godkendelse:
Bearer YOUR_CometAPI_API_KEYheader - Indholdstype:
application/json.