Grunnleggende funksjoner
- Tekst → Bilde: fullt promptstyrt generering med sterk etterlevelse av prompten.
- Bilde → Bilde (redigeringer): fine, målrettede redigeringer med opprettholdt motiv/karakter-konsistens på tvers av flere redigeringer.
- Maksimal utdataoppløsning: opptil 4K (eksempler og støttede nøyaktige pikselstørrelser avhenger av aspektforhold; API-et eksponerer 1K/2K/4K-forhåndsinnstillinger)
- Iterativ planlegging og egenkorreksjon: en intern “multi-stage”-pipeline som oppdager og korrigerer vanlige visuelle feil (perspektiv, tekst, fin geometri).
- Avansert tekstgjengivelse i bilde: klar, leselig flerspråklig tekst (korte bildetekster til lange avsnitt) egnet for plakater, mockups og infografikk.
- 5 karakterer og fidelitet for opptil 14 objekter/referansebilder i én arbeidsflyt.
- Vannmerking / proveniens: alle genererte bilder inkluderer et SynthID-vannmerke; modellen legger inn C2PA-metadata for proveniens i noen produktintegrasjoner.
Gemini 3 Pro Image versjoner og navngivning
gemini-3-pro-image-previewgemini-3-pro-image
Tekniske detaljer
Arkitektur
- Avstamning / ryggrad: Nano Banana Pro er bygget på Googles utviklende Gemini-bildestakk — spesifikt den nye Gemini 3 Pro Image / GEMPIX 2-arkitekturen (et høy-kapasitets multimodalt bilde+tekst-rammeverk). Det er en utvikling fra Gemini 2.5 Flash Image (den opprinnelige “nano-banana”) til en naturlig multimodal bildemodell med utvidede visuell-språk-resonneringskapasiteter.
- Modellatferd: innfødt multimodalitet (bilde + tekst + verdenskunskap), eksplisitte piper for flerbilde-fusjon, og en intern trinnvis planlegger som raffinerer utdata over flere pass heller enn å produsere én enkelt statisk prøve. Tidlige rapporter indikerer sterkere geometrisk/optisk resonnering (glass, refraksjon) sammenlignet med tidligere versjoner.
- Tenkning / intern forfining: Modellen bruker en synlig “tenkning”-prosess internt for å raffinere komposisjon (API-et dokumenterer denne atferden og bemerker at disse interne trinnene ikke belastes som endelige bildetokens).
- Grounding og verktøy: Støtter Search grounding (kan inkorporere webfakta i diagram-/infografikkgenerering). Den støtter også systeminstruksjoner for mer deterministisk kontroll.
Nøkkelparametere for API:
thinking_level(low / high) for å balansere ventetid mot resonneringsdybde;media_resolution(low/medium/high) for å kontrollere bilde-OCR/detaljlesing-tokens;generationConfig.imageConfigfor å styre aspektforhold/oppløsning i bildeutdata.
Bildebegrensninger:
- Støttede inndata-modaliteter: Tekst og bilder (modellen aksepterer ikke lyd eller video som bilde-genereringsinndata).
- Maks bilder per prompt: 14 (for Gemini 3 Pro Image preview).
- Maks bildestørrelse (opplasting): 7 MB per inndatabilde.
- Støttede aspektforhold: 1:1, 3:2, 16:9, 9:16, 21:9, etc.
Utdata-bilder / tokens: høye grenser, med 4K/4096px støttet.
Benchmark-ytelse
Kort oppsummering: offentlige/tidlige benchmarks så langt er hovedsakelig kvalitative / fellesskapsdrevet, men rapporterer konsekvent betydelige forbedringer i oppløsning, reduksjon av artefakter og fysisk fidelitet sammenlignet med den opprinnelige nano-banana (Gemini 2.5 Flash Image). Spesifikke navngitte “utfordringer” har vist klare visuelle gevinster, men det finnes ennå ikke (offentlige) standardiserte numeriske benchmark-tabeller fra Google som sammenligner v1 → v2 på tvers av standard metrikker for bildegenerering.
- Kvalitative fellesskapstester: Renere kanter, skarpere mikrodetaljer, riktigere farger og mer trofast etterlevelse av prompt (færre hallusinerte rekvisitter, mer konsistente karakterer). Populære uformelle tester inkluderer den såkalte “Wine Glass Test” og “Glass Burger Challenge”, der GEMPIX2 (Nano Banana Pro) håndterer transparens og refraksjon merkbart bedre enn tidligere bygg.
- Teksthåndtering: Nano Banana Pro viser synlig forbedret typografi og tekstplassering inne i bilder (en vedvarende svakhet for mange bildemodeller). Fellesskapssammenligninger indikerer færre forvrengte gjengitte glyfer.
- Gjennomstrømning / UX: raskere iterasjonshastighet og en UX som utfører flertrinns forfining på baksiden slik at brukere ser mer pålitelige førstegangsresultater (reduserer manuelle nykjøringer).
Begrensninger og risiko
- Innholdsfiltre og deteksjon: Plattformene som integrerer modellen (f.eks. Whisk/tredjepartsapper) kan aktivere strenge kjendis- eller likhetsdeteksjoner og blokkere visse utdata, noe som påvirker kreative arbeidsflyter som er avhengige av realistiske kjendislikheter.
- Hallusinasjon / resonneringsrandtilfeller: selv om forbedret, kan modellen fortsatt produsere fysisk urealistiske artefakter, spesielt med tett symbolsk tekst inne i bilder eller svært tekniske diagrammer — selv om NB2 ser ut til å redusere disse feilene sammenlignet med tidligere versjoner.
- Sikkerhet og misbruk: generative bildemodeller kan brukes til å skape problematisk eller skadelig innhold. Google anvender begrensninger, innholdsfiltre og SynthID-vannmerke for å hjelpe med proveniens; likevel har misbruk forekommet (høyt profilerte kontroverser knyttet til et Nano Banana-generert bilde i en politisk sensitiv sammenheng).
Hvordan Nano Banana Pro står seg mot andre modeller
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — sterk mobilintegrasjon, flerbilde-fusjon, iterativ egenkorreksjon, 2K native/4K oppskalering, tett integrert i Google-apper (Search, Photos, Workspace/Gemini). Best for arbeidsflyter som trenger pålitelige redigeringer, kontinuitet og integrasjon med Google-tjenester.
- Midjourney — utmerker seg i stiliserte kunstneriske utdata og fellesskapsdrevet prompt-engineering; ikke typisk rettet mot fotonøyaktig flerbilde-fusjon eller dype multimodale redigeringspipeliner.
- Stable Diffusion / åpne vekter — fullt åpen, svært tilpassbar og kan hostes lokalt; økosystemet av checkpoints og finjustering er en avgjørende fordel for forskning og frakoblet bruk. Mindre “one-click” mobilintegrasjon og mindre konsistent flerbilde-redigeringskoherens ut av boksen enn Nano Banana Pro.
- Seedream 4.0 (ByteDance) — nylig posisjonert eksplisitt som en Nano Banana-konkurrent, med vekt på ultrarask rendering, 2K-utdata, og støtte for mange referansebilder (opptil seks). Plassert som et pro-/creator-alternativ.
(Disse sammenligningene er på høyt nivå; velg en vinner ved å matche verktøyet til arbeidsflyten din: åpenhet/tilpassbarhet → Stable Diffusion; stilisert kunst → Midjourney; integrert, konsistent mobilredigering med aggressiv iterasjon → Nano Banana Pro/ Gemini 3 Pro Image-familien.)
Praktiske bruksområder
- Mobil fotoredigering og kreative filtre (Google Photos-integrasjoner — restyling, bakgrunnssammenslåing, portrettrekomponering).
- Markedsføring og annonseaktiva — rask konseptgenerering, konsistente merkevarekarakterer på tvers av flere rammer/vinkler.
- Konseptkunst og storyboard — flerbilde-fusjon hjelper med å holde karakterkontinuitet på tvers av paneler.
- E-handel / produktmockups — generer konsistente produktbilder i ulike kontekster/lysforhold.
- Rask prototyping for AR/VR-aktiva — høy kvalitet 2K/4K-utdata som kan oppskaleres for immersive bruksområder.
- Slik får du tilgang til gemini-3-pro-image(Nano Banana Pro) API
Nødvendige trinn
- Logg inn på cometapi.com. Hvis du ikke er bruker hos oss ennå, registrer deg først
- Hent tilgangslegitimasjonen API-nøkkel for grensesnittet. Klikk “Add Token” ved API-token i det personlige senteret, hent token-nøkkelen: sk-xxxxx og send inn.
- Hent URL-en til dette nettstedet: https://api.cometapi.com/
Bruksmåte
- Velg endepunktet “
gemini-3-pro-image” for å sende API-forespørselen og angi forespørselskroppen. Forespørselsmetoden og forespørselskroppen hentes fra API-dokumentasjonen på nettstedet vårt. Nettstedet vårt tilbyr også Apifox-test for bekvemmelighet. - Erstatt <YOUR_API_KEY> med din faktiske CometAPI-nøkkel fra kontoen din.
- Sett inn spørsmålet eller forespørselen din i innholdsfeltet—det er dette modellen vil svare på.
- Behandle API-responsen for å få det genererte svaret.
CometAPI tilbyr en fullt kompatibel REST API—for sømløs migrering. Nøkkeldetaljer :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.