Googles Nano Banan Pro (offisiell modell-ID gemini-3-pro-image-preview) er bildegenererings-/bilderedigeringsvarianten av Gemini 3 Pro. Det er en forhåndsvisningsmodell av profesjonell kvalitet som legger til 2K/4K-utdata, høykvalitets flerbildekomposisjon (opptil 14 referansebilder, karakterkonsistens for opp til 5 folk), sterkere tekst-i-bilde-gjengivelse og søkeforankring for virkelige fakta.
Grunnleggende funksjoner
- Tekst → Bilde: full promptdrevet generering med sterk prompt-etterlevelse.
- **Bilde → Bilde (redigeringer)**Fine, målrettede redigeringer med opprettholdt konsistens mellom emne og karakter på tvers av flere redigeringer.
- Maksimal utgangsoppløsning: opp til 4K (eksempler og støttede eksakte pikselstørrelser avhenger av sideforholdet; API-et eksponerer forhåndsinnstillinger for 1K/2K/4K)
- Iterativ planlegging og selvkorrigeringen intern «flertrinns» pipeline som oppdager og korrigerer vanlige visuelle feil (perspektiv, tekst, fin geometri).
- Avansert tekstgjengivelse i bildetTydelig, lesbar flerspråklig tekst (fra korte bildetekster til lange avsnitt) egnet for plakater, mockups og infografikk.
- 5 tegn og troskap i opptil 14 objekter/referansebilder i én enkelt arbeidsflyt.
- Vannmerke / proveniens: Alle genererte bilder inkluderer et SynthID-vannmerke; modellen bygger inn C2PA-metadata for proveniens i noen produktintegrasjoner.
Gemini 3 Pro Bildeversjoner og navngivning
gemini-3-pro-image-previewgemini-3-pro-image
Tekniske detaljer
arkitektur
- Avstamning / ryggradNano Banana Pro bygges på Googles utviklende Gemini-bildestabel – nærmere bestemt den nye Gemini 3 Pro-bilde / GEMPIX 2 arkitektur (et multimodalt rammeverk med bilde og tekst med høyere kapasitet). Det er en utvikling fra Gemini 2.5 Flash-bilde (den originale «nano-bananen») til en innebygd multimodal bildemodell med utvidede resonneringsmuligheter innen synsspråk.
- Modellatferd: innebygd multimodalitet (bilde + tekst + verdenskunnskap), eksplisitte pipelines for flerbildefusjon og en intern trinnvis planlegger som forbedrer resultater over flere passeringer i stedet for å produsere en enkelt statisk prøve. Tidlige rapporter indikerer sterkere geometrisk/optisk resonnement (glass, refraksjon) sammenlignet med tidligere versjoner.
- Tenkning / indre forfiningModellen bruker en synlig «tenkeprosess» internt for å forbedre komposisjonen (API-et dokumenterer denne oppførselen og bemerker at disse interne trinnene ikke belastes som endelige bildetokener).
- Jording og verktøy: Støtter Søk jording (kan innlemme nettfakta i generering av diagrammer/infografikk). Den støtter også systeminstruksjoner for mer deterministisk kontroll.
Viktige API-parametere:
thinking_level(lav / høy) for å bytte latens kontra resonneringsdybde;media_resolution(lav/middels/høy) for å kontrollere OCR-tokens for bilder/detaljert lesing;generationConfig.imageConfigfor å kontrollere sideforhold/oppløsning i bildeutganger.
Bildegrenser:
- Støttede inndatamodaliteter: Tekst og bilder (modellen godtar ikke lyd eller video som inndata for bildegenerering).
- Maksimalt antall bilder per prompt: 14 (for forhåndsvisning av Gemini 3 Pro-bildet).
- Maksimal bildestørrelse (opplasting): 7 MB per inndatabilde.
- Støttede sideforhold: 1:1, 3:2, 16:9, 9:16, 21:9, osv.
Utdatabilder / tokens: høye grenser, med støtte for 4K/4096 piksler.
Benchmark ytelse
Kort sammendrag: Offentlige/tidlige referansetester så langt er stort sett kvalitative/fellesskapsdrevne, men rapporterer konsekvent betydelige forbedringer i oppløsning, artefaktreduksjon og fysisk gjengivelse sammenlignet med den originale nanobananen (Gemini 2.5 Flash Image). Spesifikke navngitte «utfordringer» har vist klare visuelle gevinster, men det finnes ennå ikke (offentlige) standardiserte numeriske referansetabeller fra Google som sammenligner v1 → v2 på tvers av standard bildegenereringsmålinger.
- Kvalitative samfunnstesterRenere kanter, skarpere mikrodetaljer, mer naturtro farger og mer nøyaktig og rask overholdelse (færre hallusinerte rekvisitter, mer konsistente karakterer). Populære uformelle tester inkluderer den såkalte «Wine Glass Test» og «Glass Burger Challenge», der GEMPIX2 (Nano Banana Pro) håndterer gjennomsiktighet og refraksjon markant bedre enn tidligere versjoner.
- TeksthåndteringNano Banana Pro viser synlig forbedret typografi og tekstplassering i bilder (en vedvarende svakhet for mange bildemodeller). Sammenligninger i fellesskapet indikerer færre forvrengte gjengitte tegn.
- Gjennomstrømning / UXraskere iterasjonshastighet og en brukeropplevelse som utfører flertrinns forbedring på baksiden, slik at brukerne ser mer pålitelige resultater ved første omgang (reduserer manuelle omrullinger).
Begrensninger og risikoer
- Innholdsfiltre og -deteksjonPlattformer som integrerer modellen (f.eks. Whisk/tredjepartsapper) kan muliggjøre streng kjendis- eller likhetsgjenkjenning og blokkere visse utganger, noe som påvirker kreative arbeidsflyter som er avhengige av realistiske kjendislikheter.
- Hallusinasjon / tilfeller av grenser for resonnementSelv om modellen er forbedret, kan den fortsatt produsere fysisk urealistiske artefakter, spesielt med tett symbolsk tekst inni bilder eller svært tekniske diagrammer – selv om NB2 ser ut til å redusere disse feilene sammenlignet med tidligere versjoner.
- Sikkerhet og misbruk: Generative bildemodeller kan brukes til å lage problematisk eller skadelig innhold. Google bruker begrensninger, innholdsfiltre og SynthID-vannmerket for å hjelpe med proveniens; likevel har det forekommet misbruk (høyprofilert kontrovers knyttet til et Nano Banana-generert bilde i en politisk sensitiv setting).
Hvordan Nano Banana Pro står seg mot andre modeller
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro-bilde) – sterk mobilintegrasjon, flerbildefusjon, iterativ selvkorrigering, 2K native/4K oppskalering, tett integrert i Google-apper (Søk, Bilder, Arbeidsområde/Gemini). Best for arbeidsflyter som trenger pålitelige redigeringer, kontinuitet og integrasjon med Google-tjenester.
- midt på reisen — utmerker seg ved stiliserte kunstneriske resultater og fellesskapsdrevet prompt engineering; vanligvis ikke rettet mot fotonøyaktig flerbildefusjon eller dype multimodale redigeringsprosesser.
- Stabil diffusjon / åpne vekter — fullstendig åpen, svært tilpassbar og lokalt vertskap; økosystem av kontrollpunkter og finjustering er en avgjørende fordel for forskning og bruk offline. Mindre mobilintegrasjon med ett klikk og mindre konsistent koherens i flerbilderedigering rett ut av esken enn Nano Banana Pro.
- Seedream 4.0 (ByteDance) – nylig eksplisitt posisjonert som en konkurrent til Nano Banana, med vekt på ultrarask gjengivelse, 2K-utgang og støtte for mange referansebilder (opptil seks). Posisjonert som et alternativ for pro/skapere.
(Disse sammenligningene er på høyt nivå; velg en vinner ved å matche verktøyet til arbeidsflyten din: åpenhet/tilpassbarhet → Stabil diffusjon; stilisert kunst → Midtveis; integrert, konsistent mobilredigering med aggressiv iterasjon → Nano Banana Pro/Gemini 3 Pro-bildefamilie.)
Brukstilfeller fra den virkelige verden
- Mobil fotoredigering og kreative filtre (Google Photos-integrasjoner – restyling, bakgrunnssammenslåing, portrettrekomponering).
- Markedsførings- og annonseelementer — rask konseptgenerering, konsistente merkevarekarakterer på tvers av flere rammer/vinkler.
- Konseptkunst og storyboarding — flerbildefusjon bidrar til å holde karakterkontinuiteten på tvers av paneler.
- E-handel / produktmodeller — generere konsistente produktbilder i ulike kontekster/lysforhold.
- Rask prototyping for AR/VR-ressurser — høykvalitets 2K/4K-utganger som kan skaleres for altoppslukende bruk.
Hvordan kalle opp gemini-3-pro-image(Nano Banan Pro) API
Nano Banana API-priser i CometAPI, 20 % rabatt på den offisielle prisen:
| Pris | $0.19200 |
Nødvendige trinn
- Logg på cometapi.com. Hvis du ikke er vår bruker ennå, vennligst registrer deg først
- Få tilgangslegitimasjons-API-nøkkelen til grensesnittet. Klikk "Legg til token" ved API-tokenet i det personlige senteret, hent tokennøkkelen: sk-xxxxx og send inn.
- Få url til dette nettstedet: https://api.cometapi.com/
Bruk metoden
- Velg "
gemini-3-pro-image” endepunkt for å sende API-forespørselen og angi forespørselsteksten. Forespørselsmetoden og forespørselsteksten er hentet fra vårt API-dokument for nettstedet vårt. Vårt nettsted gir også Apifox-test for din bekvemmelighet. - Erstatt med din faktiske CometAPI-nøkkel fra kontoen din.
- Sett inn spørsmålet eller forespørselen din i innholdsfeltet – det er dette modellen vil svare på.
- . Behandle API-svaret for å få det genererte svaret.
CometAPI tilbyr et fullt kompatibelt REST API – for sømløs migrering. Viktige detaljer:
- Grunnadresse: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modellnavn:
gemini-3-pro-image - Autentisering:
Bearer YOUR_CometAPI_API_KEYheader - Innholdstype:
application/json.



