Googles Nano Banan Pro (officielt model-id gemini-3-pro-image-preview) er billedgenererings-/billedredigeringsvarianten af Gemini 3 Pro. Det er en professionel billedmodel i forhåndsvisningsfasen, der tilføjer 2K/4K-output, high-fidelity-komposition af flere billeder (op til 14 referencebilleder, karakterkonsistens for op til 5 mennesker), stærkere tekst-i-billede-gengivelse og søgebaseret grundlag for fakta i den virkelige verden.
Grundlæggende funktioner
- Tekst → Billede: fuld prompt-drevet generation med stærk prompt overholdelse.
- **Billede → Billede (redigeringer)**Fine, målrettede redigeringer med opretholdt emne-/karakterkonsistens på tværs af flere redigeringer.
- Maksimal udgangsopløsning: op til 4K (eksempler og understøttede nøjagtige pixelstørrelser afhænger af billedformatet; API'en eksponerer 1K/2K/4K forudindstillinger)
- Iterativ planlægning og selvkorrektionen intern "flertrins" pipeline, der registrerer og korrigerer almindelige visuelle fejl (perspektiv, tekst, fin geometri).
- Avanceret tekstgengivelse i billedetKlar, læselig flersproget tekst (fra korte billedtekster til lange afsnit) egnet til plakater, mockups og infografik.
- 5 tegn og troskab i op til 14 objekter/referencebilleder i en enkelt arbejdsgang.
- Vandmærke / proveniens: Alle genererede billeder inkluderer et SynthID-vandmærke; modellen integrerer C2PA-metadata for proveniens i nogle produktintegrationer.
Gemini 3 Pro billedversioner og navngivning
gemini-3-pro-image-previewgemini-3-pro-image
Tekniske detaljer
arkitektur
- Afstamning / rygradNano Banana Pro bygges på Googles udviklende Gemini-billedstak – specifikt den nye Gemini 3 Pro-billede / GEMPIX 2 arkitektur (et multimodalt billede+tekst-framework med højere kapacitet). Det er en udvikling fra Gemini 2.5 Flash-billede (den originale "nano-banan") til en native multimodal billedmodel med udvidede ræsonnementsmuligheder inden for synssprog.
- Modeladfærd: indbygget multimodalitet (billede + tekst + verdenskendskab), eksplicitte pipelines til fusion af flere billeder og en intern, trindelt planlægger, der forfiner output over flere passager i stedet for at producere en enkelt statisk prøve. Tidlige rapporter indikerer stærkere geometrisk/optisk ræsonnement (glas, refraktion) i forhold til tidligere versioner.
- Tænkning / indre forfinelseModellen bruger en synlig "tænkeproces" internt til at forfine kompositionen (API'en dokumenterer denne adfærd og bemærker, at disse interne trin ikke opkræves som endelige billedtokens).
- Jordforbindelse og værktøj: Bakker op Søg jordforbindelse (kan inkorporere webfakta i generering af diagrammer/infografik). Det understøtter også systeminstruktioner for mere deterministisk kontrol.
Vigtige API-parametre:
thinking_level(lav/høj) for at udveksle latenstid vs. ræsonnementdybde;media_resolution(lav/medium/høj) for at styre billed-OCR/detaljelæsningstokens;generationConfig.imageConfigtil at kontrollere billedformat/opløsning i billedoutput.
Billedgrænser:
- Understøttede inputmodaliteter: Tekst og billeder (modellen accepterer ikke lyd eller video som billedgenereringsinput).
- Maksimalt antal billeder pr. prompt: 14 (for Gemini 3 Pro-billedet).
- Maksimal billedstørrelse (upload): 7 MB pr. inputbillede.
- Understøttede billedformater: 1:1, 3:2, 16:9, 9:16, 21:9 osv.
Outputbilleder / tokens: høje grænser, med understøttelse af 4K/4096px.
Benchmark ydeevne
Kort opsummering: Offentlige/tidlige benchmarks er indtil videre for det meste kvalitative/fællesskabsdrevne, men rapporterer konsekvent betydelige forbedringer i opløsning, artefaktreduktion og fysisk kvalitet i forhold til den originale nano-banan (Gemini 2.5 Flash Image). Specifikke navngivne "udfordringer" har vist klare visuelle gevinster, men der er endnu ikke (offentlige) standardiserede numeriske benchmarktabeller fra Google, der sammenligner v1 → v2 på tværs af standard billedgenereringsmålinger.
- Kvalitative fællesskabstestsRenere kanter, skarpere mikrodetaljer, mere naturtro farver og mere præcis og hurtig overholdelse (færre hallucinerede rekvisitter, mere ensartede karakterer). Populære uformelle tests inkluderer den såkaldte "Wine Glass Test" og "Glass Burger Challenge", hvor GEMPIX2 (Nano Banana Pro) håndterer gennemsigtighed og refraktion markant bedre end tidligere builds.
- TeksthåndteringNano Banana Pro viser synligt forbedret typografi og tekstplacering i billeder (en vedvarende svaghed for mange billedmodeller). Sammenligninger med andre brugere viser færre forvrængede gengivne glyffer.
- Gennemløb / UXhurtigere iterationshastighed og en brugeroplevelse, der udfører flertrinsjustering på backend, så brugerne ser mere pålidelige resultater i første gennemgang (reducerer manuelle genudsendelser).
Begrænsninger og risici
- Indholdsfiltre og -detektionPlatforme, der integrerer modellen (f.eks. Whisk/tredjepartsapps), kan muliggøre streng detektion af kendisser eller ligheder og blokere visse output, hvilket påvirker kreative arbejdsgange, der er afhængige af realistiske kendisligheder.
- Hallucinationer / tilfælde af kantsten i ræsonnementetSelvom modellen er forbedret, kan den stadig producere fysisk urealistiske artefakter, især med tæt symbolsk tekst i billeder eller meget tekniske diagrammer - selvom NB2 ser ud til at reducere disse fejl i forhold til tidligere versioner.
- Sikkerhed og misbrug: Generative billedmodeller kan bruges til at skabe problematisk eller skadeligt indhold. Google anvender begrænsninger, indholdsfiltre og SynthID-vandmærket for at hjælpe med proveniens; ikke desto mindre er der forekommet misbrug (højprofileret kontrovers knyttet til et Nano Banana-genereret billede i en politisk følsom sammenhæng).
Hvordan Nano Banana Pro klarer sig i forhold til andre modeller
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro-billede) — stærk mobilintegration, fusion af flere billeder, iterativ selvkorrektion, 2K native/4K opskalering, tæt integreret i Google-apps (Søgning, Fotos, Workspace/Gemini). Bedst til arbejdsgange, der kræver pålidelige redigeringer, kontinuitet og integration med Google-tjenester.
- midt på rejsen — udmærker sig ved stiliserede kunstneriske output og community-drevet prompt engineering; typisk ikke rettet mod fotonøjagtig flerbilledfusion eller dybdegående multimodale redigeringspipelines.
- Stabil diffusion / åbne vægte — fuldt åben, yderst brugerdefinerbar og lokalt hostbar; økosystemet af checkpoints og finjustering er en afgørende fordel for forskning og offline brug. Mindre "one-click" mobilintegration og mindre ensartet kohærens i redigering af flere billeder direkte fra Nano Banana Pro.
- Seedream 4.0 (ByteDance) — for nylig eksplicit positioneret som en konkurrent til Nano Banana, med vægt på ultrahurtig rendering, 2K-output og understøttelse af mange referencebilleder (op til seks). Positioneret som et alternativ til pro/creator.
(Disse sammenligninger er på højt niveau; vælg en vinder ved at matche værktøjet til din arbejdsgang: åbenhed/tilpasningsmuligheder → Stabil diffusion; stiliseret kunst → Midjourney; integreret, ensartet mobilredigering med aggressiv iteration → Nano Banana Pro/Gemini 3 Pro-billedfamilie.)
Reelle brugssager
- Mobil fotoredigering og kreative filtre (Google Fotos-integrationer — restyling, baggrundsfusion, portrætomsætning).
- Marketing- og annonceaktiver — hurtig konceptgenerering, ensartede brandkarakterer på tværs af flere rammer/vinkler.
- Konceptkunst og storyboarding — fusion af flere billeder hjælper med at bevare karakterkontinuiteten på tværs af paneler.
- E-handel / produktmodeller — generere ensartede produktbilleder i forskellige kontekster/lysforhold.
- Hurtig prototyping til AR/VR-aktiver — 2K/4K-udgange af høj kvalitet, der kan skaleres til fordybende brug.
Sådan kalder du gemini-3-pro-image(Nano Banan Pro) API
Nano Banana API-priser i CometAPI, 20% rabat på den officielle pris:
| Pris | $0.19200 |
Påkrævede trin
- Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, bedes du registrere dig først
- Få adgangslegitimations-API-nøglen til grænsefladen. Klik på "Tilføj token" ved API-tokenet i det personlige center, få token-nøglen: sk-xxxxx og send.
- Hent url'en til dette websted: https://api.cometapi.com/
Brug metoden
- Vælg "
gemini-3-pro-image” endepunkt for at sende API-anmodningen og indstille anmodningsteksten. Forespørgselsmetoden og anmodningsteksten er hentet fra vores websteds API-dokument. Vores websted tilbyder også Apifox-test for din bekvemmelighed. - Erstatte med din faktiske CometAPI-nøgle fra din konto.
- Indsæt dit spørgsmål eller din anmodning i indholdsfeltet – det er det, modellen vil reagere på.
- . Behandle API-svaret for at få det genererede svar.
CometAPI leverer en fuldt kompatibel REST API – til problemfri migrering. Vigtige detaljer:
- Basis URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modelnavne:
gemini-3-pro-image - Godkendelse:
Bearer YOUR_CometAPI_API_KEYheader - Indholdstype:
application/json.



