Grundlæggende funktioner
- Text → Image: fuld prompt-baseret generering med stærk efterlevelse af prompten.
- Image → Image (redigeringer): fine, målrettede redigeringer med bevaret motiv-/karakterkonsistens på tværs af flere redigeringer.
- Maksimal outputopløsning: op til 4K (eksempler og understøttede præcise pixelstørrelser afhænger af sideforhold; API'et udstiller 1K/2K/4K forudindstillinger)
- Iterativ planlægning & selvkorrektion: en intern “flertrins” pipeline, der detekterer og korrigerer almindelige visuelle fejl (perspektiv, tekst, fin geometri).
- Avanceret tekstgengivelse i billedet: klar, læsbar flersproget tekst (korte billedtekster til lange afsnit) egnet til plakater, mockups og infografikker.
- 5 karakterer og fidelitet for op til 14 objekter/referencebilleder i en enkelt arbejdsgang.
- Vandmærkning / proveniens: alle genererede billeder inkluderer et SynthID-vandmærke; modellen indlejrer C2PA-metadata for proveniens i nogle produktintegrationer.
Gemini 3 Pro Image-versioner og navngivning
gemini-3-pro-image-previewgemini-3-pro-image
Tekniske detaljer
Arkitektur
- Stamtavle / rygrad: Nano Banana Pro er bygget på Googles udviklende Gemini-billedstak — specifikt den nye Gemini 3 Pro Image / GEMPIX 2 arkitektur (et højkapacitets multimodalt billede+tekst-rammeværk). Det er en evolution fra Gemini 2.5 Flash Image (den originale “nano-banana”) til en oprindeligt multimodal billedmodel med udvidede syns- og sproglige ræsonneringsevner.
- Modeladfærd: indfødt multimodalitet (billede + tekst + verdenviden), eksplicitte pipelines til multi-billedfusion, og en intern trinvis planner, der forfiner output over flere passager frem for at producere en enkelt statisk prøve. Tidlige rapporter indikerer stærkere geometrisk/optisk ræsonnering (glas, brydning) kontra tidligere versioner.
- Tænkning / intern forfining: Modellen bruger en synlig “tænke”-proces internt til at forfine komposition (API'et dokumenterer denne adfærd og bemærker, at disse interne trin ikke tælles som endelige billedtokens).
- Grounding & værktøjer: Understøtter Search grounding (kan indarbejde webfakta i diagram-/infografikgenerering). Det understøtter også systeminstruktioner for mere deterministisk kontrol.
Vigtige API-parametre:
thinking_level(low / high) for at afveje latenstid kontra ræsonneringsdybde;media_resolution(low/medium/high) til at styre billed-OCR/detallæsningstokens;generationConfig.imageConfigtil at styre sideforhold/opløsning i billedoutput.
Billedbegrænsninger:
- Understøttede inputmodaliteter: Tekst og billeder (modellen accepterer ikke lyd eller video som input til billedgenerering).
- Maks. billeder pr. prompt: 14 (for Gemini 3 Pro Image preview).
- Maks. billedstørrelse (upload): 7 MB pr. inputbillede.
- Understøttede sideforhold: 1:1, 3:2, 16:9, 9:16, 21:9 osv.
Outputbilleder / tokens: høje grænser, med 4K/4096px understøttet.
Benchmark-ydeevne
Kort resume: offentlige/tidlige benchmarks er indtil videre mest kvalitative / community-drevne, men rapporterer konsekvent væsentlige forbedringer i opløsning, reduktion af artefakter og fysisk fidelitet kontra den originale nano-banana (Gemini 2.5 Flash Image). Specifikke navngivne “udfordringer” har vist klare visuelle gevinster, men der findes endnu ikke (offentlige) standardiserede numeriske benchmarktabeller fra Google, der sammenligner v1 → v2 på standardmål for billedgenerering.
- Kvalitative community-tests: renere kanter, skarpere mikrodetaljer, mere trofarver og mere trofast efterlevelse af prompt (færre hallucinerede rekvisitter, mere konsistente karakterer). Populære uformelle tests inkluderer den såkaldte “Wine Glass Test” og “Glass Burger Challenge”, hvor GEMPIX2 (Nano Banana Pro) håndterer transparens og brydning markant bedre end tidligere builds.
- Teksthåndtering: Nano Banana Pro viser synligt forbedret typografi og tekstplacering inde i billeder (en vedvarende svaghed for mange billedmodeller). Community-sammenligninger indikerer færre forvanskede renderede glyffer.
- Gennemløb / UX: hurtigere iterationshastighed og en UX, der udfører flertrins forfining i backend, så brugere ser mere pålidelige første-pas-resultater (reducerer manuelle nykørsler).
Begrænsninger og risici
- Indholdsfiltre & detektion: Platforme, der integrerer modellen (f.eks. Whisk/tredjepartsapps), kan aktivere streng celebrity- eller lighedsdetektion og blokere visse output, hvilket påvirker kreative arbejdsgange, der er afhængige af realistiske celebrity-ligheder.
- Hallucination / ræsonneringsgrænsetilfælde: selvom forbedret, kan modellen stadig producere fysisk urealistiske artefakter, især med tæt symbolsk tekst inde i billeder eller meget tekniske diagrammer — dog ser NB2 ud til at reducere disse fejl kontra tidligere versioner.
- Sikkerhed & misbrug: generative billedmodeller kan bruges til at skabe problematisk eller skadeligt indhold. Google anvender begrænsninger, indholdsfiltre og SynthID-vandmærket for at hjælpe med proveniens; ikke desto mindre er misbrug forekommet (højprofileret kontrovers knyttet til et Nano Banana-genereret billede i en politisk følsom kontekst).
Hvordan Nano Banana Pro klarer sig i forhold til andre modeller
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — stærk mobilintegration, multi-billedfusion, iterativ selvkorrektion, 2K native/4K opskalering, tæt integreret i Google-apps (Search, Photos, Workspace/Gemini). Bedst til arbejdsgange, der kræver pålidelige redigeringer, kontinuitet og integration med Google-tjenester.
- Midjourney — udmærker sig ved stiliserede kunstneriske output og community-drevet prompt-engineering; typisk ikke målrettet foto-præcis multi-billedfusion eller dybe multimodale redigeringspipelines.
- Stable Diffusion / åbne vægte — fuldt åbent, stærkt tilpasseligt og kan hostes lokalt; økosystemet af checkpoints og finjustering er en afgørende fordel for forskning og offline-brug. Mindre “one-click” mobilintegration og mindre konsistent multi-billedredigeringskohærens out-of-the-box end Nano Banana Pro.
- Seedream 4.0 (ByteDance) — for nylig positioneret eksplicit som en Nano Banana-konkurrent, med betoning af ultrahurtig rendering, 2K output og understøttelse af mange referencebilleder (op til seks). Positioneret som et pro-/creator-alternativ.
(Disse sammenligninger er på højt niveau; vælg en vinder ved at matche værktøjet til din arbejdsgang: åbenhed/tilpasningsmuligheder → Stable Diffusion; stiliseret kunst → Midjourney; integreret, konsistent mobilredigering med aggressiv iteration → Nano Banana Pro/Gemini 3 Pro Image-familien.)
Virkelige anvendelsescases
- Mobile fotoredigering & kreative filtre (Google Photos-integrationer — restyling, baggrundsfusion, portræt-rekomposition).
- Marketing- & annonceaktiver — hurtig konceptgenerering, konsistente brandkarakterer på tværs af flere frames/vinkler.
- Konceptkunst & storyboard — multi-billedfusion hjælper med at bevare karakterkontinuitet på tværs af paneler.
- E-handel / produktmockups — generér konsistente produktbilleder i forskellige kontekster/lysforhold.
- Hurtig prototyping til AR/VR-aktiver — høj kvalitet 2K/4K outputs, der kan opskaleres til immersive anvendelser.
- How to accessl gemini-3-pro-image(Nano Banana Pro) API
Påkrævede trin
- Log ind på cometapi.com. Hvis du ikke er bruger hos os endnu, skal du registrere dig først
- Hent adgangslegitimation API-nøglen til interfacet. Klik “Add Token” ved API token i det personlige center, få token-nøglen: sk-xxxxx og indsend.
- Hent webstedets url: https://api.cometapi.com/
Brugsmåde
- Vælg “
gemini-3-pro-image”-endpointet for at sende API-anmodningen og angive anmodningskroppen. Anmodningsmetoden og anmodningskroppen hentes fra vores websteds API-dokumentation. Vores websted tilbyder også Apifox-test for din bekvemmelighed. - Erstat <YOUR_API_KEY> med din faktiske CometAPI-nøgle fra din konto.
- Indsæt dit spørgsmål eller din anmodning i content-feltet — det er dette, modellen vil svare på.
- . Behandl API-svaret for at få det genererede svar.
CometAPI leverer en fuldt kompatibel REST API — for problemfri migrering. Nøgledetaljer :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Modelnavne:
gemini-3-pro-image - Godkendelse:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.